本福特定律和齐夫定律是一回事吗

关于本福特定律的简单解释和推导，参见：
https://zhuanlan.zhihu.com/p/440462854

思考本福特定律，与齐夫定律对照，它们之间似乎可以相互推导，是真的吗？

本福特定律说首数为

$n$ 的概率：

(

)

log

⁡

log

⁡

(

)

−

log

⁡

P(n)=\log_{10}\dfrac{n+1}{n}=\log_{10}(n+1)-\log_{10}n

$P (n) = lo g_{10} \frac{n + 1}{n} = lo g_{10} (n + 1) - lo g_{10} n$

写成连续的形式：

(

)

log

⁡

(

)

−

log

⁡

P(x)=\log_{10}(x+1)-\log_{10}x

$P (x) = lo g_{10} (x + 1) - lo g_{10} x$

从这个形式上看，它是一个定积分

∫

log

⁡

\displaystyle\int_x^{x+1}\dfrac{\log_{10}e}{n}dn

$\int_{x}^{x + 1} \frac{lo g _{10} e}{n} d n$ 。设不定积分式为

(

)

F(x)

$F (x)$ ，则：

(

)

∫

log

⁡

F(x)=\displaystyle\int\dfrac{\log_{10}e}{x}dx

$F (x) = \int \frac{lo g _{10} e}{x} d x$

积分

(

)

F(x)

$F (x)$ 实际上就是所有首数字概率的积累分布函数，其概率密度函数为一个反比例函数：

(

)

log

⁡

f(x)=\dfrac{\log_{10}e}{x}

$f (x) = \frac{lo g _{10} e}{x}$

从本福特定律的概念上讲，首数字为

$n$ 的概率可以写成两种形式：

定积分的形式： $P_{int}(n)=F(x)|_n^{n+1} Pint(n)=F(x)∣nn+1$
概率密度的形式： $P_{prob}(n)=f(n) Pprob(n)=f(n)$

连续化是为了拟合微积分计算，回到离散的形式：

(

)

(

)

log

⁡

P_{prob}(n)=f(n)=\dfrac{\log_{10}e}{n}

$P_{p r o b} (n) = f (n) = \frac{lo g _{10} e}{n}$

换一种写法：

(

)

log

⁡

P_{prob}(n)\times n=\log_{10}e

$P_{p r o b} (n) \times n = lo g_{10} e$

这看起来符合齐夫定律。来看下是不是。

经过了连续～离散变换，连续情况下的反比例形式不能用于离散情况的计算，只能直观理解

(

)

常

数

P(n)\times n=常数C

$P (n) \times n = 常数 C$ 。现在直接从本福特定律的结论入手，实际计算一下：

(

)

log

⁡

log

⁡

(

)

P(n)\times n=n\times \log_{10}\dfrac{n+1}{n}=\log_{10}(\dfrac{n+1}{n})^n

$P (n) \times n = n \times lo g_{10} \frac{n + 1}{n} = lo g_{10} (\frac{n + 1}{n})^{n}$

设：

(

)

(

)

g(n)=(\dfrac{n+1}{n})^n

$g (n) = (\frac{n + 1}{n})^{n}$

(

)

g(n)

$g (n)$ 快速逼近

$e$ ，但仅在

$n$ 取1～9时，

(

)

g(x)

$g (x)$ 有意义，分别为：

(

)

(

)

2.25

(

)

2.37

(

)

2.44

(

)

2.48

(

)

2.52

(

)

2.54

(

)

2.56

(

)

2.58

g(1)=2, g(2)=2.25,g(3)=2.37,g(4)=2.44,g(5)=2.48,g(6)=2.52,g(7)=2.54,g(8)=2.56,g(9)=2.58

$g (1) = 2, g (2) = 2.25, g (3) = 2.37, g (4) = 2.44, g (5) = 2.48, g (6) = 2.52, g (7) = 2.54, g (8) = 2.56, g (9) = 2.58$

log

⁡

\log_{10}x

$lo g_{10} x$ 单调递增，计算

log

⁡

(

)

\log_{10}g(1)

$lo g_{10} g (1)$ 和

log

⁡

(

)

\log_{10}g(9)

$lo g_{10} g (9)$ 的值，分别为：

log

⁡

(

)

0.301

\log_{10}g(1)=0.301

$lo g_{10} g (1) = 0.301$

log

⁡

(

)

0.411

\log_{10}g(9)=0.411

$lo g_{10} g (9) = 0.411$

它们相差非常小，可近似为符合齐夫定律。

这是为什么？

通过上述推导，

P_{int}

$P_{i n t}$ 和

P_{prob}

$P_{p r o b}$ 是可以相互转换的，只要可以将事情抽象成

P_{int}

$P_{i n t}$ 的定积分形式，结合概率密度函数和积累分布函数的概念，一定可以通过求导换算成

P_{prob}

$P_{p r o b}$ ，后者正好是一个反比例函数。这意味着位标

$x$ 与函数值

(

)

f(x)

$f (x)$ 的乘积是一个常数，这是满足齐夫定律的条件。

那么齐夫定律的典型case，城市人口问题是否可以写成类似

(

)

log

⁡

P(n)=\log_{10}\dfrac{n+1}{n}

$P (n) = lo g_{10} \frac{n + 1}{n}$ 的形式呢？是可以的。

城市人口来自于外来者的定居(城市没有土著，土著是乡村的概念)，一个人选择哪个城市定居取决于多个维度，列如下：

生

活

环

境

D_1=生活环境

$D_{1} = 生活环境$

工

作

机

会

D_2=工作机会

$D_{2} = 工作机会$

子

女

教

育

D_3=子女教育

$D_{3} = 子女教育$

生

活

设

施

D_4=生活设施

$D_{4} = 生活设施$

医

疗

资

源

D_5=医疗资源

$D_{5} = 医疗资源$
…

设人们有

$N$ 个城市

C_i

$C_{i}$ 可选，它们综合排名如下：

C_1>C_2>C_3...C_N

$C_{1} > C_{2} > C_{3} . . . C_{N}$ ，人们选择定居地时，会在这

$N$ 个城市中考虑

D_i

$D_{i}$ ：

若 $C_i Ci$

若问是什么初始因素导致了城市规模的初始差异，就要涉及优先依附原则了，这又要牵扯到无标度网络的生长动力学，本文不谈这些，所以直接假设了排名。

D_i

$D_{i}$ 几乎每人都会考虑，但

D_2

$D_{2}$ ，

D_3

$D_{3}$ 可能有人不关心。终于，可以将所有人按照下列方式分类：

只考虑 $D_1 D1的人。$
同时考虑 $D_1，D_2 D1，D2的人。$
同时考虑 $D_1，D_2，D_3 D1，D2，D3的人。$
同时考虑 $D_1，D_2，D_3，D_4 D1，D2，D3，D4的人。$
同时考虑 $D_1，D_2，D_3，D_4，D_5 D1，D2，D3，D4，D5的人。$
…

无论如何，对于任何维度，排名靠前的城市一定被优先考虑。

进行下面的类比：

把上述考虑维度 $D_1，D_2，D_3，... D1，D2，D3，...看作自然数集首数概率问题中的个位，十位，百位…$
把上述待考虑城市 $C_1，C_2，C_3，... C1，C2，C3，...看作自然数集首数概率问题中的 1 ， 2 ， 3 ， . . . 1，2，3，... 1，2，3，...$
把上述待定居人们的分类看作自然数集首数概率问题的个位数，十位数，百位数…

显然可以导出遵循齐夫定律的城市规模分布同样也遵循本福特定律：

第 $P=\log_N\dfrac{n+1}{n} P=logNnn+1$

浙江温州皮鞋湿，下雨进水不会胖。

原文链接: https://blog.csdn.net/dog250/article/details/121647252

欢迎关注

微信关注下方公众号，第一时间获取干货硬货；公众号内回复【pdf】免费获取数百本计算机经典书籍;

也有高质量的技术群，里面有嵌入式、搜广推等BAT大佬

原创文章受到原创版权保护。转载请注明出处：https://www.ccppcoding.com/archives/405639

非原创文章文中已经注明原地址，如有侵权，联系删除

关注公众号【高性能架构探索】，第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处！

本福特定律和齐夫定律是一回事吗

相关推荐