关于本福特定律的简单解释和推导,参见:
https://zhuanlan.zhihu.com/p/440462854
思考本福特定律,与齐夫定律对照,它们之间似乎可以相互推导,是真的吗?
本福特定律说首数为
n
n
n的概率:
P
(
n
)
=
log
10
n
+
1
n
=
log
10
(
n
+
1
)
−
log
10
n
P(n)=\log_{10}\dfrac{n+1}{n}=\log_{10}(n+1)-\log_{10}n
P(n)=log10nn+1=log10(n+1)−log10n
写成连续的形式:
P
(
x
)
=
log
10
(
x
+
1
)
−
log
10
x
P(x)=\log_{10}(x+1)-\log_{10}x
P(x)=log10(x+1)−log10x
从这个形式上看,它是一个定积分
∫
x
x
+
1
log
10
e
n
d
n
\displaystyle\int_x^{x+1}\dfrac{\log_{10}e}{n}dn
∫xx+1nlog10edn 。设不定积分式为
F
(
x
)
F(x)
F(x),则:
F
(
x
)
=
∫
log
10
e
x
d
x
F(x)=\displaystyle\int\dfrac{\log_{10}e}{x}dx
F(x)=∫xlog10edx
积分
F
(
x
)
F(x)
F(x)实际上就是所有首数字概率的积累分布函数,其概率密度函数为一个反比例函数:
f
(
x
)
=
log
10
e
x
f(x)=\dfrac{\log_{10}e}{x}
f(x)=xlog10e
从本福特定律的概念上讲,首数字为
n
n
n的概率可以写成两种形式:
- 定积分的形式:
P
i
n
t
(
n
)
=
F
(
x
)
∣
n
n
+
1
P_{int}(n)=F(x)|_n^{n+1}
- 概率密度的形式:
P
p
r
o
b
(
n
)
=
f
(
n
)
P_{prob}(n)=f(n)
连续化是为了拟合微积分计算,回到离散的形式:
P
p
r
o
b
(
n
)
=
f
(
n
)
=
log
10
e
n
P_{prob}(n)=f(n)=\dfrac{\log_{10}e}{n}
Pprob(n)=f(n)=nlog10e
换一种写法:
P
p
r
o
b
(
n
)
×
n
=
log
10
e
P_{prob}(n)\times n=\log_{10}e
Pprob(n)×n=log10e
这看起来符合齐夫定律。来看下是不是。
经过了连续~离散变换,连续情况下的反比例形式不能用于离散情况的计算,只能直观理解
P
(
n
)
×
n
=
常
数
C
P(n)\times n=常数C
P(n)×n=常数C。现在直接从本福特定律的结论入手,实际计算一下:
P
(
n
)
×
n
=
n
×
log
10
n
+
1
n
=
log
10
(
n
+
1
n
)
n
P(n)\times n=n\times \log_{10}\dfrac{n+1}{n}=\log_{10}(\dfrac{n+1}{n})^n
P(n)×n=n×log10nn+1=log10(nn+1)n
设:
g
(
n
)
=
(
n
+
1
n
)
n
g(n)=(\dfrac{n+1}{n})^n
g(n)=(nn+1)n
g
(
n
)
g(n)
g(n)快速逼近
e
e
e,但仅在
n
n
n取1~9时,
g
(
x
)
g(x)
g(x)有意义,分别为:
g
(
1
)
=
2
,
g
(
2
)
=
2.25
,
g
(
3
)
=
2.37
,
g
(
4
)
=
2.44
,
g
(
5
)
=
2.48
,
g
(
6
)
=
2.52
,
g
(
7
)
=
2.54
,
g
(
8
)
=
2.56
,
g
(
9
)
=
2.58
g(1)=2, g(2)=2.25,g(3)=2.37,g(4)=2.44,g(5)=2.48,g(6)=2.52,g(7)=2.54,g(8)=2.56,g(9)=2.58
g(1)=2,g(2)=2.25,g(3)=2.37,g(4)=2.44,g(5)=2.48,g(6)=2.52,g(7)=2.54,g(8)=2.56,g(9)=2.58
log
10
x
\log_{10}x
log10x单调递增,计算
log
10
g
(
1
)
\log_{10}g(1)
log10g(1)和
log
10
g
(
9
)
\log_{10}g(9)
log10g(9)的值,分别为:
log
10
g
(
1
)
=
0.301
\log_{10}g(1)=0.301
log10g(1)=0.301
log
10
g
(
9
)
=
0.411
\log_{10}g(9)=0.411
log10g(9)=0.411
它们相差非常小,可近似为符合齐夫定律。
这是为什么?
通过上述推导,
P
i
n
t
P_{int}
Pint和
P
p
r
o
b
P_{prob}
Pprob是可以相互转换的,只要可以将事情抽象成
P
i
n
t
P_{int}
Pint的定积分形式,结合概率密度函数和积累分布函数的概念,一定可以通过求导换算成
P
p
r
o
b
P_{prob}
Pprob,后者正好是一个反比例函数。这意味着位标
x
x
x与函数值
f
(
x
)
f(x)
f(x)的乘积是一个常数,这是满足齐夫定律的条件。
那么齐夫定律的典型case,城市人口问题是否可以写成类似
P
(
n
)
=
log
10
n
+
1
n
P(n)=\log_{10}\dfrac{n+1}{n}
P(n)=log10nn+1的形式呢?是可以的。
城市人口来自于外来者的定居(城市没有土著,土著是乡村的概念),一个人选择哪个城市定居取决于多个维度,列如下:
D
1
=
生
活
环
境
D_1=生活环境
D1=生活环境
D
2
=
工
作
机
会
D_2=工作机会
D2=工作机会
D
3
=
子
女
教
育
D_3=子女教育
D3=子女教育
D
4
=
生
活
设
施
D_4=生活设施
D4=生活设施
D
5
=
医
疗
资
源
D_5=医疗资源
D5=医疗资源
…
设人们有
N
N
N个城市
C
i
C_i
Ci可选,它们综合排名如下:
C
1
>
C
2
>
C
3
.
.
.
C
N
C_1>C_2>C_3...C_N
C1>C2>C3...CN,人们选择定居地时,会在这
N
N
N个城市中考虑
D
i
D_i
Di:
- 若
i
<
j
i<j
C
i
C_i
若问是什么初始因素导致了城市规模的初始差异,就要涉及优先依附原则了,这又要牵扯到无标度网络的生长动力学,本文不谈这些,所以直接假设了排名。
D
i
D_i
Di几乎每人都会考虑,但
D
2
D_2
D2,
D
3
D_3
D3可能有人不关心。终于,可以将所有人按照下列方式分类:
- 只考虑
D
1
D_1
- 同时考虑
D
1
,
D
2
D_1,D_2
- 同时考虑
D
1
,
D
2
,
D
3
D_1,D_2,D_3
- 同时考虑
D
1
,
D
2
,
D
3
,
D
4
D_1,D_2,D_3,D_4
- 同时考虑
D
1
,
D
2
,
D
3
,
D
4
,
D
5
D_1,D_2,D_3,D_4,D_5
- …
无论如何,对于任何维度,排名靠前的城市一定被优先考虑。
进行下面的类比:
- 把上述考虑维度
D
1
,
D
2
,
D
3
,
.
.
.
D_1,D_2,D_3,...
- 把上述待考虑城市
C
1
,
C
2
,
C
3
,
.
.
.
C_1,C_2,C_3,...
1
,
2
,
3
,
.
.
.
1,2,3,...
- 把上述待定居人们的分类看作自然数集首数概率问题的个位数,十位数,百位数…
显然可以导出遵循齐夫定律的城市规模分布同样也遵循本福特定律:
- 第
n
n
P
=
log
N
n
+
1
n
P=\log_N\dfrac{n+1}{n}
浙江温州皮鞋湿,下雨进水不会胖。
原文链接: https://blog.csdn.net/dog250/article/details/121647252
欢迎关注
微信关注下方公众号,第一时间获取干货硬货;公众号内回复【pdf】免费获取数百本计算机经典书籍;
也有高质量的技术群,里面有嵌入式、搜广推等BAT大佬
原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/405639
非原创文章文中已经注明原地址,如有侵权,联系删除
关注公众号【高性能架构探索】,第一时间获取最新文章
转载文章受原作者版权保护。转载请注明原作者出处!