第5讲 信息熵

第5讲 随机变量的信息熵

在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。

信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。物理学中的熵也称为热熵。信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。香农用信息熵度量一个物理系统内部状态和运动的不确定性。

信息熵是信息论的核心和基础概念,具有多种物理意义。香农所创立的信息论是从定义和研究信息熵开始的。这一讲我们学习信息熵的定义和性质。

1. 信息熵

我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。 定义1.1 设离散型随机变量X 的概率空间为

⎡X ⎤⎡x 1

⎢P ⎥=⎢p ⎣⎦⎣1

x 2p 2

... x n ⎤

... p n ⎥⎦

我们把X 的所有取值的自信息的期望称为X 的平均自信息量,通常称为信息熵,简称熵(entropy ),记为H(X),即

n

H (X ) =E [I (X )]=

∑p i log

i =1

1

(比特) p i

信息熵也称为香农熵。

注意,熵H (X ) 是X 的概率分布P 的函数,因此也记为H (P ) 。

定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r ,所得结果称为r-进制熵,记为H r (X ) ,其单位为“r-进制单位”。 我们有

1

H (X )

H r (X )=

log r

注意,在关于熵的表达式中,我们仍然约定

0log 0=0, 0log

信息熵的物理意义:

信息熵可从多种不同角度来理解。

x

=0 0

(1) H(X)是随机变量X 的取值所能提供的平均信息量。

(2) 统计学中用H(X)表征随机变量X 的不确定性,也就是随机性的大小。

例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。

(3) 若离散无记忆信源的符号概率分布为P ,则H(P)是该信源的所有无损编码的“平均

码长”的极限。

令X 是离散无记忆信源的符号集,所有长度为n 的消息集合为

X n ={1,2, , M }

每个消息i 在某个无损编码下的码字为w i ,码字长为l i 比特。假设各消息i 出现的概率为p i ,则该每条消息的平均码长为

L n =∑p i l i

i =1

M

因此,平均每个信源符号的码长为

L n 1M

=∑p i l i n n i =1

这个平均每个信源符号的码长称为该编码的平均码长,其量纲为(码元/信源)。 我们有

L n L

≥H (X ) 且 lim n =H (X )

n →∞n n

这是信源编码定理的推论。

2

例1.3 课本第26页例2.4. 天气预报的平均信息量。 练习:

在电脑主板上,串行接口(Serial Interface)用于向外设输出数据,每次输出1比特符号,若某段时间内输出符号的概率分布为

1⎤⎡X ⎤⎡0

=⎢p ⎥⎢1/32/3⎥ ⎣⎦⎣⎦

求此时段内该串行接口的信息率,即平均每符号所传递的信息(单位为“比特/符号”)。

3

练习解答:输出0所传递的信息为

=-l = I (0)

输出1所传递的信息为

1

3

l o g 比特3 ()

I (1)=-log

因此,输出符号的信息熵为 H (X ) =

2

=log 3-1 (比特) 3

122

log 3+(log3-1) =log 3-≈0.919(比特) 333

于是所求的信息速率为0.919比特每符号。

说明:上述信息熵H (X ) 反映了串行接口传输信息的速率,称为该接口的信息率。

2. 熵函数H(P)的性质 性质1. 非负性和确定性 H (P ) ≥0

其中H(P)=0 当且仅当P 为退化分布。

一个随机变量的概率分布为退化分布,当且仅当该随机变量是常量,即取值唯一(所以其取值是确定的)。

性质2. 对称性

H (p 1, , p i , , p j , , p n ) =H (p 1, , p j , , p i , , p n ) 性质3. 连续性

H (p 1, , p n ) 对于其中任何变量p i 是连续的。

4

性质4. 扩展性 可扩展性1:

H (p 1, , p n ,0) =H (p 1, , p n ) 可扩展性2:

lim H (p 1, p 2, , p n -1, p n -ε, ε) =H (p 1, p 2, , p n -2, p n -1, p n )

ε→0

证明:由连续性和可扩展性1立即可得。 证毕

意义:可扩展性表明,一个小概率事件对于熵的影响很小,可以忽略不计。 在熵的计算中,可以忽略其中一部分小概率事件。

例2.1 《中华字海》中收录了85000多个汉字,而常用汉字仅有3000个左右。(据统计现代汉语中这2400个汉字在一般书刊文章中所占的字数比例是99%)在计算汉字的熵时,大部分汉字都可以忽略不计,仅统计常用汉字出现的频率,以此作为这些汉字出现的概率,从而计算出汉字的熵。

性质5. 可加性

注意:即课本第31页的“递增性”。课本上的“可加性”事实上是联合熵的链法则,涉及到条件熵,放在此处不妥,后面再讨论。我们将赋予“递增性”更贴切的含义。 定理2.2(可加性公式)

⎛q q q ⎫

H (p 1, p 2, , p n -1, q 1, q 2, , q m ) =H (p 1, p 2, , p n ) +p n H 1, 2, , m ⎪

p n ⎭⎝p n p n

其中令p n =q 1+q 2+ +q m

证明:可用熵函数的定义证明,细节留给读者完成。 证毕 可加性公式让我们不断降低信息熵中概率分布的维度,将高维计算简化为低维计算。有的教材称可加性为递推性。 例2.3 应用熵函数的可加性计算

1111

H (, , , ) 3366

5

解:

1111111111H (, , , ) =H (, , ) +H (, ) 3366333322

1

=log3+

3

≈1.918 (bit)

注意,可连续应用可加性公式:

[1**********]1H (, , , ) =H (, ) +H (, ) +H (, ) [1**********]221=H (, ) +1

33

连续应用可加性公式,我们有 定理2.4 (更一般的可加性公式)

H (p 11, , p 1r 1, p 21, , p 2r 2, , p n 1, , p nr n )

p ir i ⎫⎛p i 1p i 2

=H (p 1, p 2, , p n ) +∑p i H , , , ⎪ (2.1)

p i ⎭i =1⎝p i p i

n

其中p i =

∑p

j =1

r i

ij

解释:我们可以把可加性理解为分步试验结果的熵等于各步试验结果熵的加权组合。。

, n ,其概率分布为设一个随机试验分为两个步骤。第1步共有n 个可能结果X 1=1,2,(p 1, p 2, , p n ) 。这一步试验结果的熵为H (p 1, p 2, , p n ) 。

在第1步试验结果的基础上进行第2步试验。假设当第1步试验结果X 1=i 时,第2步试验共有r i 个可能结果,并且其概率分布为

p ir i ⎫⎛p i 1p i 2

, , , ⎪ p p p i i ⎭⎝i

6

对应的熵为

p ir i ⎫⎛p i 1p i 2

H , , , ⎪

p p p i i ⎭⎝i

因此,第2步传递的平均信息量为

p ir i ⎫⎛p i 1p i 2

p H , , , ⎪ ∑i

p p p i =1i i ⎭⎝i

n

两步所获得的平均信息量之和就是上述(2.1)中的右式。 左式可解释为第2步试验的所有可能结果的平均信息量。 练习:应用熵函数的可加性计算

H (1/6,1/6,1/6,1/9,1/9,1/12,1/12)

性质6. 递增性

低维分布分解为高维分布时,信息熵严格递增。

定理2.5 将n-维概率分布分解为n+1维分布后,熵增大:

H (p 1, p 2, , p n )

证明:由可加性立即可得。 证毕

性质7. 严格上凸性

定理2.6 熵函数H (P ) 是严格上凸函数。

证明:根据严格上凸性定义,我们设P =(p 1, p2, …, p n ) 与Q=(q 1, q 2, …, q n ) 是两个不同的概率分

布并且设(λ1, λ2) 为非退化分布,只需证明下列不等式

λ1H (P ) +λ2H (Q )

7

-λ1

∑p l o g p -λ∑q

i

i

2

i =1

i =1

n n

i

l o g q i

i =1

n

)

合并同类项后,上述不等式等价变换为

n

λ1p i +λ2q i λp +λq

λ1∑p i log +λ2∑q i log 1i 2i

p i q i i =1i =1 n

注意,λ1P +λ2Q 是一个n-维概率分布,根据预备知识中所证明的“信息不等式”,我们有

n

∑p i log

i =1

λ1p i +λ2q i

p i

≤0 (2)

其中等号成立当且仅当P =λ1P +λ2Q ,即P =Q 。我们前面已假设P ≠Q ,所以上述不等式中的等号不成立。同理我们有

n

∑q i log

i =1

λ1p i +λ2q i

q i

由(2)和(3)可得(1)。 证毕

不等式(1)也可以用基本对数不等式证明。

不等式(1)的第二个证明:取x =

λ1p i +λ2q i

p i

,由

ln

1

≥1-x x

p i ln

p i

≥p i -λ1p i -λ2q i =λ2(p i -q i ) (4)

λ1p i +λ2q i

根据预备知识中证明的基本对数不等式,(4)中等号成立的充要条件是P =λ1P +λ2Q ,即P =Q 。我们前面已假设P ≠Q ,所以不等式(4)中的等号不成立。因此,我们有

8

∑p i ln

i =1

n

p i

>0 (5)

λ1p i +λ2q i

同理我们有

n

∑q i ln

i =1

q i

>0 (6)

λ1p i +λ2q i

由(5)和(6)可得(1)。 证毕

性质8. 极值性(最大离散熵原理)

定理2.7(最大离散熵原理)对于任何n 维概率分布p ,

H (p ) ≤log n

其中,等号成立的充要条件是p 为均匀分布,即

p =(1/n ,1/n , ,1/n )

证明: 令q 为均匀分布(1/n ,1/n ,…,1/n ) ,应用信息不等式立刻可得该定理成立。 证毕

记号:我们用H 0表示一个随机变量的最大熵。当且仅当某随机变量共有n 种取值时,

H 0=log n (比特)

例2.8 二十问题游戏(the game of twenty problems)。甲心里想到一个事物,让乙猜。乙可以向甲提问,甲只回答是或者不是。若乙在20个问题之内猜出答案,则乙胜,否则甲胜。 猜数:一个比较简单的实例是猜数。要猜出一个100以内的正整数至少需要几个问题?至多需几个问题? 练习:

设一条电线上串联了8个灯泡,如图所示。假设其中有且只有一个灯泡坏了,并且各灯泡

9

的损坏概率相同,用万用电表通过测量断路找出坏灯泡。 (1)平均需要获得多少信息,才能找出其中的坏灯泡。 (2)一次测量所获得的信息的最大期望值是多少?

(3)试设计一个最佳测量方案,即测量次数的期望值最小的测量方案。

作业

1. 试证明信息熵的可加性。

2. 伪币称量问题:今有12枚金币,其中1枚是伪币,其重量不同于真币。 用一台没有砝码的天平通过比较金币重量可以找出这枚伪币。 (1)用这台天平找出伪币并知道其偏重还是偏轻需获得多少信息? (2)求天平的3种称量结果,即等重、左重和右重,的最大平均自信息。 (3)试证明找出这枚伪币至少需要称量3次。 (4)试设计最优的第1次称量方案。

(5)若第1次称量结果为1-4号钱币的总重量大于5-8号钱币的总重量,试设计最优的第2次称量方案。

3. 编程2:输入有限维概率分布,输出该分布的熵。

附录:热熵

1854年克劳修斯定义了物理系统的一种状态函数S ,他之称为熵(entropy ),现在也称为热熵。一个物理系统从状态o 到状态A 的熵增量定义为

10

S -S o =

其中 ⎰A o dQ T

克劳修斯的热力学第二定律:dS ≥0

德国物理学家玻尔兹曼的熵公式:划时代的发现

S =k log e W

其中W 是物理系统的(宏观)状态所对应的所有可能微观状态数,k 称为玻尔兹曼常数。 伟大意义:

(1)将宏观量S 与微观状态数W 相联系,架设了宏观与微观之间的桥梁。

(2)物理概念第一次用概率形式表达,意义深远。

(3)已成为物理学中最重要公式之一。

棋盘游戏:40X40的棋盘中间10X10位置上放着100颗棋子。这10X10位置构成系统I ,其它位置构成系统II 。将I 中棋子挪动到II 中,两个系统的状态都发生改变。求两个系统各自的熵与总熵,有 S I +II =S I +S II

11

第5讲 随机变量的信息熵

在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。

信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。物理学中的熵也称为热熵。信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。香农用信息熵度量一个物理系统内部状态和运动的不确定性。

信息熵是信息论的核心和基础概念,具有多种物理意义。香农所创立的信息论是从定义和研究信息熵开始的。这一讲我们学习信息熵的定义和性质。

1. 信息熵

我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。 定义1.1 设离散型随机变量X 的概率空间为

⎡X ⎤⎡x 1

⎢P ⎥=⎢p ⎣⎦⎣1

x 2p 2

... x n ⎤

... p n ⎥⎦

我们把X 的所有取值的自信息的期望称为X 的平均自信息量,通常称为信息熵,简称熵(entropy ),记为H(X),即

n

H (X ) =E [I (X )]=

∑p i log

i =1

1

(比特) p i

信息熵也称为香农熵。

注意,熵H (X ) 是X 的概率分布P 的函数,因此也记为H (P ) 。

定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r ,所得结果称为r-进制熵,记为H r (X ) ,其单位为“r-进制单位”。 我们有

1

H (X )

H r (X )=

log r

注意,在关于熵的表达式中,我们仍然约定

0log 0=0, 0log

信息熵的物理意义:

信息熵可从多种不同角度来理解。

x

=0 0

(1) H(X)是随机变量X 的取值所能提供的平均信息量。

(2) 统计学中用H(X)表征随机变量X 的不确定性,也就是随机性的大小。

例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。

(3) 若离散无记忆信源的符号概率分布为P ,则H(P)是该信源的所有无损编码的“平均

码长”的极限。

令X 是离散无记忆信源的符号集,所有长度为n 的消息集合为

X n ={1,2, , M }

每个消息i 在某个无损编码下的码字为w i ,码字长为l i 比特。假设各消息i 出现的概率为p i ,则该每条消息的平均码长为

L n =∑p i l i

i =1

M

因此,平均每个信源符号的码长为

L n 1M

=∑p i l i n n i =1

这个平均每个信源符号的码长称为该编码的平均码长,其量纲为(码元/信源)。 我们有

L n L

≥H (X ) 且 lim n =H (X )

n →∞n n

这是信源编码定理的推论。

2

例1.3 课本第26页例2.4. 天气预报的平均信息量。 练习:

在电脑主板上,串行接口(Serial Interface)用于向外设输出数据,每次输出1比特符号,若某段时间内输出符号的概率分布为

1⎤⎡X ⎤⎡0

=⎢p ⎥⎢1/32/3⎥ ⎣⎦⎣⎦

求此时段内该串行接口的信息率,即平均每符号所传递的信息(单位为“比特/符号”)。

3

练习解答:输出0所传递的信息为

=-l = I (0)

输出1所传递的信息为

1

3

l o g 比特3 ()

I (1)=-log

因此,输出符号的信息熵为 H (X ) =

2

=log 3-1 (比特) 3

122

log 3+(log3-1) =log 3-≈0.919(比特) 333

于是所求的信息速率为0.919比特每符号。

说明:上述信息熵H (X ) 反映了串行接口传输信息的速率,称为该接口的信息率。

2. 熵函数H(P)的性质 性质1. 非负性和确定性 H (P ) ≥0

其中H(P)=0 当且仅当P 为退化分布。

一个随机变量的概率分布为退化分布,当且仅当该随机变量是常量,即取值唯一(所以其取值是确定的)。

性质2. 对称性

H (p 1, , p i , , p j , , p n ) =H (p 1, , p j , , p i , , p n ) 性质3. 连续性

H (p 1, , p n ) 对于其中任何变量p i 是连续的。

4

性质4. 扩展性 可扩展性1:

H (p 1, , p n ,0) =H (p 1, , p n ) 可扩展性2:

lim H (p 1, p 2, , p n -1, p n -ε, ε) =H (p 1, p 2, , p n -2, p n -1, p n )

ε→0

证明:由连续性和可扩展性1立即可得。 证毕

意义:可扩展性表明,一个小概率事件对于熵的影响很小,可以忽略不计。 在熵的计算中,可以忽略其中一部分小概率事件。

例2.1 《中华字海》中收录了85000多个汉字,而常用汉字仅有3000个左右。(据统计现代汉语中这2400个汉字在一般书刊文章中所占的字数比例是99%)在计算汉字的熵时,大部分汉字都可以忽略不计,仅统计常用汉字出现的频率,以此作为这些汉字出现的概率,从而计算出汉字的熵。

性质5. 可加性

注意:即课本第31页的“递增性”。课本上的“可加性”事实上是联合熵的链法则,涉及到条件熵,放在此处不妥,后面再讨论。我们将赋予“递增性”更贴切的含义。 定理2.2(可加性公式)

⎛q q q ⎫

H (p 1, p 2, , p n -1, q 1, q 2, , q m ) =H (p 1, p 2, , p n ) +p n H 1, 2, , m ⎪

p n ⎭⎝p n p n

其中令p n =q 1+q 2+ +q m

证明:可用熵函数的定义证明,细节留给读者完成。 证毕 可加性公式让我们不断降低信息熵中概率分布的维度,将高维计算简化为低维计算。有的教材称可加性为递推性。 例2.3 应用熵函数的可加性计算

1111

H (, , , ) 3366

5

解:

1111111111H (, , , ) =H (, , ) +H (, ) 3366333322

1

=log3+

3

≈1.918 (bit)

注意,可连续应用可加性公式:

[1**********]1H (, , , ) =H (, ) +H (, ) +H (, ) [1**********]221=H (, ) +1

33

连续应用可加性公式,我们有 定理2.4 (更一般的可加性公式)

H (p 11, , p 1r 1, p 21, , p 2r 2, , p n 1, , p nr n )

p ir i ⎫⎛p i 1p i 2

=H (p 1, p 2, , p n ) +∑p i H , , , ⎪ (2.1)

p i ⎭i =1⎝p i p i

n

其中p i =

∑p

j =1

r i

ij

解释:我们可以把可加性理解为分步试验结果的熵等于各步试验结果熵的加权组合。。

, n ,其概率分布为设一个随机试验分为两个步骤。第1步共有n 个可能结果X 1=1,2,(p 1, p 2, , p n ) 。这一步试验结果的熵为H (p 1, p 2, , p n ) 。

在第1步试验结果的基础上进行第2步试验。假设当第1步试验结果X 1=i 时,第2步试验共有r i 个可能结果,并且其概率分布为

p ir i ⎫⎛p i 1p i 2

, , , ⎪ p p p i i ⎭⎝i

6

对应的熵为

p ir i ⎫⎛p i 1p i 2

H , , , ⎪

p p p i i ⎭⎝i

因此,第2步传递的平均信息量为

p ir i ⎫⎛p i 1p i 2

p H , , , ⎪ ∑i

p p p i =1i i ⎭⎝i

n

两步所获得的平均信息量之和就是上述(2.1)中的右式。 左式可解释为第2步试验的所有可能结果的平均信息量。 练习:应用熵函数的可加性计算

H (1/6,1/6,1/6,1/9,1/9,1/12,1/12)

性质6. 递增性

低维分布分解为高维分布时,信息熵严格递增。

定理2.5 将n-维概率分布分解为n+1维分布后,熵增大:

H (p 1, p 2, , p n )

证明:由可加性立即可得。 证毕

性质7. 严格上凸性

定理2.6 熵函数H (P ) 是严格上凸函数。

证明:根据严格上凸性定义,我们设P =(p 1, p2, …, p n ) 与Q=(q 1, q 2, …, q n ) 是两个不同的概率分

布并且设(λ1, λ2) 为非退化分布,只需证明下列不等式

λ1H (P ) +λ2H (Q )

7

-λ1

∑p l o g p -λ∑q

i

i

2

i =1

i =1

n n

i

l o g q i

i =1

n

)

合并同类项后,上述不等式等价变换为

n

λ1p i +λ2q i λp +λq

λ1∑p i log +λ2∑q i log 1i 2i

p i q i i =1i =1 n

注意,λ1P +λ2Q 是一个n-维概率分布,根据预备知识中所证明的“信息不等式”,我们有

n

∑p i log

i =1

λ1p i +λ2q i

p i

≤0 (2)

其中等号成立当且仅当P =λ1P +λ2Q ,即P =Q 。我们前面已假设P ≠Q ,所以上述不等式中的等号不成立。同理我们有

n

∑q i log

i =1

λ1p i +λ2q i

q i

由(2)和(3)可得(1)。 证毕

不等式(1)也可以用基本对数不等式证明。

不等式(1)的第二个证明:取x =

λ1p i +λ2q i

p i

,由

ln

1

≥1-x x

p i ln

p i

≥p i -λ1p i -λ2q i =λ2(p i -q i ) (4)

λ1p i +λ2q i

根据预备知识中证明的基本对数不等式,(4)中等号成立的充要条件是P =λ1P +λ2Q ,即P =Q 。我们前面已假设P ≠Q ,所以不等式(4)中的等号不成立。因此,我们有

8

∑p i ln

i =1

n

p i

>0 (5)

λ1p i +λ2q i

同理我们有

n

∑q i ln

i =1

q i

>0 (6)

λ1p i +λ2q i

由(5)和(6)可得(1)。 证毕

性质8. 极值性(最大离散熵原理)

定理2.7(最大离散熵原理)对于任何n 维概率分布p ,

H (p ) ≤log n

其中,等号成立的充要条件是p 为均匀分布,即

p =(1/n ,1/n , ,1/n )

证明: 令q 为均匀分布(1/n ,1/n ,…,1/n ) ,应用信息不等式立刻可得该定理成立。 证毕

记号:我们用H 0表示一个随机变量的最大熵。当且仅当某随机变量共有n 种取值时,

H 0=log n (比特)

例2.8 二十问题游戏(the game of twenty problems)。甲心里想到一个事物,让乙猜。乙可以向甲提问,甲只回答是或者不是。若乙在20个问题之内猜出答案,则乙胜,否则甲胜。 猜数:一个比较简单的实例是猜数。要猜出一个100以内的正整数至少需要几个问题?至多需几个问题? 练习:

设一条电线上串联了8个灯泡,如图所示。假设其中有且只有一个灯泡坏了,并且各灯泡

9

的损坏概率相同,用万用电表通过测量断路找出坏灯泡。 (1)平均需要获得多少信息,才能找出其中的坏灯泡。 (2)一次测量所获得的信息的最大期望值是多少?

(3)试设计一个最佳测量方案,即测量次数的期望值最小的测量方案。

作业

1. 试证明信息熵的可加性。

2. 伪币称量问题:今有12枚金币,其中1枚是伪币,其重量不同于真币。 用一台没有砝码的天平通过比较金币重量可以找出这枚伪币。 (1)用这台天平找出伪币并知道其偏重还是偏轻需获得多少信息? (2)求天平的3种称量结果,即等重、左重和右重,的最大平均自信息。 (3)试证明找出这枚伪币至少需要称量3次。 (4)试设计最优的第1次称量方案。

(5)若第1次称量结果为1-4号钱币的总重量大于5-8号钱币的总重量,试设计最优的第2次称量方案。

3. 编程2:输入有限维概率分布,输出该分布的熵。

附录:热熵

1854年克劳修斯定义了物理系统的一种状态函数S ,他之称为熵(entropy ),现在也称为热熵。一个物理系统从状态o 到状态A 的熵增量定义为

10

S -S o =

其中 ⎰A o dQ T

克劳修斯的热力学第二定律:dS ≥0

德国物理学家玻尔兹曼的熵公式:划时代的发现

S =k log e W

其中W 是物理系统的(宏观)状态所对应的所有可能微观状态数,k 称为玻尔兹曼常数。 伟大意义:

(1)将宏观量S 与微观状态数W 相联系,架设了宏观与微观之间的桥梁。

(2)物理概念第一次用概率形式表达,意义深远。

(3)已成为物理学中最重要公式之一。

棋盘游戏:40X40的棋盘中间10X10位置上放着100颗棋子。这10X10位置构成系统I ,其它位置构成系统II 。将I 中棋子挪动到II 中,两个系统的状态都发生改变。求两个系统各自的熵与总熵,有 S I +II =S I +S II

11


相关文章

  • 信息构建与网络信息资源书目控制的发展
  • 作者:宋海艳 2009年03期 书目控制是一种描述.揭示信息,组织和管理网络信息的理论与方法.信息构建则是近年来国内外信息科学与计算机等领域共同关注的前沿课题,是数字领域的新兴学科和实践活动.信息构建起源于网站的构建,是组织管理资源的基础. ...查看


  • 中外信息素养评价标准对比
  • 中外信息素养评价标准对比 摘要 通过对信息素养的起源以及国内外信息素养评价标准的研究,以了解具备信息素养的表现能力,以此达到指导时间学习的目的. Summary Based on the origin of information lite ...查看


  • 信息资源类型研究
  • 作者:代根兴周晓燕 中国图书馆学报 2000年06期 分类号 G254 CLASS NUMBER G254 对事物进行分类,是人们认识事物的一种基本方法.人们要开发利用信息资源,就必须首先了解信息资源的类型.信息资源类型划分得是否得当,直接 ...查看


  • 0903043信息管理作业
  • <信息管理>作业 第二章第3题 1.答:简单地说,信息是经过加工的数据.或者说,信息是数据处理的结果.一般来说,原始数据在没有经过分析加工以前,其意义不容易看出与认识.为了得到有意义的.有用的信息,必须对其进行加工处理. 数据和 ...查看


  • 空间信息与数字技术本科毕业论文选题
  • 毕业论文(设计) 题 目 学 院 学 院 专 业 学生姓名 学 号 年级 级 指导教师 毕业教务处制表 毕业 毕业二〇一五年 十二月一 日 毕业 空间信息与数字技术毕业论文选题(1006个) 一.论文说明 本写作团队致力于毕业论文写作与辅导 ...查看


  • 信息安全技术公共及商用服务信息系统个人信息保护指南
  • 信息安全技术 公共及商用服务信息系统个人信息保护指南 随着信息技术的广泛应用和互联网的不断普及,个人信息在社会.经济活动中的地位日益凸显,滥用个人信息的现象随之出现,给社会秩序和个人切身利益带来了危害.为促进个人信息的合理利用,指导和规范利 ...查看


  • 信息安全技术-个人信息保护指南
  • beijingICS 35.040 L80 GB 信息安全技术 个人信息保护指南 Information Security Technology – Guide of Personal Information Protection (草案, ...查看


  • 信息资源管理题库-附答案
  • 一.单项选择题 1.下面不是新的信息采集技术的是 ( ) A.全自动电话访谈 B.电脑柜调研 C.发调查表 D.网络调研系统 2.信息解锁照解锁对象分为三类,下列不属于的是 ( ) A.事实检索 B.文献解锁 C.密码解锁 D.数据解锁 3 ...查看


  • [信息资源管理]第二章 信息资源过程管理
  • 第二章 信息资源过程管理 2.1 信息采集 2.1.1 采集的任务 信息采集的任务是根据信息服务的需要,有计划的广泛搜集一定数量的相关的信息. 2.1.2 采集的原则 1.针对性 2.系统性 3.预见性 4.科学性 5.计划性 6.及时性 ...查看


  • 信息管理论文
  • 目录 1 信息管理---------------------- 2 2 管理信息系统要求------------------4 2.1 信息管理系统对信息管理地的要求:---------4 2.2 信息管理系统对信息管理制度的要求:---- ...查看


热门内容