文献计量学:
1)、洛特卡经验规律:
a 、是揭示文献著者与数量关系的基本定律。
b 、数字表达式为:f(x)=c/x的平方,x 表示科学工作者发表的论文数量,f(x)表示发表x 篇论文的著者出现的频率。上式也称倒数平方定律。发表一篇论文的著者出现的频率为60%;发两篇论文的著者数量大约是发表一篇论文的著者数量的1/4;发表n 篇论文的著者数量大约是发表一篇论文的著者数量的1/n的平方;
C 、在某一时间内,写了x 篇论文的作者数占作者总数的百分比f (x )与其撰写的论文数x 的平方成反比。
特点:1、科学论文在作者上集中与分散的分布现象
2、采用频次排序的方法,即按某类作者出现的频次大小(实际发表论文数)的排位,而非按照作者所写的论文多少比较来对作者进行等级排序,因而等级上会有空位。
3、论文在作者上的集中与分散程度只限于平方反比关系,即只给出了这种集中与分散程度的单一描述。
4、目前对洛特卡定律的研究主要集中在两个方面:a 、对洛特卡一般公式的推导,验证公式的应用范围和估计参数。B 、对洛特卡定理的机理及适用性的研究。
2) 、洛特卡定律的局限性:
局限性:洛特卡定律是对两组数据统计的推广,是对信息生产的一般理论估计,不是一个精确的统计分布统计,因而有其局限性。有以下局限:
A 、统计数据不全,洛特卡定律是根据化学、物理学科得出的结论,其他学科应用是应作一定的修改。B 、对合作者的处理过于简单。C 、对高产作者的处理。D 、洛特卡的数学抽取方法欠科学,在数量大的情况下预测结果才比较客观。
3)、洛特卡定律的具体应用:
a 、在情报图书馆学方面,一般用它来发表不同数目文章的著者数量和特定学科的文献数量,从而便于掌握文献的增长趋势,进行文献情报的科学管理和情报学的理论研究。
b 、在预测科学方面,从统计或估计的科学著者数量懒预测文献数目的增长速度很文献的流动方向,也可以预测科学家数量的增长和科学发展的规模及趋势。
c 、在科学人才和人才学方面,可以用它来研究科学家的活动规律,研究人才的著述特征,便于科学家的理论研究和科学史的探讨,从而为科学家与人才学的研究提供新的途径与手段。
4)、洛特卡定律的改进与修正:
普赖斯指出科学家总人数的开平方所得到的数,是撰写了全部科学论文的50%的人数;维拉奇发现研究者本人所处的时代和作者群所涉及的认识影响洛特卡分布的两个重要因素。
5)、普赖斯定律
在洛特卡定律的基础上,普赖斯进一步研究而来科学家人数与科学文献数量,以及不同层次科学家之间的定量关系,题除了普赖斯定律:科学家的总人数,大致是按杰出科学家的人数的平方增长的。所谓普赖斯定律,机试科学家总人数开平方,所得到的人数,那么多数量的科学家撰写了全部论文的50%。
是关于专业文献在登载该文献的期刊中数量分布规律的总结,揭示了论文在科学期刊中的分布。
(1)具体内容:如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出文载率最高的核心部分和包含着与核心部分同等数量论文
的随后几区,这时核心区和后继各区中所含的期刊数成1:a :a 平方的关系(a>1)-----布拉德福定律的区域表述形式。
(2)布拉德福关于文献分散现象的思考
通过期刊相关论文载文率的高低进行区域划分,这些区域所含期刊的数目随着载文率的下降而增多,呈现反比例关系,一次可以定量测定学科间的联系程度和描述相关论文在登载其期刊中的数量分布。
(3)修正与发展
A 维克利的修正式(将杂志分区的数目推广到n>3的普遍情形)
设刊载有某一学科相关论文的杂志划分为m 个区,使每一区的论文数量相等,则各区中期刊的数量n1、n2、n3....nm 有如下关系:n1:(n2+n3):(n1+n2+n3)....=1:b :b 的平方........ B 莱姆库勒对区域分析法的发展 F(x)=ln(1+Bx)/ln(1+B)
应用:公示形式简单,单参数,便于应用。在确定了参数B 以后,只要知道论文的覆盖比例就可以确定期刊的最低数量
C 布鲁克鲁斯对图形法的发展 R(n)= an的B 次方(1
Klnn/s ( c
参数讨论:1)当期刊总数N 充分大时,N=K,N等于图形直线部分的斜率
2)S 为重要参数,标度学科专业范围大小的指标,B 为参数,等于曲线部分曲率。
3)A=R(1),表示等级为1的期刊的载文量,c 为核心期刊数。
4)布拉德福有两个基本要点:一是频次等级排序,形成主体来源的有序目录;二十确定相关论文在主体来源中的分布规律。具体方法包括区域分析和图形描述,虽然两者数值并不相等,但他所揭示的都是论文在期刊中的分散规律
(5)应用:评价检索工作、确定核心期刊、制定文献采购策略、根据流通数据确定采藏策略、为文献情报部门使用有限的资金,获取情报密度最高的情报源提供定量的依据。
词频分布:不同词汇的出现频次具有一定的统计规律性。
(1)内容:如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减顺序排列起来(高频词在前,低频词在后)并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级,这样一直到D 级,如果用f 表示词在文章中出现的频次,用f 表示词在文章中出现的频次,用r 表示词的等级序号,则有fr=c
(2)修正:
A 朱斯提出了广义的齐普夫定律数学公式:frB 次方=c (B为与样本有关的常数)
B 蒙代尔布罗运用信息论原理和概率论方法,提出了新的修正式f(r+m)的B 次方=c
(3)基本原理:
A 齐普夫第一定律 fr=c/r 其中fr=nr/N为词汇出现的频率,r 为词汇的等级序号,词频与等级序号间的一次反比率
B 最省力法则:任何人在做任何事时,都希望付出的代价最小,而获得的收获最大。 C 最省力法则解释齐普夫定律
齐普夫提出“单一化的力”和“多样化的力”作用概念,蒙代尔布罗从信息理论出发,建立广义齐普夫定律。
4)局限性:对高频词和低频词的解释存在不足。
5)具体应用:a. 文献标引和词表编制b. 情报探索,通过齐普夫定律求出数据库所需的存储量c. 利用齐普夫定律解决词汇控制,词表规模确定,选词标准等问题d. 图书情报管理,帮助合理选择图书馆或情报中心得最佳地理位置,以及设计图书馆的排架,以使得在存取文献时所走的路程最短。
2. 蒙代尔布罗基本框架及其意义局限性
1)意义:推进了信息计量学的独立化进程;证明了经验规律的等价性
2)基本框架: 广义 狭义
洛特卡
的x 方) f(j )=c/(j的平方) √ ɑ(i )=【(A-i)的[(2-ɑ)/ε]次方*ρ*(0)】的[1/(α-2)]次方 ×
莱姆库勒 √
蒙代尔布罗 ×
洛特卡 洛特卡 √
3)局限性:
不能证明所有的经验规律都是等价的。
3. 简述信息论中申农对信息进行度量的思想
申农认为,信息是用来清除不确定性的东西,对信息进行度量,可以试着将其转换为简单的东西,即信息的不确定性,从而把信息度量转化为不确定性度量,关于不确定性度量,申农有三个认识:
1)等概率的不确定性最大
2)在系统中间加上一个不可能发生的时间,不影响系统的不确定性
3)不确定相等(不确定发生的可能性)系统的不确定性和系统用条件概率表示的不确定性相等。首先,要定性地不确定性度量进行分析,找出其性质,而后采用函数(唯一性定理)来进行定量的说明。
4. 关于系统
1)任何系统的不确定都是确定的
2)系统维数(n ) 每一点向下一个结点的任一方向的概率是一样的
离散信息熵的最值CLog n(C 为任意正数)
N
3) 信息熵——C ∑Pk LogP k =
k =1f (P 1, P 2,..... Pn )
即
信息论中如何描述两个系统之间的相互作用?(系统之间的互信性)两个系统之间的互信性,
若存在,则一定大于0,若不存在,则一定等于0
。
第七页:
第八页:数据还原
5:莱姆库勒推导出布拉德福规律。
文献计量学:
1)、洛特卡经验规律:
a 、是揭示文献著者与数量关系的基本定律。
b 、数字表达式为:f(x)=c/x的平方,x 表示科学工作者发表的论文数量,f(x)表示发表x 篇论文的著者出现的频率。上式也称倒数平方定律。发表一篇论文的著者出现的频率为60%;发两篇论文的著者数量大约是发表一篇论文的著者数量的1/4;发表n 篇论文的著者数量大约是发表一篇论文的著者数量的1/n的平方;
C 、在某一时间内,写了x 篇论文的作者数占作者总数的百分比f (x )与其撰写的论文数x 的平方成反比。
特点:1、科学论文在作者上集中与分散的分布现象
2、采用频次排序的方法,即按某类作者出现的频次大小(实际发表论文数)的排位,而非按照作者所写的论文多少比较来对作者进行等级排序,因而等级上会有空位。
3、论文在作者上的集中与分散程度只限于平方反比关系,即只给出了这种集中与分散程度的单一描述。
4、目前对洛特卡定律的研究主要集中在两个方面:a 、对洛特卡一般公式的推导,验证公式的应用范围和估计参数。B 、对洛特卡定理的机理及适用性的研究。
2) 、洛特卡定律的局限性:
局限性:洛特卡定律是对两组数据统计的推广,是对信息生产的一般理论估计,不是一个精确的统计分布统计,因而有其局限性。有以下局限:
A 、统计数据不全,洛特卡定律是根据化学、物理学科得出的结论,其他学科应用是应作一定的修改。B 、对合作者的处理过于简单。C 、对高产作者的处理。D 、洛特卡的数学抽取方法欠科学,在数量大的情况下预测结果才比较客观。
3)、洛特卡定律的具体应用:
a 、在情报图书馆学方面,一般用它来发表不同数目文章的著者数量和特定学科的文献数量,从而便于掌握文献的增长趋势,进行文献情报的科学管理和情报学的理论研究。
b 、在预测科学方面,从统计或估计的科学著者数量懒预测文献数目的增长速度很文献的流动方向,也可以预测科学家数量的增长和科学发展的规模及趋势。
c 、在科学人才和人才学方面,可以用它来研究科学家的活动规律,研究人才的著述特征,便于科学家的理论研究和科学史的探讨,从而为科学家与人才学的研究提供新的途径与手段。
4)、洛特卡定律的改进与修正:
普赖斯指出科学家总人数的开平方所得到的数,是撰写了全部科学论文的50%的人数;维拉奇发现研究者本人所处的时代和作者群所涉及的认识影响洛特卡分布的两个重要因素。
5)、普赖斯定律
在洛特卡定律的基础上,普赖斯进一步研究而来科学家人数与科学文献数量,以及不同层次科学家之间的定量关系,题除了普赖斯定律:科学家的总人数,大致是按杰出科学家的人数的平方增长的。所谓普赖斯定律,机试科学家总人数开平方,所得到的人数,那么多数量的科学家撰写了全部论文的50%。
是关于专业文献在登载该文献的期刊中数量分布规律的总结,揭示了论文在科学期刊中的分布。
(1)具体内容:如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出文载率最高的核心部分和包含着与核心部分同等数量论文
的随后几区,这时核心区和后继各区中所含的期刊数成1:a :a 平方的关系(a>1)-----布拉德福定律的区域表述形式。
(2)布拉德福关于文献分散现象的思考
通过期刊相关论文载文率的高低进行区域划分,这些区域所含期刊的数目随着载文率的下降而增多,呈现反比例关系,一次可以定量测定学科间的联系程度和描述相关论文在登载其期刊中的数量分布。
(3)修正与发展
A 维克利的修正式(将杂志分区的数目推广到n>3的普遍情形)
设刊载有某一学科相关论文的杂志划分为m 个区,使每一区的论文数量相等,则各区中期刊的数量n1、n2、n3....nm 有如下关系:n1:(n2+n3):(n1+n2+n3)....=1:b :b 的平方........ B 莱姆库勒对区域分析法的发展 F(x)=ln(1+Bx)/ln(1+B)
应用:公示形式简单,单参数,便于应用。在确定了参数B 以后,只要知道论文的覆盖比例就可以确定期刊的最低数量
C 布鲁克鲁斯对图形法的发展 R(n)= an的B 次方(1
Klnn/s ( c
参数讨论:1)当期刊总数N 充分大时,N=K,N等于图形直线部分的斜率
2)S 为重要参数,标度学科专业范围大小的指标,B 为参数,等于曲线部分曲率。
3)A=R(1),表示等级为1的期刊的载文量,c 为核心期刊数。
4)布拉德福有两个基本要点:一是频次等级排序,形成主体来源的有序目录;二十确定相关论文在主体来源中的分布规律。具体方法包括区域分析和图形描述,虽然两者数值并不相等,但他所揭示的都是论文在期刊中的分散规律
(5)应用:评价检索工作、确定核心期刊、制定文献采购策略、根据流通数据确定采藏策略、为文献情报部门使用有限的资金,获取情报密度最高的情报源提供定量的依据。
词频分布:不同词汇的出现频次具有一定的统计规律性。
(1)内容:如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减顺序排列起来(高频词在前,低频词在后)并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级,这样一直到D 级,如果用f 表示词在文章中出现的频次,用f 表示词在文章中出现的频次,用r 表示词的等级序号,则有fr=c
(2)修正:
A 朱斯提出了广义的齐普夫定律数学公式:frB 次方=c (B为与样本有关的常数)
B 蒙代尔布罗运用信息论原理和概率论方法,提出了新的修正式f(r+m)的B 次方=c
(3)基本原理:
A 齐普夫第一定律 fr=c/r 其中fr=nr/N为词汇出现的频率,r 为词汇的等级序号,词频与等级序号间的一次反比率
B 最省力法则:任何人在做任何事时,都希望付出的代价最小,而获得的收获最大。 C 最省力法则解释齐普夫定律
齐普夫提出“单一化的力”和“多样化的力”作用概念,蒙代尔布罗从信息理论出发,建立广义齐普夫定律。
4)局限性:对高频词和低频词的解释存在不足。
5)具体应用:a. 文献标引和词表编制b. 情报探索,通过齐普夫定律求出数据库所需的存储量c. 利用齐普夫定律解决词汇控制,词表规模确定,选词标准等问题d. 图书情报管理,帮助合理选择图书馆或情报中心得最佳地理位置,以及设计图书馆的排架,以使得在存取文献时所走的路程最短。
2. 蒙代尔布罗基本框架及其意义局限性
1)意义:推进了信息计量学的独立化进程;证明了经验规律的等价性
2)基本框架: 广义 狭义
洛特卡
的x 方) f(j )=c/(j的平方) √ ɑ(i )=【(A-i)的[(2-ɑ)/ε]次方*ρ*(0)】的[1/(α-2)]次方 ×
莱姆库勒 √
蒙代尔布罗 ×
洛特卡 洛特卡 √
3)局限性:
不能证明所有的经验规律都是等价的。
3. 简述信息论中申农对信息进行度量的思想
申农认为,信息是用来清除不确定性的东西,对信息进行度量,可以试着将其转换为简单的东西,即信息的不确定性,从而把信息度量转化为不确定性度量,关于不确定性度量,申农有三个认识:
1)等概率的不确定性最大
2)在系统中间加上一个不可能发生的时间,不影响系统的不确定性
3)不确定相等(不确定发生的可能性)系统的不确定性和系统用条件概率表示的不确定性相等。首先,要定性地不确定性度量进行分析,找出其性质,而后采用函数(唯一性定理)来进行定量的说明。
4. 关于系统
1)任何系统的不确定都是确定的
2)系统维数(n ) 每一点向下一个结点的任一方向的概率是一样的
离散信息熵的最值CLog n(C 为任意正数)
N
3) 信息熵——C ∑Pk LogP k =
k =1f (P 1, P 2,..... Pn )
即
信息论中如何描述两个系统之间的相互作用?(系统之间的互信性)两个系统之间的互信性,
若存在,则一定大于0,若不存在,则一定等于0
。
第七页:
第八页:数据还原
5:莱姆库勒推导出布拉德福规律。