第一章
1 知识经济:建立在知识和信息的生产、分配和使用上的经济。
文献:用文字、图形、符号、图像、声频、视频信息记录知识的一切载体,或具有独立、完整含义的信息集合。
信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
著录:指依据一定的规则,对文献外表形式、物质形态和内容特征进行分析、选择和记录的过程。
标引:指分析文献的内容属性(特征)及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。
检索:指从信息集合中发现、查出所需信息的活动与过程。
款目:依据一定的方法和规则,对文献外表形式、物质形态和内容特征所作出的客观描述。
目录:将款目按照一定的规则有序地排列起来便形成了目录。
专指度:主题标识与文献主题概要的相符程度。
网罗度:对文献信息内容进行标引的完备程度,具体表现为所标引主题数量的多少。
ISBD :全称是——International Standard Bibliographic Description,译为《国际标准书目著录》。
AACR2:全称是Anglo-American Cataloging Rules:2,译作《英美编目条例第二版》。
2 信息资源开发的基本内容与环节包括信息的组织、检索和利用。信息组织信息资源开发的关键性环节,也是信息检索利用的基础。没有它,就不会有信息检索系统,也不会有信息检索,从而也就谈不上信息的有效利用。因此无序的信息根本不能用于检索和利用,不再是一种资源。
3 信息组织的原理包括两方面:
(1)信息组织的理论基础
系统论、耗散结构理论和协同论是信息组织的理论基础。
(2)信息组织的方法基础
语言学、逻辑学、知识分类是信息组织的方法基础。
4 信息组织的发展经历了以下几个时期:
(1)清册职能时期:主要通过对信息的记录和登载,如同“信息帐房先生”, 告诉人们有什么信息。
(2)查检职能时期:不仅告诉人们有什么信息,而且告诉人们怎样找到信息。
(3)组织职能时期:不仅可以告诉人们我们这里有什么信息,而且还可告诉人们其他地方有什么信息;人们不仅可以找到最需要的信息,而且还可以知道什么信息适合于自己;人们不仅可以利用一种途径获得信息,而且可以多途径、多角度地查检信息。
5 网络环境下信息资源的组织方法:
(1)网络一次信息资源的组织方法
① 超文本方法
自由文本方法
主页方式
(2)网络二次信息的组织方式
① 搜索引擎方法
② 主题树方法
6 (1)自动标引技术
(2)数据挖掘技术
(3)信息推送技术
(4)基于内容的检索技术
第二章
1
类:许多具有某种(或某些)共同属性的事物的集合。
组配分类法:组配分类法的构成基于概念的可分析性和可综合性。即一个复杂概念可以分析为若干简单概念(或概念因素),若干简单概念可以综合为一个复杂概念。
下位类:经过一次划分所形成的一系列概念称为子类或下位类。
组配:利用分类表中已有的表示简单主题概念的类号,按一定规则组合成一个复合类号,用以表达分类表中没有的复杂概念。
分类:可以用另一种属性作为划分标准(分类标准)来对这一类事物进行划分,即分类。
类目:构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目是由类号、类名、类级、注释和参照组成的。
类号:是类目的代号,也叫标记符号,决定类目在分类体系中的位置。
仿分:利用相临或相关类目的子目,作为有关类目复分依据的组配编号法。
分类语言:用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。
同位类:各子类互称为同位类。
基本部类:对人类全部知识领域或特定知识领域及其文献所作的最概括的区分,但它不是分类表的类目,不用于类分文献或信息。
复分:将主表中按相同标准划分某些类目所产生的一系列相同子目抽取出来,配以特定号码,单独编列,供主表有关类目进一步细分的类目。
体系分类法:又称等级分类法、列举式分类法,是一种直接体现知识分类的等级制概念标识系统。它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括) 和系统排列而构成的。
上位类:被划分的类称为母类或上位类。
基本大类:分类表中的第一级类目,它代表着较大的学科或领域。
八分法:又称扩九法,即当某类列的同位类类号标记到8,且尚有若干同位类待标记时,则9本身不用,扩展为91、92、93„„99,为第9个及以后的同位类配号。
层累制:根据类目的不同等级,配以相应不同位数号码的编号方法,类目的等级与其号码位数是相对应的。
分面:指可以描述一类事物某一方面属性或问题的一组简单概念或类目。
双位制:双位制又称百分法,即在某类目下将用于配号的数字1-9不直接使用,而是分别扩展为双位数字标记其下属同位类目的编号法。
借号法:采用层累标记制时为了增加类列的容纳性而采用的借用下位类、上位类、同位类类号的一种编号方法。
2 分类应遵守下列规则:
(1)唯一性
(2)完整性
(3)科学性
3组配分类法的分类标识是散组式的,组合的,可以分拆的,其中诸因素可以变换位置的;而体系分类法的分类标识是定组式的,固定的,不可分拆的,其中诸因素是不可变换位置的。
4 (1)体系分类法的宏观结构
(2)体系分类法的微观结构
类目是构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目是由类号、类名、类级、注释和参照组成的。类目结构如图2.2所示。
类号───R 318.01
生物力学────────类名
类级
生物流体力学,骨、软组织力学以及生物力学业在生物医学工程中的应用等入此。
参见Q66。
注释和
参照
5 UDC特点:
较早、较全面地采用概念分析与综合原理及冒号组配技术,是世界上第一部半分面分类法。 类目详尽,详本类目多达15-21万个。
标记制度灵活,辅助符号多达十几种,表达概念能力强。
DDC 特点:
类目体系完整,覆盖全部知识、文献;类目详尽,等级分明,便于理解使用。
首创以简明的号码标记类目的方法,便于图书排架、目录组织和检索。
首次采用小数标记制。
首次使用了复分和仿分方法。
首创了图书分类法的类目相关索引。
成立了常设管理机构,不断修订更新,保持分类法的长久生命力。
LCC 特点:
类目体系有文献保证,因而实用性强。
列类详细(尤其在人文、社会科学部分),类目超过23万个,是世界上类目最多的一部分类法。
是典型的列举式分类法,较少采用组配方法。没有通用复分表,各大类几乎分别编有地区、形式、主题等专用复分表,各大类复分表的类目设置和配号均不相同。
类号较简短,容纳概念的能力较强。
有专门机构负责修订,及时反映新的变化。
CC 特点:
可以灵活组配、表达复杂标引对象
设置了较多的基本类目。采用分面结构,将每一主题划分为若干范畴,范畴之下列出具体的点和面,形成类表。
影响深远,为分类学领域带来了一场动态分类的革命,推动了分类理论及其他相关信息组织理论的研究,也直接影响了DDC 、UDC 等老牌分类体系的修订,并导致了大量以分面组配为特征的新型分类语言的产生。
《科图法》特点:
自然科学部分的类目比较详细,科学系统性比较强,能较好地反映当时科学技术的发展水平。 采用了类目交替、参见等方法,使分类法既适合大型综合性图书馆使用,又方便专业图书馆使用。
只采用阿拉伯数字作基本标记符号,单纯简便,易写易记。
采用顺序制与小数层累制相结合的标记制度,并运用一些灵活的配号方法(八分法、双位制、借号法),使类号具有较强灵活性、助记性和容纳性。
结构完整,除主表外,有多个通用附表(复分表)及相关索引,主表中还有专类复分表,并采用了仿分。
文献分类法在组织网络信息中具有的优势:
由于限定了检索范围,可以提高查准率;
分类等级结构可以提供检索词的上下文;
自动索引结构便于用户在查找时进行浏览;
检索目的不明确或检索词不确定时,分类浏览方式更有效率;
以知识分类为基础,以符号为标识,具备成为不同语言转换中介的条件;
非文本信息在网络信息资源中所占比例日渐增大,其内容特征难以用文字表达,分类法的聚类功能及号码标识为之提供了一条可能途径。
不足:
类目设置缺乏规律性
类目归属存在着不合理现象
同位类排列不能揭示类间关系
横向关系揭示上存在不一致
部分类名不确切
分类规则有待完善
应做出的调整:
将分类法的文献保证扩展到包括Internet 信息资源,增加必要的新类目;
修订类名,增强其表达性和通用性;
分解和标记类号的组成因素,以识别它所表达的特定主题和主题方面;
不断增加新的术语作为索引词;
扩展分类法与其他受控词汇的联系;
控制使用类目的深度,多数网络分类检索系统只使用分类法的1-3级类目。
自编分类系统的特点:
重视以事物为中心设置类目
类目收录范围宽泛
多重列类、重复反映
排列方式简便
直接以语词组织信息
更新迅速
Y ahoo !将所收录的全部信息分为了14个大类,每一个基本类目下会细分为不同层次的次一级类目,级别越低的类目中的网站其主题越明确。具体体现在以下几方面:
(1)采用宽泛的主题领域建立分类索引
(2)根据上下文进行信息内容的组合
(3)利用冒号标记信息内容
(4)提供不同的路径入口
8. 略
第三章
1 主题法:用语词来表达各种概念,将各种概念不管其相互关系完全按字顺排列。
标题:是主题标目(Subject Heading)的简称,它是直接表达文献主题的标识,大多是对文献内容所论及事物名称及特征的规范表达。
单元词:指一个个最小、最基本的词汇单位,是能够用来描述文献所论及或涉及的事物──主题的那些单词。
叙词:以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式主题语言。
关键词:是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对描述文献主题内容具有实质意义的语词,亦即对提示和描述文献主题内容来说是重要的、带关键性的(可以作为检索“入口”的)那些语词。
后控制词表:只供检索的主导表,这种词表实际上是一种同义词、近义词和相关词的集合。
入口词表:有的叙词表为了大量收录非叙词,就把非叙词单独编成一表,称为入口词表,其内容包括编表过程中落选的词和标引过程中记录下来的词,每个非叙词都引向正式叙词。
词族索引:它是利用概念的等级关系(概念成族原理)将叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以明确它们之间的层层隶属关系。
范畴索引:它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
搜索引擎:是一种利用网络自动搜索技术,对Internet 上各种资源进行标引,并为检索者提供检索的工具。
OCLC :全称(Online Computer Library Center,Inc.),即联机计算机图书馆中心
MeSH :《医学标题表》(Medical Subject Headings)
ILAS :图书馆自动化集成系统
2 标题语言的特点:
① 用受控的自然语言语词作标识,直观地表达主题概念,直接地标引文献。
② 以字顺序列组织标识,提供直接的主题检索途径。有利于进行特性检索。
③ 主要用参照系统间接显示标题所表达的主题概念之间的关系,形成语义网络。能为选用标题进行标引和检索提供一定方便。
④ 按事物集中文献,而不是按学科、专业集中。因此,标题语言适合于从事物出发的检索,不适合于从学科出发的检索,不便族性检索。
⑤ 提供先组式的主题标识,标识涵义比较明确,选用标识比较容易。但是,多途径检索的可能性较小。
标引所用的标题不必都是标题表所列举的现成标题。允许必要时自拟标题表达新的或没有列出的主题概念,适应能力较强。
3概念组配与字面组配的区别主要表现在两个方面:
两者的本质不同
概念组配本质上是在概念分析的基础上进行概念综合。字面组配是利用构词法进行词的分拆和组合,它符合构词规律,但是,不一定符合概念逻辑,字面组配的方法比较简单、直接,但是,对概念的表达时常不够准确。
两者的词汇单元不同
单元词是字面上不能再分的词汇单元,相对来说,独立表达能力较差。叙词则具有概念特征,尽可能选用能够表达学科或事物的基本概念的语词,不仅收单词,而且收词组,对主题的表达能力较强。
4叙词语言既以单元词语言为直接基础,又综合了多种标引语言的原理和方法,包括:
(1)它保留了单元词法单词组配的基本原理;
(2)采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题法的预先组配方法(即采用词组),以克服某些词分拆后再组配时产生意义失真的缺点;
(3)采用了标题法对语词进行严格规范化的方法,以保证词与概念的──对应。这是标题法的基本方法之一。单元词法对单元词的规范方法也取自标题法;
(4)采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相关关系,以保证准确、全面地选用叙词进行标引和检索。
由于叙词语言综合了多种标引语言的原理和方法,并以概念组配为基本原理,因而具有多种有益于标引和检索的特点。
(1)叙词语言所采用的概念组配原理,使其避免了语词字面组配可能产生的概念表达误差,不仅保证了组配语义的准确性,提高查准率,而且也减小了采用复杂句法控制措施的必要性,简化标引和检索。
(2)叙词语言不仅采用了完善的参照系统,而且还使用了多种其它方法显示概念之间的关系,从而增加了查词途径及准确理解和选用叙词的依据,有利于提高查全率和查准率。
(3)灵活的叙词组配,使叙词语言具有较强的概念表达能力,能专指、及时地表达各种复杂、新颖的主题。
(4)叙词语言提供检索同一课题的多条途径,也允许多主题因素检索或增减主题因素进行检索,在检索上有较大的灵活性。
(5)能同时适用于标识单元方式和文献单元方式的检索系统,兼顾手工检索和计算机检索的需要,特别有利于发挥计算机检索系统的优越性。
5 叙词表的结构体系一般由一个主表和若干辅表构成。主表是叙词表的主体,包括的内容最全,对每个叙词的著录也比较完备,所以可独立存在。辅表是为方便叙词表使用而编制的各种辅助索引,包括的内容不全,著录也比较简略,所以不能独立存在。
6 《汉语主题词表》主题词参照系统如图所示:
7关键词语言作为标引语言和检索语言来说,质量比较差,其原因在于:
(1)由于关键词法直接采用文献中的自然语词作关键词,对自然语言中大量存在的等同关系词不加规范统一,也不显示等同关系,使相同主题文献常常因作者用词不同而被分排各处且无联系,导致漏检的可能性较大。
(2)关键词法不显示关键词之间的等级关系和相关关系,难以进行族性检索,特性检索的查全率也不高。
(3)为了加速和简化检索工具的编制过程,多限于从文献标题中抽取。由于一些标题对文献内容的表达不充分或不准确,会使关键词检索有一定的漏检或误检。
(4)在机编索引情况下,由于机械地抽词和轮排,其中有不少关键词款目是不起检索作用而徒增篇幅的。
尽管关键词语言具有以上那些缺点,但还是得到了广泛的应用,这是因为:
(1)标引时无需主题分析和查看词表,简便易行,因而降低对标引人员的要求,节省大量人力。
(2)标引和索引编制易于实现自动化,从而显著节省时间,大大缩短检索系统信息组织和报导的时差,保证信息报导和传递的及时性。
(3)关键词是文献中使用的自然语词,表达主题比较直观、专指,可以保证较高的查准率。
第五章
HTML 仅是SGML 的一种固定标签的应用文档,而不是SQML 的子集。由于其描述能力有限,没有DTD -Document Type Definition描述,因而丧失了SGML 的大部分功能;XML 是Web 应用服务的SGML 的一个重要分支。它是一种元标记语言(Meta-markup Language),可提供描述结构化资料的格式,具体来说,XML 是一种类似于HTML ,被设计用来描述数据的语言。XML 从诞生之日起,就显示了其强大的生命力。它吸收了HTML 简易性的优点,克服了其局限性,开拓了新领域。XML 继承SGML 的80%的功能,同时继承了SGML 的元语言的特征。它既可以作为应用语言在WWW 上直接利用,又可用于开发应用语言。
人们想开发一种能把数据和表现形式分开,用户能自主定义标签的体系框架。开发下一代因特网的标准语言。
1996年,W3C 着手开发XML 标准。XML 从诞生之日起,就显示了其强大的生命力。它吸收了HTML 简易性的优点,克服了其局限性,开拓了新领域。它具备许多特点:灵活性与简洁性 开放性与可扩展性 实用性高效性
XML 文档的逻辑结构分为包含DTD 的描述结构和不包含DTD 的结构。它们分别称为合法XML 文档和结构完整的XML 文档。合法的XML 文档的逻辑结构? 包括:?XML 声明?DTD (文档类型定义)XML 元素集(实例);而结构完整的XML 文档只有两部分(没有DTD 描述)。
DTD 的构成:元素型声明、属性型声明 实体声明、记法声明。
XML 数据建模方法有多种,DTD (Document Type Definition)和XML Schema就是常用的
两种建模方法。
XSL ( eXtensible Style Sheet Language ) 是一种“声明性”的语言。它是通过XML 进行定义的,遵循XML 语法规范,是XML 的一种具体应用。XSL 语言可以将XML 转化为浏览器识别的HTML 进行浏览和输出,也可以过滤和选择XML ,并能格式化XML 数据。
?X Link ( XML Linking Language )是XML 的规范之一,它的链接功能远远超过HTML 。X Link 有标准链接和扩展链接两种功能。标准链接只有一个Locator, 即只能指令一个Resource 作为链接对象,它与HTML 的链接锚( anchor ) 很相似;XPointor ( XML Pointor Language )为XML 指针语言。利用它,可以指定XML 文档中的任何一部分。它提高了定位的精度,是寻址的常用方法。通过XPoint 计数功能,可以方便地指定各个元素和元素中的一部分文字,即特定的元素、特定的文字列。
例程:
? (e1.xml)
]>
张晓东
85316255
85316147
[1**********]
刘宜光
85316834
85316289
[1**********]
第六章
所谓元数据, 就是描述数据的数据(data that describes data)或“关于数据的数据”(data about data )。它是促进数据处理和标引数据的数据;也是人们组织和发现Internet 信息资源的数据。 随着WWW 的发展,网络信息资源呈无限增长的趋势。与此伴随而来的问题是:如何在浩瀚的信息海洋中找到自己真正所需的信息?因此资源发现成为INTERNET 应用的瓶颈与焦点。于是人们希望通过对资源描述的工具——元数据(Metadata )这一课题的探讨及实施来促进信息资源描述、组织、发现及利用效率的提高。
DC-1至DC-2003。 研讨会
主办时间
主办国
主办地点
主办组织
DC-1
1995年3月1日——3日
美
俄亥俄州,
都柏林
OCLC/NCSA
DC-2
1996年4月1日——3日
英
华瑞克大学
OCLC/UKOLN
DC-3
1996年9月24日——25日
美
俄亥俄州,
都柏林
OCLC/CNI
DC-4
1997年3月3日——5日
澳
坎培拉
OCLC/DSTC,NLA
DC-5
1997年10月6日——8日
芬
赫尔辛基
OCLC/NLF
DC-6
1998年11月2日——4日
美
华盛顿特区
OCLC/TLC
DC-7
1999年10月25日——27日
德
法兰克福
OCLC/
DC-8
2000年10 月4日——6日
加
渥太华
OCLC/NLC/IFLA
DC2001
2001年10月22-26
日本
东京
DC2002
2002年10月13-17
意大利
佛罗伦萨
DC2003
2003年9月28-10月2
美国
西雅图
都柏林核心元数据元素集的最新定义于1999年07月02日推出, 版本1.1。Dublin Core 元数据元素集参考描述如表: 元 素
名 字
标 识
定 义
注????????? 释
Title
资源名
Title
赋于资源的名称
一般而言,这一名称指的是资源对象的正式公开的名称。
Creator
创建者
Creator
创建资源内容的主要责任者
创建者的实例包括一个个人,一个组织或一个服务。一般而言,用创建者的名字来标识这一条目。
Subject
主题和关键词
Subject
有关资源内容的主题描述
一般而言,一个主题和关键词通常采用描述资源内容的关键词,短语或分类号。推荐主题和关键词最好是取自于一个受控词表或是一个规范的分类体系。
Description
说明
Description
对资源内容的说明
说明元素可以包括但不限于以下部分:文摘, 目录,对以图形来表示内容的一个参照或者一个有关内容的自由文本描述。
Publisher
出版者
Publisher
使资源成为可以取得和利用状态的责任者
出版者的实例包括一个个人,一个组织,或一种服务。一般而言,用出版者的名字来标识这一条目。
Contributor
其他责任者
Contributor
对资源内容创建作出贡献的其他责任者
其他责任者的实例包括一个个人,一个组织或一个服务。一般而言,用其他责任者的名字来标识这一条目。
Date
日期
Date
与资源本身生命周期中的一个事件相关的日期
一般而言,日期应与资源的创建或出版日期相关。建议采用的日期格式应符合ISO 8601
[W3CDTF]规范,并使用YYYY -MM-DD 的格式。
Type
类型
Type
有关资源内容的特征和类型
资源类型包括描述资源内容的分类范畴,功能,特性或集合层次的术语。建议采用来自于受控词表中的值(比如都柏林核资源类型工作草案[DCT1])。描述资源的物理或数字化表现形式,请使用格式(FORMA T )元素。
Format
形式
Format
资源的物理或数字化的表现形
一般而言,形式可以包括资源的媒体形式或尺寸。形式元素可以用来决定对资源进行操作或显示所需的软件和硬件。例如有关大小及时长的标注。建议采用来自于受控词表中的值(例如,因特网媒体类型表[MIME]定义了计算机媒体的格式)。
Identifier
资源标识符
Identifier
在一给定的文本环境中对资源的参照引用
建议对资源的标识采用一个符合正式标识体系的字串及数字组合。例如正式的标识体系包括统一资源标识符(URI),资一资源定位符(URL),数字对象标识符 (DOI)和国际标准书号 (ISBN)。
Source
来源
Source
对一个资源的参照,而当前资源是源自这一参照资源
当前资源可能部分或全部源自来源所标识的资源。建议对这一资源的标识采用一个符合正式标识系统的字串及数字组合。
Language
语种
Language
描述资源知识内容的语种
建议本元素的值采用RFC 1766中所定义的语种代码规范,此标准定义了一个2个英文字母的语言代码(取自于ISO 639标准),作为一个可选项,也可以在其后加上一个2个英文
字母的国家代码(取自于ISO 3166标准)。例如,en 为英语,fr 为法语,或者使用en-uk 表述为英国英语。
Relation
关联
Relation
对相关资源的参照
建议对关联的标识采用一个符合正式标识体系的字串及数字组合。
Coverage
覆盖范围
Coverage
资源内容所涉及的外延与覆盖范围
典型的覆盖范围包括空间位置描述(一个地名或地理坐标)、时间段描述(一个时间标识,日期或一个日期范围)、或者权限描述(比如命名的授权实体)。推荐覆盖范围最好是取自于一个受控词表(例如地名词库[TGN]),并应尽可能地使用由数字表示的坐标或日期区间来描述地名与时间段
Rights
权限管理
Rights
有关资源本身所有的或被赋予的权限信息
一般而言,权限管理元素应包括一个对资源的权限管理声明,或者是对提供这一信息的服务的参照。权限管理一般包括知识产权(IPR),版权或其他各种各样的产权。如果没有权限管理元素的标注,不可以对与资源相关的上述或其他权利的情况作出任何假定。
自研究之初人们便认识到大多数的应用都需要一定的机制来精确限定元数据元素及其值,原因如下:
(1)增强语义的专指性。使用特定领域的受控词表或分类方法(例如杜威十进制分类法DDC )有助于增加描述的精确度。指明某主题描述词出自何处,这样才有可能利用有关浏览结构或知识结构。
(2)指明编码规则。指明正式的编码标准可避免出现含糊不清的词义。
(3)定义正式的子结构。很多情况下某元素的值是一个复合值,这样的赋值实际上就需要一种复合结构,因此需要一种定义子结构的机制——限定词。
(4)权限控制。很多结构化的权威记录都由相应的机构管理、维护,它们为某人、组织、地名提供唯一确认的值。
人们想让用户能够非常方便地找到最适合自己需要的内容;同时防止将那些被认为是不适宜的或用户不想要的内容传递给用户,特别是未成年的用户。
为了进行内容选择,必须引入内容分类定级机制。这是PICS 最为显著的功能。不同的组织可以根据他们的目的及价值取向,对Internet 上的资源进行分类定级。一些用户,例如家长们,可以设置他们的浏览器,将那些不符合他们规范的内容过滤掉。现在的许多第三方内容分类定级机构利用PICS 来对某个站内容的及时性和技术精确度进行评分。对于一般用户来
讲,这是快速、高效获取所需信息的最佳方法。
CDF 使用XML ,将XML 应用嵌入HTML 。 更确切的说,它是它将HTML 从一种Web “页面”描述语言,扩展成了为一个应用于频道站点的Web 站点描述语言。它使用一种非常简易的语法,对其频道内容进行描述。在一对〈CHANNEL 〉和〈/CHANNEL〉包括的频道内容中,包括了多个〈ITEM 〉元素,每一个〈ITEM 〉描述了每一个HTML 页面的最后修改日期、标题、摘要及作者的情况。当浏览者接入到这个频道之后,这些metadata 数据就会展现出来。
MCF 力求实现一种" 单一的数据模式和相应的互换格式" 的元数据框架。在MCF 中, data和metadata 不作明显区分, 人们以同样的方式来利用它们(data和metadata) 。为了共享多种数据结构、语法和词表,? MCF 提供了一个" 通用数据模式及词表" 的框架。它能在一定程度上使用和管理各种metadata 数据。因此, 其兼容性和包容性好, 并允许动态地扩展新的数据类型
第七章
MARC 21 用目录地址方法组织数据, 每条MARC 记录分为四个
区: 头标区、目次区、数据区和记录结束符。如下图。
为了适应因特网发展的需要,MARC 21 格式中的856字段对网
上电子资源的定位和存取进行了规范。在856字段中,资源的存取方法和定位均可重复描述。
例如:
0-表示资源
1-表示资源的版本
2-表示相关资源
子字段代码:
$a-主机名
$b-存取号(Internet 协议数字地址)
$c—压缩信息
$d—路径
$f—电子资源文件名
$g—统一资源名(URN)
┋
$o—操作系统
$s—文件尺寸(file size)
$u—统一资源地址(URL)
MARC 发展计划的思想从20世纪50年代末和60年代初形成。
正式命名为MARC 计划是在1965年底。参加这项发展计划的有哈佛大学、国家农业图书馆、华盛顿州立图书馆、耶鲁大学等16个成员馆或单位。 作为信息交换的一种工具,MARC 格式结构在美国已被三个国家图书馆(国会图书馆、国家医学图书馆和国家农业图书馆) 、美
国图书馆协会(ALA)、研究图书馆协会(ARL)、科学技术情报委员会(COSATI) 、教育资源情报中心(ERIC)、科学情报服务中心协会(ASZDIC)和其它机构所采用。MARC 格式结构在1971年被确定为美国国家标准。根据MARC 经验而起草的《文献工作——文献目录信息交换用磁带格式》1973年被ISO 审定为国际标准,即著名的ISO2709-1973(E)。
记录头标为固定长部分,它共含24字节。其信息内容及布局如下:
长度(字符位置0-4)
它是记录中字符的个数,包括记录头标和记录分隔符。用5位十
进制数表示。若不足5位时,左边用零充满。
根据实际需要,逻辑记录必须分块存取,块长通常为2048字节。
(2) 记录状态(字符位置5)
它是单一字符,用N 或C 等字母,描述该记录是新的或修改过的。
(3)执行代码(字符位置6-9) 这些代码可表示记录类型(图书、期
刊、文章、地图、画等) 和文献目录级别(分析的、专题的和连续出版物的等) 。
(4)指示符长(字符位置10)
它是一个十进制数,给出指示符字符位置的数目。若不用指示符,
则指示符长置零。
(5)标识符长(字符位置11)
它是一个十进制数字,给出标识符字符位数。该标识符的第一个
字符或仅有的一个字符必须总是ISO646的IS1。若没有使用标识符,则标识符长置零。
(6)数据基地址(字符位置12-16)
它是5位十进制数字。若有效数字不满5位时,则向右对齐,左
边用零充满。数据基地址等于记录头标、目次和在目次尾部的域分隔符的总字符数。
(7)用户用信息(字符位置17-19)
(8)目次安排(字符位置20-21)
字符位置20为一个十进制数字,等于在目次内每一登录项的“数
据字段长度”部分的字符长度。
字符位置21也是一个十进制数字,它是目次内每一个登录项的
“起始字符位”部分的字符长度。
以上这两个十进制数的和应为9。
头标中最后两位(字符位置22-23) 字符现空着未用,供系统将来扩
充时使用。
目次区为可变长,目次区由若干个目次项和区末的一个字段分隔
符组成。每个目次项对应于一个数据字段。一个目次项由字段标识符、数据字段长度和数据字段起始位置三部分组成,固定为12个字符。因此,目次区的总长度为12n +1(n为一个目录记录中数据字段的个数) 。
记录中的每一个文献目录字段必须按照下列变通情况之一构成。
(1)数据——在这种情况下,记录头标内的指示符长度和标识符长度置零。(2)标识符
和数据——在这种情况下,记录头标内的指示符长度置零,而标识符长度置1或大于1。
(3)指示符和数据——在这种情况下,记录头标内的指示符长度置1或大于1,而标示符的长度置零。 (4)指示符、标识符和数据——在这种情况下,记录头标内指示符和标识符的长度置1或大于1。
标准格式的文献档可以达到大范围的数据共享,在世界上可以通
用,因此它有着广泛的用途。标准格式的文献档可以用磁带、光盘发行,也可以做成Web 数据库;利用因特网为全世界网民提供优质服务。
第八章
搜索引擎 (search engines )是指接受用户的提问,检索某(索引)
数据库,并将与用户提问相匹配的信息对象反馈给用户 的检索工具。广义地讲,search engines 不仅指信息检索程序本身,而且还指界面、相关的入 口、程序、支持它的索引数据库和服务。Web 搜索引擎诞生于20世纪90年代初。比较有代表性 的事件是1991年4月由美国明尼苏达大学开发的一种交互浏览型(Browser )检索软件。起初,它只是用于该校的校园网上,后来逐步推广到整个因特网上应用。
建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方
法。一个搜索引擎一般由
搜索器(Robot Spider ), 索引器(Indexer ),索引数据库(Index
Database ), 检索器(Searcher ),和用户接口(User Interface)等五个部分组成。索引器从搜索器返回的纯文本信息文件抽取索引项(属性),生成倒排工作文件,进而逐步建立索引数据库。索引数据库是搜索引擎的核心,它既是索引器提供的产品,又是搜索器进行工作的基础。没有索引数据库就没有办法实现搜索引擎的功能。检索器是对具体搜索引擎所配置的索引数据库而研制的专用检索程序包。它的职责是从用户接口接受并理解用户需求将其转换成检索指令,对索引数据库实施检索,并将结果集按内容的相关度排序,并排序结果文件向用户反馈。用户接口的作用是接受用户的检索需求的输入,并进语法检查,使其规范。如,概念之间的逻辑运算符AND 、OR 、NOT ,通配符和连接号、括号配对、词组定界符等的正确使用,否则,返回用户进行修改,调整后再传给Searcher 对索引数据库进行检索,并适时地显示检索器反馈的检索结果。用户接口需要人性化的设计。
索引数据库是搜索引擎的核心,它既是索引器提供的产品,又是
搜索器进行工作的基础。
没有索引数据库就没有办法实现搜索引擎的功能。索引数据库的
结构如图所示,它由四类文件组成:倒排地址表 ( IALi )、倒排索引ixfi 及其它索引文件 ( ixf i1、ixf i2、ixf i3 ) 和纯文本 ( fulltext ) 文件。
(1 ) 接口模块 ( interface? module? file ) 是用户通过用户接口交
互传给检索器的用
户需求,检索器理解用户需求后通过指令的方式传给了索引数据
库,索引数据库的接口模块理
解该指令的检索途经和特征值。
( 2 ) 主索引文件 ( main? index? file )
一般来说,一个搜索引擎可能要搜集和索引上百万个网站的信息,
索引文件的规模太大,不利于快速响应,因而它需要在索引文件上建立多级主索引,主索引的功能是接收接口模块传来的检索途经和特征值,在索引文件中迅速定位。
( 3 ) 倒排索引文件 ( Inverted? index? file ) IXF索引文件可以为
检索器提供检索结果,如命中的对象数n ,同时以n 为控制数由相对地址
指针AP 到相应的IALi 中去读取n 个URL 。
? 图8.2? 索引数据库结构
( 4 ) 倒排地址表 ( IAL —Inveted? Address? List ) 倒排地址表中
存放的是相关的URL ,它
与其索引文件指针相連,内部用物理邻接方式存放。检索器按其
索引文件的检索结果进行读取
和装配。
( 5 ) 纯文本文件 ( fulltext ) 是搜索器从因特网上采集来的网上
信息,经过过滤后的文件,
它包括title 、 description 、creater 、publisher 、Date 、Keywords? URLs
等信息,在检索器检索ixf 后,在显示命中结果。同时,取出民IAL 中的URL ,分块 ( 如每次显示20个命中对象 )
装配,所需信息都是从fulltext 文档中提取。
使用搜索引擎的方法有:布尔检索、截词检索、词组与名称检索、
范畴检索
网络资源组织的范围广、支持的语种多、采用的技术新、系统功
能强
略。
1)检索范围更广泛。任何一个搜索引擎都不可能实现对整个网络
信息资源的全面检索,而且不同的搜索引擎的搜索范围都各不相同,因此,当前即使最强大的网络搜索引擎也会出现漏检现象。使用Copernic Agent可以覆盖更多的网络空间,它返回的检索结果是多个搜索引擎检索结果的合集。2)智能性。常规的网络搜索引擎仅仅呈现给用户一个检索结果列表,而对于Copernic Agent来说返回检索结果仅仅只是开始。只要轻轻的点击一下,Copernic Agent就能够按照用户的指令移除断掉的链接,或者在结果中进行二次检索,或者保存页面让你能脱机工作,或者使检索结果按指定要求排序,或者将结果给你的同事或者朋友邮件递送,或者生成搜索报告等等。它的优点就是点击检索历史记录,你能够立即看到当时的检索结果.3)灵活性和易用性。虽然Copernic Agent 具有众多功能,但它的使用非常的简单。友好的人机交互界面和专业的人性化的功能设计,使它拥有更多的用户。
所谓元搜索引擎(meta-search engines)是指能够同时检索多个搜
索引擎并将结果综合的 搜索引擎。分类:客户元搜索程序 、元搜索网站
略。
第九章
数字图书馆的研制起始于西方发达国家,随后向全球扩展。在美
国,1997年特批的总统信息技术咨询委员会(PITAC )成立了一个数字图书馆特别小组(Panel on Digital Libraries),负责调查需要攻克那些研究开发问题,以发挥数字图书馆服务人类需求的潜力。目前数字图书馆方面的很多成果都可以直接追溯到美国数字图书馆创始计划(Digital Libraries Initiative,DLI )的资助:DLI 第一阶段:从1994财政年到1998财政年,是联邦多部门联合支持项目,参与资助的部门包括NSF ( National Science Foundation )、DARPA (Defense Advanced Research Projects Agency )和NASA (National Aeronautics and Space Administration ),每年资助额度为600万美元。在这一阶段,六所大学就利用先进计算技术和网络技术实现大规模分布式电子内容的访问、互操作和应用开展了研究开发工作。DLI 第二阶段:开始于1998财政年,每年资助1100万美元,由NSF 牵头,参与联合资助的有DARPA 、LC (Library of Congress)、NLM (the National Library of Medicine)、NASA 、NEH (the National Endowment for the Humanities)和FBI (Federal Bureau of Investigation),协助单位有国家档案局、史密森学会、博物馆与图书馆服务协会。
数字图书馆的系统结构设计一般采用三层结构:客户端表现层、
服务器层和存储层,客户端表现层可以是因特网的任何用户,通过因特网与服务器层连接,共享数字图书馆的信息资源。服务器层可以是Web 服务器、应用服务器或Z39.50服务器,具体包括元数据服务器、安全服务器、系统服务器、搜索服务器等。存储层包括数字图书馆服务器和对象服务器。
基于元数据的信息组织。
结构:
名称
分配给元素修饰词的惟一标记
标签
分配给元素修饰词的人读标签
命名空间选择
http://purl.org/dc/elements/1.1/,
http://purl.org/dc/terms/,
http://purl.org/dc/dcmitype/,
http://dublincore.org/usage/terms/dc/current-schemes/, 或
http://www.loc.gov/mods
DC 细化
用于DC-Lib 的DC 元素细化:这些修饰词使一个元素的含义更
加狭窄或专指。一个被细化的元素虽然带有未经修饰的元素含义,但其范围更为限定。
„的子元素
对于“老的”DC 元素细化,来自DCMES 的元素被细化
DC-Lib 细化
本应用纲要早期版本的DC-Lib 细化现在成为DC 细化,或成为
另一个命名空间的元素。
DC 编码模式
这些修饰词用来标识帮助元素值解释的模式。这些模式包括受控
词表、形式注释和解析规则。利用编码模式表达的值将是选自受控词表的标志(如来自分类系统或主题词表的词)或根据形式注释的格式化字符串(如“2002-01-01”作为日期的标准表示)。即便编码模式不被客户或代理所理解,其值对人来说仍然有价值。
强制表达
M 代表必备,MA 代表有则必备,R 代表强烈推荐,O 代表可选。
M 保证一些元素总是受到支持,MA 意味着如果信息可获得,则该元素受支持;R 表示如果信息适合于给定的资源,则元素必须填充值;O 表示如果信息不适合于给定资源,则元素值可省。
DC 定义
元数据的DC 定义
DC 注释
该元数据的DC 注释
DC-Lib 定义
元数据的DC-Lib 定义
DC-Lib 注释
该元数据的DC-Lib 注释
最佳实践
该元素用于DC-Lib 最佳实践的推荐
公开问题
问题,附注,公开问题
作为一种元数据,DC-Lib 共有18个元素组成,其中,题名、说
明、日期、格式、关联和覆盖范围等6个元素又含有各自的子元素。
元素名称
标签
子元素名称(标签)
题名
Title
交替题名(Alternative )
创建者
Creator
其他责任者
Contributor
出版者
Publisher
主题
Subject
说明
Description
文摘(Abstract )
内容提纲(Table Of Contents)
日期
Date
创建日期(Created )
有效日期(V alid )
获取日期(A vailable )
发行日期(Issued )
修改日期(Modified )
类型
Resource Type
格式
Format
篇幅(Extent )
媒体(Medium )
标识符
Identifier
来源
Source
语种
Language
关联
Relation
是„另一版本(Is Version Of)
是„另一格式(isFormatOf )
具有格式(Has Format)
被„代替(Is Replaced By)
代替„(Replaces )
是„的组成部分(Is Part Of)
有组成部分(Relation | Has Part)
需要(Requires )
由„参照(Is Referenced By)
参照(References )
覆盖范围
Coverage
空间(Spatial )
时间(Temporal )
权限
Rights
读者对象
Audience
版本
Edition
位置
Location
OAI 提出了基于元数据的电子文献互操作框架,形成了OAI 元数
据收割协议(The Open Archives Initiative Protocol for Metadata Harvesting, OAI-PMH ),OAI-PMH 提供了基于元数据收割的应用独立的交互框架,在OAI-PMH 框架中,存在两类参与者:
·数据提供者管理系统,以支持将OAI-PMH 作为显示元数据的
手段;
·服务提供者利用通过OAI-PMH 收割的元数据,作为构建增值
服务的基础。
特征:(1)HTTP 内嵌的OAI-PMH 请求。(2)XML 响应格式。
(3)元数据前缀和元数据方案。
AC 可看成是用于DC 元数据管理的元数据。AC 建立在XML 基
础之上,旨在将管理信息捆绑在一起,如DC 元数据的创建、修改、删除及其日期、相关人员等。AC 包括3个部份:
(1)整个记录的元数据
·Identifier :标识元数据记录的字符串或数字
·Scope :说明应用范围
·Comment :对核心元数据的说明
·Metadata Location:对给定范围内的内容元数据的正确参照
·Language :元数据语言
·Rights Ownership:关于内容元数据的权利信息
·V alid Date Range: 内容元数据有效期的开始和结束日期
·Handling specification:对AC 和元数据记录处理上的指南
(2)更新和改变用的元数据
·Activity :由责任实体对内容元数据实施的行动,包括:created,
submitted, modified, checked, link collected, resource harvested, expired, mail sent 和deleted.delete_error_record,? delete_disappearance, ?delete_out-_of_scope
·Name :对内容元数据实施行动的责任实体的名称
·Email Address:责任实体的电子邮件地址
·Contact Information:与责任实体联系的信息
·Date :责任实体实施行动的时期
·Affiliation :提及人员的所属机构
(3)记录批交换用的元数据
·Database :识别某数据库的编码
·Transmitter :交换的名称或编码
·Filename :批文件的名称
·Technical format:技术数据交换格式
·Character set: 使用字符集的名称
·Bibliographic format:数据交换的目录格式
·Adrress of result file:结果文件的位置
第十章
电子商务是指两方或多方通过计算机和计算机网络所进行的一切
商务活动。它包括企业和企业之间的商务活动、网上的零售业、电子银行和物流配送等全过程。
开展电子商务必须具备下列条件:
社会信息化程度高
电子商务的前提是企业信息化和商务电子化,企业只有成功实现
内部管理信息化和商务电子化,才能在电子商务时代具有竞争力并进入全球网络化供应链。
计算机应用广泛
计算机以空前的速度发展,它不仅走进了办公室,而且走进了千
家万户。这为电子商务提供了基础。
网络的普及
因特网的普及与完善,为电子商务提供了良好的应用环境。
电子银行系统的成熟
银行业务的电子化、网络化是社会信息化的一个重要方面。信用
卡的应用与普及,全球性信用卡计算机支付与结算系统的成熟,为电子商务活动提供了关键性的技术支持。
电子安全交易协议的制定对电子商务进行了规范
1997年5月,美国VISA 与Master card 国际组织等联合制定的
电子安全协议SET 的出台,为电子商务提供了安全环境。
政府与国际组织的支持为电子商务提供了保障
美国制定了电子商务框架,欧洲联盟发布了电子商务协议。1998
年,经济合作与发展组织(OECD )通过了《全球电子商务行动计划》。这些文件的制定与执行,有力地推动了电子商务的健康发展。
货物配送系统的建设
仓储和货物配送机制的逐步建立,为一些国家和地区物流输送提
供了便利。
2 从总体上来看,电子商务系统可以分成三层框架结构。它的底
层是网络平台,因特网是信息传送的载体和用户接入的手段。它包括各种各样的物理传送平台和传送方式;中间层是电子商务基础平台,包括CA (Certificate Authority)认证、支付网关(Payment Gateway )和客户服务中心三个部分,其核心是CA 认证;支付网关是关键,客户服务中心是主体。而第三层是应用层,它包括各种各样的电子商务应用系统。电子商务基础平台是各种电子商务应用系统的基础。
3
①B2B 模式
企业与企业间(BusinesstoBusiness )的电子商务活动,称为
B2B 模式。它使得企业间的商务过程可以通过电子化手段来实现,包括供求企业以及协作企业之间利用网络交换信息,传递各种票据,支付货款,从而使电子化在企业商务过程中发挥了巨大的经济效益与社会效益。这种模式可以帮助企业通过互联网进行网上采购、网上营销、生产组织管理、技术合作与研发、办公自动化等许多方面,因此B2B 模式可以视为e 时代企业的生存平台。企业由此可以降低经营成本,进而获取更大的利润。B2B 模式发生在企业之间,交易频率相对较少,交易数额却相对较大,而且交易条件成熟,整个交易过程规范合理,因此,B2B 模式具有强大的生命力。
②B2C 模式
企业到消费者(BusinesstoConsumer )的电子商务称为B2C 模
式。因为它与B2B 最大的不同点就在于它直接面对最终消费者。网上商城如今如同雨后春笋般地在网络上纷纷闪亮登台,电子商务一时广为流传,网上购物也成了人们的生活新时尚。仿佛WWW 成为Internet 代名词一样,事实上的B2C 并不代表电子商务的全部。尽管B2C 曾经风光一时,但有识之士毕竟对其无法避免的弊端渐有察觉。作为以数目巨大的消费者为核心的电子商务平台,B2C 面临着来自安全认证、电子支付、上网速度与费用、配送与售后服务等方面的瓶颈限制,面对此情景,人们不禁冷静了许多。普通消费者当然不可以放弃,但如何更好地不放弃将是业界无法回避的一个问题。我们相信,伴随着这个问题的圆满解决,B2C 将会迎来它更为美好的明天。
③C2B 模式
与B2C 模式相反,用户(消费者) 对企业(ConsumertoBusiness )
的电子商务称为C2B 模式。消费者为了自己的权益,联合起来共同指向企业。这是一种由美国流行起来的正宗“舶来品”, C2B 完全改变了传统商业中固定价格出售和一对一讨价还价的定价模式,使得买方订价成为现实,单个消费者通过聚合成为强大采购集团的一分子,充分享受到以大批发商的价格买单件商品的实际利益。当然,作为一种比较新的电子商务模式,它的发展还需要一段时间的磨合与完善,毕竟能让消费者有利可图的事,商家就不敢放任自流了。这样,企业与消费者之间的利益得到了协调。
④C2C 模式
电子商务的灵活性和操作的简易性适宜消费者之间交流信
息。于是出现消费者之间(ConsumertoConsumer )的电子商务C2C 模式就应运而生了。或许网上拍卖这个提法更能够大众化一些,不过网上拍卖毕竟是对面不见人的交易,对于对方的信用安全实在不敢掉以轻心,所以尽管这个“网络游戏”比较有趣,但真正对它有点感冒的人有待发掘。不过眼光应当放长远一些,一俟全社会信息化程度加强,各种条件成熟后,
C2C 模式仍不失为一个很好的主意。
除上述四种主要模式外,还有企业对政府(BusinesstoGovernment )
的B2G 模式和消费者对政府(ConsumertoGovernment )的C2G 模式等。
4
电子商务系统是商务与技术结合的产物,所以在电子商务应
用的全过程中,都必须充分兼顾商务和技术两个方面的因素,以科学、合理的程序展开系统设计、建设和应用工作。如果按阶段划分,要实现电子商务应用,电子商务系统建设大致需要经过下列四个阶段:
(1) 商务分析阶段 (2)系统设计阶段 (3)系统实现阶段 (4) 整
合运行阶段
5
下面是向中国工商银行申请特约网站的例子。
申请程序如下:
1) 仔细阅读《B to B在线支付方案》、《在线支付合作协议书》,
认真填写《特约网站注册申请表》(可下载打印填写)。
2) 到当地工商银行提交如下申请资料:
①营业执照副本及复印件;
②经办人员的有效身份证件;
③填妥的《特约网站注册申请表》(可下载打印填写);
④最近年度的资产负债表和损益表的复印件;
⑤《域名注册证》复印件或其他对所提供域名享有权利的证明;
⑥企业标识LOGO 的电子文件;
3) 经银行审查合格后,双方应以《在线支付合作协议书》(参考
样本)为依据,协商并签订《在线支付合作协议书》。双方协商一致可对协议书(样本)内容进行增加或另签补充协议。
4) 双方签约后您将获得银行的软件光盘,内容包括: 《商户手
册》、验证程序、数据接口规范等。
5) 双方交换网站的LOGO ,同时在各自网页中加入对方网站的
链接,特约网站还应在销售网页中加入ICBC 在线支付系统的链接。
6) 银行将负责协调完成特约网站的技术链接工作。
6 7 8题见10.4? 商务网站的实例分析
第十一章
电子政务是政府机构运用现代信息工程技术,将其管理和服务职能转移到网络上,通过重组政府组织结构、优化工作流程、超越时空制约实现政务信息与政府业务的共享与集成,向全
社会提供规范、透明、高效和全方位的管理与服务;在我国,经济体制改革对行政活动变革提出的要求是构建电子化政府的内在因素和原动力。中国现阶段市场经济体制的逐步建立,最终必定要求政治领域内的制度性重构。电子政务也是在这样的经济体制改革的前提和背景下,为适应社会主义市场经济体制的需要而建立的。
目前国际上对于电子政务的发展阶段有多种划分方法,所采用的标准各有差异,类型也多有不同。主要可以分为: 四阶段论、五阶段论和六阶段论。最重要的四阶段论是欧委会提出的4个阶段:①网上信息发布阶段,政府仅在网站上发布公共服务的信息。②单向交流阶段,政府提供便民服务。如公民可以从网站上下载政府的各类表格,如报税表。③双向交流阶段,政府能够与公民在网上双向互动。④全方位事务处理阶段,政府的公共服务出现全方位的电子化特征。公民不仅通过网络传输表格,还可以直接在网络上完成交税、交费等事项。
1993年3月12日,提出和部署建设国家公用经济信息通信网(简称金桥工程)。1993年8月27日,金桥前期工程建设300万美元预备金启动。1994年6月8日国务院办公厅向各部委、各省市明传发电《国务院办公厅关于‘三金工程’有关问题的通知(国办明电[1994]18号)》。自此,金桥前期工程建设全面展开。1996年8月,国家计委正式批准金桥一期工程立项,并将金桥一期工程列为“九五”期间国家重大续建工程项目。1996年12月,中国公众多媒体通信网(169网)开始全面启动,广东聆通、天府热线、上海热线作为首批站点正式开通。
1998年10月18日,中国电信策划出台“政府上网工程实施方案”,并提出实施政府上网工程的优惠政策和其他配套措施,与政府上网相关话题第一次引起社会各界的广泛关注。1999年1月,由中国电信和国家经贸委经济信恩中心牵头、联合40多家部委(办、局)信息主管部门在京共同举办政府上网工程启动大会,倡议并启动了政府上网工程,同时,政府上网工程主网站www.gov.cn 正式开通并试运行,成为我国政府上网的导航中心和服务中心。由此揭开了1999年“政府上网年”的序幕。
电子政务系统是一个复杂的网络信息系统,同一般的信息系统不同,电子政务系统除自己的技术构成的体系结构外,还必须考虑它与互联网的关系,这主要是处于安全的原因。体系结构包括:第一层:应用层,第二层:交换层,第三层:数据层,第四层:网络层。
从信息的媒体种类可将电子政务中的信息分为数值、文本、声音、图形、图像、音频、动画、视频。其中数值、文本使用的最多,其次是图像、声音、视频,而动画、图形使用较少。这一点与电子商务有很大的不同。
从组织层次分有一次信息,如关于机构和个人的介绍;二次信息,如对自由文本、超文本、主页方式等网上信息进行索引。作为电子政务系统重要的是组织好一次信息,而二次信息可由搜索引擎的完成。
从信息的层次可分为结构化信息,如各类政府表格;半结构化信息,如各种政府文件;非结构化信息,如个人照片。
1)层次结构的组织方法:常见的层次结构的组织方法有分类语言与主题语言组织方式。主题语言组织方式将所有获得的信息资源按照某种事先确定的概念体系结构,分门别类的逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索。再通过信息线索联接到相应的网络信息资源。分类语言组织方式将信息分门别类后,按逻辑层次加以组织。也就说,首先建立一个知识大纲,然后将每个大类由宽到窄逐层划分为若干级
类目,构成一个知识树,再按信息的属性予以系统组织。2)超链接:超链接是一种新型的网络信息组织方法。也是一种区别于传统的检索技术的一种信息获取方式。在电子政务信息组织中大量使用。这种信息组织方式将网络上相关的信息存储在许多节点上,节点间用链路相连,这些节点构成一个网状结构。计算机技术的发展使各种类型的数据逐步进入超文本系统中,使它发展成为超媒体。3)数据库:数据库是成熟的信息组织方法,是对大量的规范的数据进行管理的技术。电子政务中有大量的规范数据,因采用数据库技术组织电子政务中的信息是显然的。例如:电子政务要为企业服务,因此必须建立企业数据库,每个企业的基本信息以一条记录的形式存在数据库中。
文件是一种历史较长的信息组织方式。文件组织信息的优点是简单方便,除文本信息外,它还可以组织图像、图表、视频等,甚至可以组织程序。Internet 已混合了不同的文件类型和不同的文件格式。他们都可以用来存储电子政务中的各项信息。对于政府报告这种既有文字又有视频的信息集合来说,就可以用两种格式的文件来组织,一个是文本格式,一个是视频格式。用户用不同的软件分别对他们处理使用。
从信息系统的角度来说,电子政务也是一种信息系统,但它又有自己的特殊性。电子政务系统与其他信息系统的最大区别在于,其所承载的信息流和数据更为重要,对安全性、可靠性的要求极高,并且往往涉及到整个国家、民族的利益。相对与其他信息系统其具有以下三个主要特点:安全性,要强调从硬件、操作系统、数据库等各方面的安全保护;透明化,在实际应用中,存在各种应用环境。用户只关心能不能得到自己所需要的信息,中间平台的各种环境对用户来说应该是透明的。个性化,因为对使用信息的人来讲,每个人都希望自己能有一个满足各自要求的一个应用空间。因此就要求从应用建模、智能化等方面,构建个性化的电子政务系统。
电子政务标准化工作是电子政务的极为重要部分,重视标准化工作是确保电子政务应用系统与业务互联互通、信息共享、业务协作以及安全保密的基础。为此,标准化工作尽早解决以下几方面的问题:电子政务标准体系是我国开展电子政务标准化工作的基础。通过对国内外电子政务标准化工作的分析研究,提出我国电子政务对标准化的总体需求及未来开展电子政务标准化的框架和标准细目。应尽早开展电子政务业务与服务标准的研制工作,使得我国电子政务的业务与服务规范化、标准化。应尽早开展电子政务安全标准的制定工作,以确保我国电子政务网络与数据的畅通、安全、以及保密。
依照电子政务技术体系结构,可以提出电子政务标准体系框架。目前我国电子政务已经制订了一些标准,相关标准可以在www.egs.org.cn/standard 上查到。主要有六项标准。这里将其“标准体系”和“应用支撑标准”举例如下:
第十二章
1 人类的各项活动基于人类的智慧和知识,即对外部世界的观察和了解,正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材
料,它本身没有任何意义。从数据到智慧,要经过分析加工处理精炼的过程。数据是原材料,它只是描述发生了什么事情,而不提供判断或解释。数据是信息的载体,信息是数据的含义。对信息进行再加工,进行深入洞察,才能获得更有用的信息,即知识。所谓知识,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的。”从信息中理解其模式,即形成知识。在大量知识积累基础上,总结成原理和法则,就形成所谓智慧(Wisdom)。
2 ①自动化 ②集成化 ③智能化(详细见11.1.2)
3 数据仓库是面向主题的
1111这是与传统数据库面向应用相对应的。DW 中的数据是按主题组织的,主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上,它对应企业中某一宏观分析领域所设计的分析对象。按主题组织数据更有利于决策分析。比如,一个保险公司的数据仓库所组织的主题可能为:客户,政策,保险金,索赔。而按应用来组织则可能是:汽车保险,生命保险,健康保险,伤亡保险。我们可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵互不交叉。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。应用是客观世界既定的,它对于数据内容的划分未必适用于分析所需。“主题”在数据仓库中是由一系列表实现的。也就是说,依然是基于关系数据库的。一个主题之下包含许多表,表的划分可能是由于对数据的综合程度不同,也可能是由于数据所属的时间段不同而进行的划分。但无论如何,基于一个主题的所有表都含有一个称为公共码键的属性作为其主码的一部分。公共码键将各个表统一联系起来,从根本上体现出它们属于一个主题。比如,基于“客户”这一主题的所有表都包含公共码键CUSTOMERID 。同时,由于数据仓库中的数据都是同某一时刻联系在一起的,所以每个表除了其公共码键之外,还必然包括时间成分作为其码键的一部分。因为数据仓库包含的都是历史数据,它的表必然包括对应的时间属性。
4,5 (略)
第一章
1 知识经济:建立在知识和信息的生产、分配和使用上的经济。
文献:用文字、图形、符号、图像、声频、视频信息记录知识的一切载体,或具有独立、完整含义的信息集合。
信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
著录:指依据一定的规则,对文献外表形式、物质形态和内容特征进行分析、选择和记录的过程。
标引:指分析文献的内容属性(特征)及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。
检索:指从信息集合中发现、查出所需信息的活动与过程。
款目:依据一定的方法和规则,对文献外表形式、物质形态和内容特征所作出的客观描述。
目录:将款目按照一定的规则有序地排列起来便形成了目录。
专指度:主题标识与文献主题概要的相符程度。
网罗度:对文献信息内容进行标引的完备程度,具体表现为所标引主题数量的多少。
ISBD :全称是——International Standard Bibliographic Description,译为《国际标准书目著录》。
AACR2:全称是Anglo-American Cataloging Rules:2,译作《英美编目条例第二版》。
2 信息资源开发的基本内容与环节包括信息的组织、检索和利用。信息组织信息资源开发的关键性环节,也是信息检索利用的基础。没有它,就不会有信息检索系统,也不会有信息检索,从而也就谈不上信息的有效利用。因此无序的信息根本不能用于检索和利用,不再是一种资源。
3 信息组织的原理包括两方面:
(1)信息组织的理论基础
系统论、耗散结构理论和协同论是信息组织的理论基础。
(2)信息组织的方法基础
语言学、逻辑学、知识分类是信息组织的方法基础。
4 信息组织的发展经历了以下几个时期:
(1)清册职能时期:主要通过对信息的记录和登载,如同“信息帐房先生”, 告诉人们有什么信息。
(2)查检职能时期:不仅告诉人们有什么信息,而且告诉人们怎样找到信息。
(3)组织职能时期:不仅可以告诉人们我们这里有什么信息,而且还可告诉人们其他地方有什么信息;人们不仅可以找到最需要的信息,而且还可以知道什么信息适合于自己;人们不仅可以利用一种途径获得信息,而且可以多途径、多角度地查检信息。
5 网络环境下信息资源的组织方法:
(1)网络一次信息资源的组织方法
① 超文本方法
自由文本方法
主页方式
(2)网络二次信息的组织方式
① 搜索引擎方法
② 主题树方法
6 (1)自动标引技术
(2)数据挖掘技术
(3)信息推送技术
(4)基于内容的检索技术
第二章
1
类:许多具有某种(或某些)共同属性的事物的集合。
组配分类法:组配分类法的构成基于概念的可分析性和可综合性。即一个复杂概念可以分析为若干简单概念(或概念因素),若干简单概念可以综合为一个复杂概念。
下位类:经过一次划分所形成的一系列概念称为子类或下位类。
组配:利用分类表中已有的表示简单主题概念的类号,按一定规则组合成一个复合类号,用以表达分类表中没有的复杂概念。
分类:可以用另一种属性作为划分标准(分类标准)来对这一类事物进行划分,即分类。
类目:构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目是由类号、类名、类级、注释和参照组成的。
类号:是类目的代号,也叫标记符号,决定类目在分类体系中的位置。
仿分:利用相临或相关类目的子目,作为有关类目复分依据的组配编号法。
分类语言:用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。
同位类:各子类互称为同位类。
基本部类:对人类全部知识领域或特定知识领域及其文献所作的最概括的区分,但它不是分类表的类目,不用于类分文献或信息。
复分:将主表中按相同标准划分某些类目所产生的一系列相同子目抽取出来,配以特定号码,单独编列,供主表有关类目进一步细分的类目。
体系分类法:又称等级分类法、列举式分类法,是一种直接体现知识分类的等级制概念标识系统。它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括) 和系统排列而构成的。
上位类:被划分的类称为母类或上位类。
基本大类:分类表中的第一级类目,它代表着较大的学科或领域。
八分法:又称扩九法,即当某类列的同位类类号标记到8,且尚有若干同位类待标记时,则9本身不用,扩展为91、92、93„„99,为第9个及以后的同位类配号。
层累制:根据类目的不同等级,配以相应不同位数号码的编号方法,类目的等级与其号码位数是相对应的。
分面:指可以描述一类事物某一方面属性或问题的一组简单概念或类目。
双位制:双位制又称百分法,即在某类目下将用于配号的数字1-9不直接使用,而是分别扩展为双位数字标记其下属同位类目的编号法。
借号法:采用层累标记制时为了增加类列的容纳性而采用的借用下位类、上位类、同位类类号的一种编号方法。
2 分类应遵守下列规则:
(1)唯一性
(2)完整性
(3)科学性
3组配分类法的分类标识是散组式的,组合的,可以分拆的,其中诸因素可以变换位置的;而体系分类法的分类标识是定组式的,固定的,不可分拆的,其中诸因素是不可变换位置的。
4 (1)体系分类法的宏观结构
(2)体系分类法的微观结构
类目是构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。一个类目是由类号、类名、类级、注释和参照组成的。类目结构如图2.2所示。
类号───R 318.01
生物力学────────类名
类级
生物流体力学,骨、软组织力学以及生物力学业在生物医学工程中的应用等入此。
参见Q66。
注释和
参照
5 UDC特点:
较早、较全面地采用概念分析与综合原理及冒号组配技术,是世界上第一部半分面分类法。 类目详尽,详本类目多达15-21万个。
标记制度灵活,辅助符号多达十几种,表达概念能力强。
DDC 特点:
类目体系完整,覆盖全部知识、文献;类目详尽,等级分明,便于理解使用。
首创以简明的号码标记类目的方法,便于图书排架、目录组织和检索。
首次采用小数标记制。
首次使用了复分和仿分方法。
首创了图书分类法的类目相关索引。
成立了常设管理机构,不断修订更新,保持分类法的长久生命力。
LCC 特点:
类目体系有文献保证,因而实用性强。
列类详细(尤其在人文、社会科学部分),类目超过23万个,是世界上类目最多的一部分类法。
是典型的列举式分类法,较少采用组配方法。没有通用复分表,各大类几乎分别编有地区、形式、主题等专用复分表,各大类复分表的类目设置和配号均不相同。
类号较简短,容纳概念的能力较强。
有专门机构负责修订,及时反映新的变化。
CC 特点:
可以灵活组配、表达复杂标引对象
设置了较多的基本类目。采用分面结构,将每一主题划分为若干范畴,范畴之下列出具体的点和面,形成类表。
影响深远,为分类学领域带来了一场动态分类的革命,推动了分类理论及其他相关信息组织理论的研究,也直接影响了DDC 、UDC 等老牌分类体系的修订,并导致了大量以分面组配为特征的新型分类语言的产生。
《科图法》特点:
自然科学部分的类目比较详细,科学系统性比较强,能较好地反映当时科学技术的发展水平。 采用了类目交替、参见等方法,使分类法既适合大型综合性图书馆使用,又方便专业图书馆使用。
只采用阿拉伯数字作基本标记符号,单纯简便,易写易记。
采用顺序制与小数层累制相结合的标记制度,并运用一些灵活的配号方法(八分法、双位制、借号法),使类号具有较强灵活性、助记性和容纳性。
结构完整,除主表外,有多个通用附表(复分表)及相关索引,主表中还有专类复分表,并采用了仿分。
文献分类法在组织网络信息中具有的优势:
由于限定了检索范围,可以提高查准率;
分类等级结构可以提供检索词的上下文;
自动索引结构便于用户在查找时进行浏览;
检索目的不明确或检索词不确定时,分类浏览方式更有效率;
以知识分类为基础,以符号为标识,具备成为不同语言转换中介的条件;
非文本信息在网络信息资源中所占比例日渐增大,其内容特征难以用文字表达,分类法的聚类功能及号码标识为之提供了一条可能途径。
不足:
类目设置缺乏规律性
类目归属存在着不合理现象
同位类排列不能揭示类间关系
横向关系揭示上存在不一致
部分类名不确切
分类规则有待完善
应做出的调整:
将分类法的文献保证扩展到包括Internet 信息资源,增加必要的新类目;
修订类名,增强其表达性和通用性;
分解和标记类号的组成因素,以识别它所表达的特定主题和主题方面;
不断增加新的术语作为索引词;
扩展分类法与其他受控词汇的联系;
控制使用类目的深度,多数网络分类检索系统只使用分类法的1-3级类目。
自编分类系统的特点:
重视以事物为中心设置类目
类目收录范围宽泛
多重列类、重复反映
排列方式简便
直接以语词组织信息
更新迅速
Y ahoo !将所收录的全部信息分为了14个大类,每一个基本类目下会细分为不同层次的次一级类目,级别越低的类目中的网站其主题越明确。具体体现在以下几方面:
(1)采用宽泛的主题领域建立分类索引
(2)根据上下文进行信息内容的组合
(3)利用冒号标记信息内容
(4)提供不同的路径入口
8. 略
第三章
1 主题法:用语词来表达各种概念,将各种概念不管其相互关系完全按字顺排列。
标题:是主题标目(Subject Heading)的简称,它是直接表达文献主题的标识,大多是对文献内容所论及事物名称及特征的规范表达。
单元词:指一个个最小、最基本的词汇单位,是能够用来描述文献所论及或涉及的事物──主题的那些单词。
叙词:以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式主题语言。
关键词:是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对描述文献主题内容具有实质意义的语词,亦即对提示和描述文献主题内容来说是重要的、带关键性的(可以作为检索“入口”的)那些语词。
后控制词表:只供检索的主导表,这种词表实际上是一种同义词、近义词和相关词的集合。
入口词表:有的叙词表为了大量收录非叙词,就把非叙词单独编成一表,称为入口词表,其内容包括编表过程中落选的词和标引过程中记录下来的词,每个非叙词都引向正式叙词。
词族索引:它是利用概念的等级关系(概念成族原理)将叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以明确它们之间的层层隶属关系。
范畴索引:它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
搜索引擎:是一种利用网络自动搜索技术,对Internet 上各种资源进行标引,并为检索者提供检索的工具。
OCLC :全称(Online Computer Library Center,Inc.),即联机计算机图书馆中心
MeSH :《医学标题表》(Medical Subject Headings)
ILAS :图书馆自动化集成系统
2 标题语言的特点:
① 用受控的自然语言语词作标识,直观地表达主题概念,直接地标引文献。
② 以字顺序列组织标识,提供直接的主题检索途径。有利于进行特性检索。
③ 主要用参照系统间接显示标题所表达的主题概念之间的关系,形成语义网络。能为选用标题进行标引和检索提供一定方便。
④ 按事物集中文献,而不是按学科、专业集中。因此,标题语言适合于从事物出发的检索,不适合于从学科出发的检索,不便族性检索。
⑤ 提供先组式的主题标识,标识涵义比较明确,选用标识比较容易。但是,多途径检索的可能性较小。
标引所用的标题不必都是标题表所列举的现成标题。允许必要时自拟标题表达新的或没有列出的主题概念,适应能力较强。
3概念组配与字面组配的区别主要表现在两个方面:
两者的本质不同
概念组配本质上是在概念分析的基础上进行概念综合。字面组配是利用构词法进行词的分拆和组合,它符合构词规律,但是,不一定符合概念逻辑,字面组配的方法比较简单、直接,但是,对概念的表达时常不够准确。
两者的词汇单元不同
单元词是字面上不能再分的词汇单元,相对来说,独立表达能力较差。叙词则具有概念特征,尽可能选用能够表达学科或事物的基本概念的语词,不仅收单词,而且收词组,对主题的表达能力较强。
4叙词语言既以单元词语言为直接基础,又综合了多种标引语言的原理和方法,包括:
(1)它保留了单元词法单词组配的基本原理;
(2)采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题法的预先组配方法(即采用词组),以克服某些词分拆后再组配时产生意义失真的缺点;
(3)采用了标题法对语词进行严格规范化的方法,以保证词与概念的──对应。这是标题法的基本方法之一。单元词法对单元词的规范方法也取自标题法;
(4)采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相关关系,以保证准确、全面地选用叙词进行标引和检索。
由于叙词语言综合了多种标引语言的原理和方法,并以概念组配为基本原理,因而具有多种有益于标引和检索的特点。
(1)叙词语言所采用的概念组配原理,使其避免了语词字面组配可能产生的概念表达误差,不仅保证了组配语义的准确性,提高查准率,而且也减小了采用复杂句法控制措施的必要性,简化标引和检索。
(2)叙词语言不仅采用了完善的参照系统,而且还使用了多种其它方法显示概念之间的关系,从而增加了查词途径及准确理解和选用叙词的依据,有利于提高查全率和查准率。
(3)灵活的叙词组配,使叙词语言具有较强的概念表达能力,能专指、及时地表达各种复杂、新颖的主题。
(4)叙词语言提供检索同一课题的多条途径,也允许多主题因素检索或增减主题因素进行检索,在检索上有较大的灵活性。
(5)能同时适用于标识单元方式和文献单元方式的检索系统,兼顾手工检索和计算机检索的需要,特别有利于发挥计算机检索系统的优越性。
5 叙词表的结构体系一般由一个主表和若干辅表构成。主表是叙词表的主体,包括的内容最全,对每个叙词的著录也比较完备,所以可独立存在。辅表是为方便叙词表使用而编制的各种辅助索引,包括的内容不全,著录也比较简略,所以不能独立存在。
6 《汉语主题词表》主题词参照系统如图所示:
7关键词语言作为标引语言和检索语言来说,质量比较差,其原因在于:
(1)由于关键词法直接采用文献中的自然语词作关键词,对自然语言中大量存在的等同关系词不加规范统一,也不显示等同关系,使相同主题文献常常因作者用词不同而被分排各处且无联系,导致漏检的可能性较大。
(2)关键词法不显示关键词之间的等级关系和相关关系,难以进行族性检索,特性检索的查全率也不高。
(3)为了加速和简化检索工具的编制过程,多限于从文献标题中抽取。由于一些标题对文献内容的表达不充分或不准确,会使关键词检索有一定的漏检或误检。
(4)在机编索引情况下,由于机械地抽词和轮排,其中有不少关键词款目是不起检索作用而徒增篇幅的。
尽管关键词语言具有以上那些缺点,但还是得到了广泛的应用,这是因为:
(1)标引时无需主题分析和查看词表,简便易行,因而降低对标引人员的要求,节省大量人力。
(2)标引和索引编制易于实现自动化,从而显著节省时间,大大缩短检索系统信息组织和报导的时差,保证信息报导和传递的及时性。
(3)关键词是文献中使用的自然语词,表达主题比较直观、专指,可以保证较高的查准率。
第五章
HTML 仅是SGML 的一种固定标签的应用文档,而不是SQML 的子集。由于其描述能力有限,没有DTD -Document Type Definition描述,因而丧失了SGML 的大部分功能;XML 是Web 应用服务的SGML 的一个重要分支。它是一种元标记语言(Meta-markup Language),可提供描述结构化资料的格式,具体来说,XML 是一种类似于HTML ,被设计用来描述数据的语言。XML 从诞生之日起,就显示了其强大的生命力。它吸收了HTML 简易性的优点,克服了其局限性,开拓了新领域。XML 继承SGML 的80%的功能,同时继承了SGML 的元语言的特征。它既可以作为应用语言在WWW 上直接利用,又可用于开发应用语言。
人们想开发一种能把数据和表现形式分开,用户能自主定义标签的体系框架。开发下一代因特网的标准语言。
1996年,W3C 着手开发XML 标准。XML 从诞生之日起,就显示了其强大的生命力。它吸收了HTML 简易性的优点,克服了其局限性,开拓了新领域。它具备许多特点:灵活性与简洁性 开放性与可扩展性 实用性高效性
XML 文档的逻辑结构分为包含DTD 的描述结构和不包含DTD 的结构。它们分别称为合法XML 文档和结构完整的XML 文档。合法的XML 文档的逻辑结构? 包括:?XML 声明?DTD (文档类型定义)XML 元素集(实例);而结构完整的XML 文档只有两部分(没有DTD 描述)。
DTD 的构成:元素型声明、属性型声明 实体声明、记法声明。
XML 数据建模方法有多种,DTD (Document Type Definition)和XML Schema就是常用的
两种建模方法。
XSL ( eXtensible Style Sheet Language ) 是一种“声明性”的语言。它是通过XML 进行定义的,遵循XML 语法规范,是XML 的一种具体应用。XSL 语言可以将XML 转化为浏览器识别的HTML 进行浏览和输出,也可以过滤和选择XML ,并能格式化XML 数据。
?X Link ( XML Linking Language )是XML 的规范之一,它的链接功能远远超过HTML 。X Link 有标准链接和扩展链接两种功能。标准链接只有一个Locator, 即只能指令一个Resource 作为链接对象,它与HTML 的链接锚( anchor ) 很相似;XPointor ( XML Pointor Language )为XML 指针语言。利用它,可以指定XML 文档中的任何一部分。它提高了定位的精度,是寻址的常用方法。通过XPoint 计数功能,可以方便地指定各个元素和元素中的一部分文字,即特定的元素、特定的文字列。
例程:
? (e1.xml)
]>
张晓东
85316255
85316147
[1**********]
刘宜光
85316834
85316289
[1**********]
第六章
所谓元数据, 就是描述数据的数据(data that describes data)或“关于数据的数据”(data about data )。它是促进数据处理和标引数据的数据;也是人们组织和发现Internet 信息资源的数据。 随着WWW 的发展,网络信息资源呈无限增长的趋势。与此伴随而来的问题是:如何在浩瀚的信息海洋中找到自己真正所需的信息?因此资源发现成为INTERNET 应用的瓶颈与焦点。于是人们希望通过对资源描述的工具——元数据(Metadata )这一课题的探讨及实施来促进信息资源描述、组织、发现及利用效率的提高。
DC-1至DC-2003。 研讨会
主办时间
主办国
主办地点
主办组织
DC-1
1995年3月1日——3日
美
俄亥俄州,
都柏林
OCLC/NCSA
DC-2
1996年4月1日——3日
英
华瑞克大学
OCLC/UKOLN
DC-3
1996年9月24日——25日
美
俄亥俄州,
都柏林
OCLC/CNI
DC-4
1997年3月3日——5日
澳
坎培拉
OCLC/DSTC,NLA
DC-5
1997年10月6日——8日
芬
赫尔辛基
OCLC/NLF
DC-6
1998年11月2日——4日
美
华盛顿特区
OCLC/TLC
DC-7
1999年10月25日——27日
德
法兰克福
OCLC/
DC-8
2000年10 月4日——6日
加
渥太华
OCLC/NLC/IFLA
DC2001
2001年10月22-26
日本
东京
DC2002
2002年10月13-17
意大利
佛罗伦萨
DC2003
2003年9月28-10月2
美国
西雅图
都柏林核心元数据元素集的最新定义于1999年07月02日推出, 版本1.1。Dublin Core 元数据元素集参考描述如表: 元 素
名 字
标 识
定 义
注????????? 释
Title
资源名
Title
赋于资源的名称
一般而言,这一名称指的是资源对象的正式公开的名称。
Creator
创建者
Creator
创建资源内容的主要责任者
创建者的实例包括一个个人,一个组织或一个服务。一般而言,用创建者的名字来标识这一条目。
Subject
主题和关键词
Subject
有关资源内容的主题描述
一般而言,一个主题和关键词通常采用描述资源内容的关键词,短语或分类号。推荐主题和关键词最好是取自于一个受控词表或是一个规范的分类体系。
Description
说明
Description
对资源内容的说明
说明元素可以包括但不限于以下部分:文摘, 目录,对以图形来表示内容的一个参照或者一个有关内容的自由文本描述。
Publisher
出版者
Publisher
使资源成为可以取得和利用状态的责任者
出版者的实例包括一个个人,一个组织,或一种服务。一般而言,用出版者的名字来标识这一条目。
Contributor
其他责任者
Contributor
对资源内容创建作出贡献的其他责任者
其他责任者的实例包括一个个人,一个组织或一个服务。一般而言,用其他责任者的名字来标识这一条目。
Date
日期
Date
与资源本身生命周期中的一个事件相关的日期
一般而言,日期应与资源的创建或出版日期相关。建议采用的日期格式应符合ISO 8601
[W3CDTF]规范,并使用YYYY -MM-DD 的格式。
Type
类型
Type
有关资源内容的特征和类型
资源类型包括描述资源内容的分类范畴,功能,特性或集合层次的术语。建议采用来自于受控词表中的值(比如都柏林核资源类型工作草案[DCT1])。描述资源的物理或数字化表现形式,请使用格式(FORMA T )元素。
Format
形式
Format
资源的物理或数字化的表现形
一般而言,形式可以包括资源的媒体形式或尺寸。形式元素可以用来决定对资源进行操作或显示所需的软件和硬件。例如有关大小及时长的标注。建议采用来自于受控词表中的值(例如,因特网媒体类型表[MIME]定义了计算机媒体的格式)。
Identifier
资源标识符
Identifier
在一给定的文本环境中对资源的参照引用
建议对资源的标识采用一个符合正式标识体系的字串及数字组合。例如正式的标识体系包括统一资源标识符(URI),资一资源定位符(URL),数字对象标识符 (DOI)和国际标准书号 (ISBN)。
Source
来源
Source
对一个资源的参照,而当前资源是源自这一参照资源
当前资源可能部分或全部源自来源所标识的资源。建议对这一资源的标识采用一个符合正式标识系统的字串及数字组合。
Language
语种
Language
描述资源知识内容的语种
建议本元素的值采用RFC 1766中所定义的语种代码规范,此标准定义了一个2个英文字母的语言代码(取自于ISO 639标准),作为一个可选项,也可以在其后加上一个2个英文
字母的国家代码(取自于ISO 3166标准)。例如,en 为英语,fr 为法语,或者使用en-uk 表述为英国英语。
Relation
关联
Relation
对相关资源的参照
建议对关联的标识采用一个符合正式标识体系的字串及数字组合。
Coverage
覆盖范围
Coverage
资源内容所涉及的外延与覆盖范围
典型的覆盖范围包括空间位置描述(一个地名或地理坐标)、时间段描述(一个时间标识,日期或一个日期范围)、或者权限描述(比如命名的授权实体)。推荐覆盖范围最好是取自于一个受控词表(例如地名词库[TGN]),并应尽可能地使用由数字表示的坐标或日期区间来描述地名与时间段
Rights
权限管理
Rights
有关资源本身所有的或被赋予的权限信息
一般而言,权限管理元素应包括一个对资源的权限管理声明,或者是对提供这一信息的服务的参照。权限管理一般包括知识产权(IPR),版权或其他各种各样的产权。如果没有权限管理元素的标注,不可以对与资源相关的上述或其他权利的情况作出任何假定。
自研究之初人们便认识到大多数的应用都需要一定的机制来精确限定元数据元素及其值,原因如下:
(1)增强语义的专指性。使用特定领域的受控词表或分类方法(例如杜威十进制分类法DDC )有助于增加描述的精确度。指明某主题描述词出自何处,这样才有可能利用有关浏览结构或知识结构。
(2)指明编码规则。指明正式的编码标准可避免出现含糊不清的词义。
(3)定义正式的子结构。很多情况下某元素的值是一个复合值,这样的赋值实际上就需要一种复合结构,因此需要一种定义子结构的机制——限定词。
(4)权限控制。很多结构化的权威记录都由相应的机构管理、维护,它们为某人、组织、地名提供唯一确认的值。
人们想让用户能够非常方便地找到最适合自己需要的内容;同时防止将那些被认为是不适宜的或用户不想要的内容传递给用户,特别是未成年的用户。
为了进行内容选择,必须引入内容分类定级机制。这是PICS 最为显著的功能。不同的组织可以根据他们的目的及价值取向,对Internet 上的资源进行分类定级。一些用户,例如家长们,可以设置他们的浏览器,将那些不符合他们规范的内容过滤掉。现在的许多第三方内容分类定级机构利用PICS 来对某个站内容的及时性和技术精确度进行评分。对于一般用户来
讲,这是快速、高效获取所需信息的最佳方法。
CDF 使用XML ,将XML 应用嵌入HTML 。 更确切的说,它是它将HTML 从一种Web “页面”描述语言,扩展成了为一个应用于频道站点的Web 站点描述语言。它使用一种非常简易的语法,对其频道内容进行描述。在一对〈CHANNEL 〉和〈/CHANNEL〉包括的频道内容中,包括了多个〈ITEM 〉元素,每一个〈ITEM 〉描述了每一个HTML 页面的最后修改日期、标题、摘要及作者的情况。当浏览者接入到这个频道之后,这些metadata 数据就会展现出来。
MCF 力求实现一种" 单一的数据模式和相应的互换格式" 的元数据框架。在MCF 中, data和metadata 不作明显区分, 人们以同样的方式来利用它们(data和metadata) 。为了共享多种数据结构、语法和词表,? MCF 提供了一个" 通用数据模式及词表" 的框架。它能在一定程度上使用和管理各种metadata 数据。因此, 其兼容性和包容性好, 并允许动态地扩展新的数据类型
第七章
MARC 21 用目录地址方法组织数据, 每条MARC 记录分为四个
区: 头标区、目次区、数据区和记录结束符。如下图。
为了适应因特网发展的需要,MARC 21 格式中的856字段对网
上电子资源的定位和存取进行了规范。在856字段中,资源的存取方法和定位均可重复描述。
例如:
0-表示资源
1-表示资源的版本
2-表示相关资源
子字段代码:
$a-主机名
$b-存取号(Internet 协议数字地址)
$c—压缩信息
$d—路径
$f—电子资源文件名
$g—统一资源名(URN)
┋
$o—操作系统
$s—文件尺寸(file size)
$u—统一资源地址(URL)
MARC 发展计划的思想从20世纪50年代末和60年代初形成。
正式命名为MARC 计划是在1965年底。参加这项发展计划的有哈佛大学、国家农业图书馆、华盛顿州立图书馆、耶鲁大学等16个成员馆或单位。 作为信息交换的一种工具,MARC 格式结构在美国已被三个国家图书馆(国会图书馆、国家医学图书馆和国家农业图书馆) 、美
国图书馆协会(ALA)、研究图书馆协会(ARL)、科学技术情报委员会(COSATI) 、教育资源情报中心(ERIC)、科学情报服务中心协会(ASZDIC)和其它机构所采用。MARC 格式结构在1971年被确定为美国国家标准。根据MARC 经验而起草的《文献工作——文献目录信息交换用磁带格式》1973年被ISO 审定为国际标准,即著名的ISO2709-1973(E)。
记录头标为固定长部分,它共含24字节。其信息内容及布局如下:
长度(字符位置0-4)
它是记录中字符的个数,包括记录头标和记录分隔符。用5位十
进制数表示。若不足5位时,左边用零充满。
根据实际需要,逻辑记录必须分块存取,块长通常为2048字节。
(2) 记录状态(字符位置5)
它是单一字符,用N 或C 等字母,描述该记录是新的或修改过的。
(3)执行代码(字符位置6-9) 这些代码可表示记录类型(图书、期
刊、文章、地图、画等) 和文献目录级别(分析的、专题的和连续出版物的等) 。
(4)指示符长(字符位置10)
它是一个十进制数,给出指示符字符位置的数目。若不用指示符,
则指示符长置零。
(5)标识符长(字符位置11)
它是一个十进制数字,给出标识符字符位数。该标识符的第一个
字符或仅有的一个字符必须总是ISO646的IS1。若没有使用标识符,则标识符长置零。
(6)数据基地址(字符位置12-16)
它是5位十进制数字。若有效数字不满5位时,则向右对齐,左
边用零充满。数据基地址等于记录头标、目次和在目次尾部的域分隔符的总字符数。
(7)用户用信息(字符位置17-19)
(8)目次安排(字符位置20-21)
字符位置20为一个十进制数字,等于在目次内每一登录项的“数
据字段长度”部分的字符长度。
字符位置21也是一个十进制数字,它是目次内每一个登录项的
“起始字符位”部分的字符长度。
以上这两个十进制数的和应为9。
头标中最后两位(字符位置22-23) 字符现空着未用,供系统将来扩
充时使用。
目次区为可变长,目次区由若干个目次项和区末的一个字段分隔
符组成。每个目次项对应于一个数据字段。一个目次项由字段标识符、数据字段长度和数据字段起始位置三部分组成,固定为12个字符。因此,目次区的总长度为12n +1(n为一个目录记录中数据字段的个数) 。
记录中的每一个文献目录字段必须按照下列变通情况之一构成。
(1)数据——在这种情况下,记录头标内的指示符长度和标识符长度置零。(2)标识符
和数据——在这种情况下,记录头标内的指示符长度置零,而标识符长度置1或大于1。
(3)指示符和数据——在这种情况下,记录头标内的指示符长度置1或大于1,而标示符的长度置零。 (4)指示符、标识符和数据——在这种情况下,记录头标内指示符和标识符的长度置1或大于1。
标准格式的文献档可以达到大范围的数据共享,在世界上可以通
用,因此它有着广泛的用途。标准格式的文献档可以用磁带、光盘发行,也可以做成Web 数据库;利用因特网为全世界网民提供优质服务。
第八章
搜索引擎 (search engines )是指接受用户的提问,检索某(索引)
数据库,并将与用户提问相匹配的信息对象反馈给用户 的检索工具。广义地讲,search engines 不仅指信息检索程序本身,而且还指界面、相关的入 口、程序、支持它的索引数据库和服务。Web 搜索引擎诞生于20世纪90年代初。比较有代表性 的事件是1991年4月由美国明尼苏达大学开发的一种交互浏览型(Browser )检索软件。起初,它只是用于该校的校园网上,后来逐步推广到整个因特网上应用。
建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方
法。一个搜索引擎一般由
搜索器(Robot Spider ), 索引器(Indexer ),索引数据库(Index
Database ), 检索器(Searcher ),和用户接口(User Interface)等五个部分组成。索引器从搜索器返回的纯文本信息文件抽取索引项(属性),生成倒排工作文件,进而逐步建立索引数据库。索引数据库是搜索引擎的核心,它既是索引器提供的产品,又是搜索器进行工作的基础。没有索引数据库就没有办法实现搜索引擎的功能。检索器是对具体搜索引擎所配置的索引数据库而研制的专用检索程序包。它的职责是从用户接口接受并理解用户需求将其转换成检索指令,对索引数据库实施检索,并将结果集按内容的相关度排序,并排序结果文件向用户反馈。用户接口的作用是接受用户的检索需求的输入,并进语法检查,使其规范。如,概念之间的逻辑运算符AND 、OR 、NOT ,通配符和连接号、括号配对、词组定界符等的正确使用,否则,返回用户进行修改,调整后再传给Searcher 对索引数据库进行检索,并适时地显示检索器反馈的检索结果。用户接口需要人性化的设计。
索引数据库是搜索引擎的核心,它既是索引器提供的产品,又是
搜索器进行工作的基础。
没有索引数据库就没有办法实现搜索引擎的功能。索引数据库的
结构如图所示,它由四类文件组成:倒排地址表 ( IALi )、倒排索引ixfi 及其它索引文件 ( ixf i1、ixf i2、ixf i3 ) 和纯文本 ( fulltext ) 文件。
(1 ) 接口模块 ( interface? module? file ) 是用户通过用户接口交
互传给检索器的用
户需求,检索器理解用户需求后通过指令的方式传给了索引数据
库,索引数据库的接口模块理
解该指令的检索途经和特征值。
( 2 ) 主索引文件 ( main? index? file )
一般来说,一个搜索引擎可能要搜集和索引上百万个网站的信息,
索引文件的规模太大,不利于快速响应,因而它需要在索引文件上建立多级主索引,主索引的功能是接收接口模块传来的检索途经和特征值,在索引文件中迅速定位。
( 3 ) 倒排索引文件 ( Inverted? index? file ) IXF索引文件可以为
检索器提供检索结果,如命中的对象数n ,同时以n 为控制数由相对地址
指针AP 到相应的IALi 中去读取n 个URL 。
? 图8.2? 索引数据库结构
( 4 ) 倒排地址表 ( IAL —Inveted? Address? List ) 倒排地址表中
存放的是相关的URL ,它
与其索引文件指针相連,内部用物理邻接方式存放。检索器按其
索引文件的检索结果进行读取
和装配。
( 5 ) 纯文本文件 ( fulltext ) 是搜索器从因特网上采集来的网上
信息,经过过滤后的文件,
它包括title 、 description 、creater 、publisher 、Date 、Keywords? URLs
等信息,在检索器检索ixf 后,在显示命中结果。同时,取出民IAL 中的URL ,分块 ( 如每次显示20个命中对象 )
装配,所需信息都是从fulltext 文档中提取。
使用搜索引擎的方法有:布尔检索、截词检索、词组与名称检索、
范畴检索
网络资源组织的范围广、支持的语种多、采用的技术新、系统功
能强
略。
1)检索范围更广泛。任何一个搜索引擎都不可能实现对整个网络
信息资源的全面检索,而且不同的搜索引擎的搜索范围都各不相同,因此,当前即使最强大的网络搜索引擎也会出现漏检现象。使用Copernic Agent可以覆盖更多的网络空间,它返回的检索结果是多个搜索引擎检索结果的合集。2)智能性。常规的网络搜索引擎仅仅呈现给用户一个检索结果列表,而对于Copernic Agent来说返回检索结果仅仅只是开始。只要轻轻的点击一下,Copernic Agent就能够按照用户的指令移除断掉的链接,或者在结果中进行二次检索,或者保存页面让你能脱机工作,或者使检索结果按指定要求排序,或者将结果给你的同事或者朋友邮件递送,或者生成搜索报告等等。它的优点就是点击检索历史记录,你能够立即看到当时的检索结果.3)灵活性和易用性。虽然Copernic Agent 具有众多功能,但它的使用非常的简单。友好的人机交互界面和专业的人性化的功能设计,使它拥有更多的用户。
所谓元搜索引擎(meta-search engines)是指能够同时检索多个搜
索引擎并将结果综合的 搜索引擎。分类:客户元搜索程序 、元搜索网站
略。
第九章
数字图书馆的研制起始于西方发达国家,随后向全球扩展。在美
国,1997年特批的总统信息技术咨询委员会(PITAC )成立了一个数字图书馆特别小组(Panel on Digital Libraries),负责调查需要攻克那些研究开发问题,以发挥数字图书馆服务人类需求的潜力。目前数字图书馆方面的很多成果都可以直接追溯到美国数字图书馆创始计划(Digital Libraries Initiative,DLI )的资助:DLI 第一阶段:从1994财政年到1998财政年,是联邦多部门联合支持项目,参与资助的部门包括NSF ( National Science Foundation )、DARPA (Defense Advanced Research Projects Agency )和NASA (National Aeronautics and Space Administration ),每年资助额度为600万美元。在这一阶段,六所大学就利用先进计算技术和网络技术实现大规模分布式电子内容的访问、互操作和应用开展了研究开发工作。DLI 第二阶段:开始于1998财政年,每年资助1100万美元,由NSF 牵头,参与联合资助的有DARPA 、LC (Library of Congress)、NLM (the National Library of Medicine)、NASA 、NEH (the National Endowment for the Humanities)和FBI (Federal Bureau of Investigation),协助单位有国家档案局、史密森学会、博物馆与图书馆服务协会。
数字图书馆的系统结构设计一般采用三层结构:客户端表现层、
服务器层和存储层,客户端表现层可以是因特网的任何用户,通过因特网与服务器层连接,共享数字图书馆的信息资源。服务器层可以是Web 服务器、应用服务器或Z39.50服务器,具体包括元数据服务器、安全服务器、系统服务器、搜索服务器等。存储层包括数字图书馆服务器和对象服务器。
基于元数据的信息组织。
结构:
名称
分配给元素修饰词的惟一标记
标签
分配给元素修饰词的人读标签
命名空间选择
http://purl.org/dc/elements/1.1/,
http://purl.org/dc/terms/,
http://purl.org/dc/dcmitype/,
http://dublincore.org/usage/terms/dc/current-schemes/, 或
http://www.loc.gov/mods
DC 细化
用于DC-Lib 的DC 元素细化:这些修饰词使一个元素的含义更
加狭窄或专指。一个被细化的元素虽然带有未经修饰的元素含义,但其范围更为限定。
„的子元素
对于“老的”DC 元素细化,来自DCMES 的元素被细化
DC-Lib 细化
本应用纲要早期版本的DC-Lib 细化现在成为DC 细化,或成为
另一个命名空间的元素。
DC 编码模式
这些修饰词用来标识帮助元素值解释的模式。这些模式包括受控
词表、形式注释和解析规则。利用编码模式表达的值将是选自受控词表的标志(如来自分类系统或主题词表的词)或根据形式注释的格式化字符串(如“2002-01-01”作为日期的标准表示)。即便编码模式不被客户或代理所理解,其值对人来说仍然有价值。
强制表达
M 代表必备,MA 代表有则必备,R 代表强烈推荐,O 代表可选。
M 保证一些元素总是受到支持,MA 意味着如果信息可获得,则该元素受支持;R 表示如果信息适合于给定的资源,则元素必须填充值;O 表示如果信息不适合于给定资源,则元素值可省。
DC 定义
元数据的DC 定义
DC 注释
该元数据的DC 注释
DC-Lib 定义
元数据的DC-Lib 定义
DC-Lib 注释
该元数据的DC-Lib 注释
最佳实践
该元素用于DC-Lib 最佳实践的推荐
公开问题
问题,附注,公开问题
作为一种元数据,DC-Lib 共有18个元素组成,其中,题名、说
明、日期、格式、关联和覆盖范围等6个元素又含有各自的子元素。
元素名称
标签
子元素名称(标签)
题名
Title
交替题名(Alternative )
创建者
Creator
其他责任者
Contributor
出版者
Publisher
主题
Subject
说明
Description
文摘(Abstract )
内容提纲(Table Of Contents)
日期
Date
创建日期(Created )
有效日期(V alid )
获取日期(A vailable )
发行日期(Issued )
修改日期(Modified )
类型
Resource Type
格式
Format
篇幅(Extent )
媒体(Medium )
标识符
Identifier
来源
Source
语种
Language
关联
Relation
是„另一版本(Is Version Of)
是„另一格式(isFormatOf )
具有格式(Has Format)
被„代替(Is Replaced By)
代替„(Replaces )
是„的组成部分(Is Part Of)
有组成部分(Relation | Has Part)
需要(Requires )
由„参照(Is Referenced By)
参照(References )
覆盖范围
Coverage
空间(Spatial )
时间(Temporal )
权限
Rights
读者对象
Audience
版本
Edition
位置
Location
OAI 提出了基于元数据的电子文献互操作框架,形成了OAI 元数
据收割协议(The Open Archives Initiative Protocol for Metadata Harvesting, OAI-PMH ),OAI-PMH 提供了基于元数据收割的应用独立的交互框架,在OAI-PMH 框架中,存在两类参与者:
·数据提供者管理系统,以支持将OAI-PMH 作为显示元数据的
手段;
·服务提供者利用通过OAI-PMH 收割的元数据,作为构建增值
服务的基础。
特征:(1)HTTP 内嵌的OAI-PMH 请求。(2)XML 响应格式。
(3)元数据前缀和元数据方案。
AC 可看成是用于DC 元数据管理的元数据。AC 建立在XML 基
础之上,旨在将管理信息捆绑在一起,如DC 元数据的创建、修改、删除及其日期、相关人员等。AC 包括3个部份:
(1)整个记录的元数据
·Identifier :标识元数据记录的字符串或数字
·Scope :说明应用范围
·Comment :对核心元数据的说明
·Metadata Location:对给定范围内的内容元数据的正确参照
·Language :元数据语言
·Rights Ownership:关于内容元数据的权利信息
·V alid Date Range: 内容元数据有效期的开始和结束日期
·Handling specification:对AC 和元数据记录处理上的指南
(2)更新和改变用的元数据
·Activity :由责任实体对内容元数据实施的行动,包括:created,
submitted, modified, checked, link collected, resource harvested, expired, mail sent 和deleted.delete_error_record,? delete_disappearance, ?delete_out-_of_scope
·Name :对内容元数据实施行动的责任实体的名称
·Email Address:责任实体的电子邮件地址
·Contact Information:与责任实体联系的信息
·Date :责任实体实施行动的时期
·Affiliation :提及人员的所属机构
(3)记录批交换用的元数据
·Database :识别某数据库的编码
·Transmitter :交换的名称或编码
·Filename :批文件的名称
·Technical format:技术数据交换格式
·Character set: 使用字符集的名称
·Bibliographic format:数据交换的目录格式
·Adrress of result file:结果文件的位置
第十章
电子商务是指两方或多方通过计算机和计算机网络所进行的一切
商务活动。它包括企业和企业之间的商务活动、网上的零售业、电子银行和物流配送等全过程。
开展电子商务必须具备下列条件:
社会信息化程度高
电子商务的前提是企业信息化和商务电子化,企业只有成功实现
内部管理信息化和商务电子化,才能在电子商务时代具有竞争力并进入全球网络化供应链。
计算机应用广泛
计算机以空前的速度发展,它不仅走进了办公室,而且走进了千
家万户。这为电子商务提供了基础。
网络的普及
因特网的普及与完善,为电子商务提供了良好的应用环境。
电子银行系统的成熟
银行业务的电子化、网络化是社会信息化的一个重要方面。信用
卡的应用与普及,全球性信用卡计算机支付与结算系统的成熟,为电子商务活动提供了关键性的技术支持。
电子安全交易协议的制定对电子商务进行了规范
1997年5月,美国VISA 与Master card 国际组织等联合制定的
电子安全协议SET 的出台,为电子商务提供了安全环境。
政府与国际组织的支持为电子商务提供了保障
美国制定了电子商务框架,欧洲联盟发布了电子商务协议。1998
年,经济合作与发展组织(OECD )通过了《全球电子商务行动计划》。这些文件的制定与执行,有力地推动了电子商务的健康发展。
货物配送系统的建设
仓储和货物配送机制的逐步建立,为一些国家和地区物流输送提
供了便利。
2 从总体上来看,电子商务系统可以分成三层框架结构。它的底
层是网络平台,因特网是信息传送的载体和用户接入的手段。它包括各种各样的物理传送平台和传送方式;中间层是电子商务基础平台,包括CA (Certificate Authority)认证、支付网关(Payment Gateway )和客户服务中心三个部分,其核心是CA 认证;支付网关是关键,客户服务中心是主体。而第三层是应用层,它包括各种各样的电子商务应用系统。电子商务基础平台是各种电子商务应用系统的基础。
3
①B2B 模式
企业与企业间(BusinesstoBusiness )的电子商务活动,称为
B2B 模式。它使得企业间的商务过程可以通过电子化手段来实现,包括供求企业以及协作企业之间利用网络交换信息,传递各种票据,支付货款,从而使电子化在企业商务过程中发挥了巨大的经济效益与社会效益。这种模式可以帮助企业通过互联网进行网上采购、网上营销、生产组织管理、技术合作与研发、办公自动化等许多方面,因此B2B 模式可以视为e 时代企业的生存平台。企业由此可以降低经营成本,进而获取更大的利润。B2B 模式发生在企业之间,交易频率相对较少,交易数额却相对较大,而且交易条件成熟,整个交易过程规范合理,因此,B2B 模式具有强大的生命力。
②B2C 模式
企业到消费者(BusinesstoConsumer )的电子商务称为B2C 模
式。因为它与B2B 最大的不同点就在于它直接面对最终消费者。网上商城如今如同雨后春笋般地在网络上纷纷闪亮登台,电子商务一时广为流传,网上购物也成了人们的生活新时尚。仿佛WWW 成为Internet 代名词一样,事实上的B2C 并不代表电子商务的全部。尽管B2C 曾经风光一时,但有识之士毕竟对其无法避免的弊端渐有察觉。作为以数目巨大的消费者为核心的电子商务平台,B2C 面临着来自安全认证、电子支付、上网速度与费用、配送与售后服务等方面的瓶颈限制,面对此情景,人们不禁冷静了许多。普通消费者当然不可以放弃,但如何更好地不放弃将是业界无法回避的一个问题。我们相信,伴随着这个问题的圆满解决,B2C 将会迎来它更为美好的明天。
③C2B 模式
与B2C 模式相反,用户(消费者) 对企业(ConsumertoBusiness )
的电子商务称为C2B 模式。消费者为了自己的权益,联合起来共同指向企业。这是一种由美国流行起来的正宗“舶来品”, C2B 完全改变了传统商业中固定价格出售和一对一讨价还价的定价模式,使得买方订价成为现实,单个消费者通过聚合成为强大采购集团的一分子,充分享受到以大批发商的价格买单件商品的实际利益。当然,作为一种比较新的电子商务模式,它的发展还需要一段时间的磨合与完善,毕竟能让消费者有利可图的事,商家就不敢放任自流了。这样,企业与消费者之间的利益得到了协调。
④C2C 模式
电子商务的灵活性和操作的简易性适宜消费者之间交流信
息。于是出现消费者之间(ConsumertoConsumer )的电子商务C2C 模式就应运而生了。或许网上拍卖这个提法更能够大众化一些,不过网上拍卖毕竟是对面不见人的交易,对于对方的信用安全实在不敢掉以轻心,所以尽管这个“网络游戏”比较有趣,但真正对它有点感冒的人有待发掘。不过眼光应当放长远一些,一俟全社会信息化程度加强,各种条件成熟后,
C2C 模式仍不失为一个很好的主意。
除上述四种主要模式外,还有企业对政府(BusinesstoGovernment )
的B2G 模式和消费者对政府(ConsumertoGovernment )的C2G 模式等。
4
电子商务系统是商务与技术结合的产物,所以在电子商务应
用的全过程中,都必须充分兼顾商务和技术两个方面的因素,以科学、合理的程序展开系统设计、建设和应用工作。如果按阶段划分,要实现电子商务应用,电子商务系统建设大致需要经过下列四个阶段:
(1) 商务分析阶段 (2)系统设计阶段 (3)系统实现阶段 (4) 整
合运行阶段
5
下面是向中国工商银行申请特约网站的例子。
申请程序如下:
1) 仔细阅读《B to B在线支付方案》、《在线支付合作协议书》,
认真填写《特约网站注册申请表》(可下载打印填写)。
2) 到当地工商银行提交如下申请资料:
①营业执照副本及复印件;
②经办人员的有效身份证件;
③填妥的《特约网站注册申请表》(可下载打印填写);
④最近年度的资产负债表和损益表的复印件;
⑤《域名注册证》复印件或其他对所提供域名享有权利的证明;
⑥企业标识LOGO 的电子文件;
3) 经银行审查合格后,双方应以《在线支付合作协议书》(参考
样本)为依据,协商并签订《在线支付合作协议书》。双方协商一致可对协议书(样本)内容进行增加或另签补充协议。
4) 双方签约后您将获得银行的软件光盘,内容包括: 《商户手
册》、验证程序、数据接口规范等。
5) 双方交换网站的LOGO ,同时在各自网页中加入对方网站的
链接,特约网站还应在销售网页中加入ICBC 在线支付系统的链接。
6) 银行将负责协调完成特约网站的技术链接工作。
6 7 8题见10.4? 商务网站的实例分析
第十一章
电子政务是政府机构运用现代信息工程技术,将其管理和服务职能转移到网络上,通过重组政府组织结构、优化工作流程、超越时空制约实现政务信息与政府业务的共享与集成,向全
社会提供规范、透明、高效和全方位的管理与服务;在我国,经济体制改革对行政活动变革提出的要求是构建电子化政府的内在因素和原动力。中国现阶段市场经济体制的逐步建立,最终必定要求政治领域内的制度性重构。电子政务也是在这样的经济体制改革的前提和背景下,为适应社会主义市场经济体制的需要而建立的。
目前国际上对于电子政务的发展阶段有多种划分方法,所采用的标准各有差异,类型也多有不同。主要可以分为: 四阶段论、五阶段论和六阶段论。最重要的四阶段论是欧委会提出的4个阶段:①网上信息发布阶段,政府仅在网站上发布公共服务的信息。②单向交流阶段,政府提供便民服务。如公民可以从网站上下载政府的各类表格,如报税表。③双向交流阶段,政府能够与公民在网上双向互动。④全方位事务处理阶段,政府的公共服务出现全方位的电子化特征。公民不仅通过网络传输表格,还可以直接在网络上完成交税、交费等事项。
1993年3月12日,提出和部署建设国家公用经济信息通信网(简称金桥工程)。1993年8月27日,金桥前期工程建设300万美元预备金启动。1994年6月8日国务院办公厅向各部委、各省市明传发电《国务院办公厅关于‘三金工程’有关问题的通知(国办明电[1994]18号)》。自此,金桥前期工程建设全面展开。1996年8月,国家计委正式批准金桥一期工程立项,并将金桥一期工程列为“九五”期间国家重大续建工程项目。1996年12月,中国公众多媒体通信网(169网)开始全面启动,广东聆通、天府热线、上海热线作为首批站点正式开通。
1998年10月18日,中国电信策划出台“政府上网工程实施方案”,并提出实施政府上网工程的优惠政策和其他配套措施,与政府上网相关话题第一次引起社会各界的广泛关注。1999年1月,由中国电信和国家经贸委经济信恩中心牵头、联合40多家部委(办、局)信息主管部门在京共同举办政府上网工程启动大会,倡议并启动了政府上网工程,同时,政府上网工程主网站www.gov.cn 正式开通并试运行,成为我国政府上网的导航中心和服务中心。由此揭开了1999年“政府上网年”的序幕。
电子政务系统是一个复杂的网络信息系统,同一般的信息系统不同,电子政务系统除自己的技术构成的体系结构外,还必须考虑它与互联网的关系,这主要是处于安全的原因。体系结构包括:第一层:应用层,第二层:交换层,第三层:数据层,第四层:网络层。
从信息的媒体种类可将电子政务中的信息分为数值、文本、声音、图形、图像、音频、动画、视频。其中数值、文本使用的最多,其次是图像、声音、视频,而动画、图形使用较少。这一点与电子商务有很大的不同。
从组织层次分有一次信息,如关于机构和个人的介绍;二次信息,如对自由文本、超文本、主页方式等网上信息进行索引。作为电子政务系统重要的是组织好一次信息,而二次信息可由搜索引擎的完成。
从信息的层次可分为结构化信息,如各类政府表格;半结构化信息,如各种政府文件;非结构化信息,如个人照片。
1)层次结构的组织方法:常见的层次结构的组织方法有分类语言与主题语言组织方式。主题语言组织方式将所有获得的信息资源按照某种事先确定的概念体系结构,分门别类的逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索。再通过信息线索联接到相应的网络信息资源。分类语言组织方式将信息分门别类后,按逻辑层次加以组织。也就说,首先建立一个知识大纲,然后将每个大类由宽到窄逐层划分为若干级
类目,构成一个知识树,再按信息的属性予以系统组织。2)超链接:超链接是一种新型的网络信息组织方法。也是一种区别于传统的检索技术的一种信息获取方式。在电子政务信息组织中大量使用。这种信息组织方式将网络上相关的信息存储在许多节点上,节点间用链路相连,这些节点构成一个网状结构。计算机技术的发展使各种类型的数据逐步进入超文本系统中,使它发展成为超媒体。3)数据库:数据库是成熟的信息组织方法,是对大量的规范的数据进行管理的技术。电子政务中有大量的规范数据,因采用数据库技术组织电子政务中的信息是显然的。例如:电子政务要为企业服务,因此必须建立企业数据库,每个企业的基本信息以一条记录的形式存在数据库中。
文件是一种历史较长的信息组织方式。文件组织信息的优点是简单方便,除文本信息外,它还可以组织图像、图表、视频等,甚至可以组织程序。Internet 已混合了不同的文件类型和不同的文件格式。他们都可以用来存储电子政务中的各项信息。对于政府报告这种既有文字又有视频的信息集合来说,就可以用两种格式的文件来组织,一个是文本格式,一个是视频格式。用户用不同的软件分别对他们处理使用。
从信息系统的角度来说,电子政务也是一种信息系统,但它又有自己的特殊性。电子政务系统与其他信息系统的最大区别在于,其所承载的信息流和数据更为重要,对安全性、可靠性的要求极高,并且往往涉及到整个国家、民族的利益。相对与其他信息系统其具有以下三个主要特点:安全性,要强调从硬件、操作系统、数据库等各方面的安全保护;透明化,在实际应用中,存在各种应用环境。用户只关心能不能得到自己所需要的信息,中间平台的各种环境对用户来说应该是透明的。个性化,因为对使用信息的人来讲,每个人都希望自己能有一个满足各自要求的一个应用空间。因此就要求从应用建模、智能化等方面,构建个性化的电子政务系统。
电子政务标准化工作是电子政务的极为重要部分,重视标准化工作是确保电子政务应用系统与业务互联互通、信息共享、业务协作以及安全保密的基础。为此,标准化工作尽早解决以下几方面的问题:电子政务标准体系是我国开展电子政务标准化工作的基础。通过对国内外电子政务标准化工作的分析研究,提出我国电子政务对标准化的总体需求及未来开展电子政务标准化的框架和标准细目。应尽早开展电子政务业务与服务标准的研制工作,使得我国电子政务的业务与服务规范化、标准化。应尽早开展电子政务安全标准的制定工作,以确保我国电子政务网络与数据的畅通、安全、以及保密。
依照电子政务技术体系结构,可以提出电子政务标准体系框架。目前我国电子政务已经制订了一些标准,相关标准可以在www.egs.org.cn/standard 上查到。主要有六项标准。这里将其“标准体系”和“应用支撑标准”举例如下:
第十二章
1 人类的各项活动基于人类的智慧和知识,即对外部世界的观察和了解,正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材
料,它本身没有任何意义。从数据到智慧,要经过分析加工处理精炼的过程。数据是原材料,它只是描述发生了什么事情,而不提供判断或解释。数据是信息的载体,信息是数据的含义。对信息进行再加工,进行深入洞察,才能获得更有用的信息,即知识。所谓知识,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的。”从信息中理解其模式,即形成知识。在大量知识积累基础上,总结成原理和法则,就形成所谓智慧(Wisdom)。
2 ①自动化 ②集成化 ③智能化(详细见11.1.2)
3 数据仓库是面向主题的
1111这是与传统数据库面向应用相对应的。DW 中的数据是按主题组织的,主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上,它对应企业中某一宏观分析领域所设计的分析对象。按主题组织数据更有利于决策分析。比如,一个保险公司的数据仓库所组织的主题可能为:客户,政策,保险金,索赔。而按应用来组织则可能是:汽车保险,生命保险,健康保险,伤亡保险。我们可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵互不交叉。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。应用是客观世界既定的,它对于数据内容的划分未必适用于分析所需。“主题”在数据仓库中是由一系列表实现的。也就是说,依然是基于关系数据库的。一个主题之下包含许多表,表的划分可能是由于对数据的综合程度不同,也可能是由于数据所属的时间段不同而进行的划分。但无论如何,基于一个主题的所有表都含有一个称为公共码键的属性作为其主码的一部分。公共码键将各个表统一联系起来,从根本上体现出它们属于一个主题。比如,基于“客户”这一主题的所有表都包含公共码键CUSTOMERID 。同时,由于数据仓库中的数据都是同某一时刻联系在一起的,所以每个表除了其公共码键之外,还必然包括时间成分作为其码键的一部分。因为数据仓库包含的都是历史数据,它的表必然包括对应的时间属性。
4,5 (略)