第 7 章 信息描述
7.1 信息描述的作用与规范
7.1.1 信息描述及元数据
1.信息描述
信息描述(information description),是指根据信息组织和检索的需要,依据一定的规则和标准,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。信息描述的结果,是一条有关该信息资源的书目数据记录,它由若干信息描述项组成。所以,信息描述实质是一个按照一定规则分析和选择数据的过程。
信息描述的结果是信息记录,也称元数据。元数据是关于数据的数据,早期用于网络信息资源的组织,即Metadata 。Metadata 被定义为“关于数据的数据”(data about data)或“描述数据的数据”(data that describes data),通常译为元数据,即是描述任何Internet 数据和资源的数据,是促进Internet 信息资源的组织和发现的有力工具。
元数据是指用于帮助识别、描述和定位网络化的电子资源的结构化数据,通过它可以揭示各类电子文献的内容和其他特征以方便检索,能够提高信息的利用价值,其典型的操作环境是网络环境。
2.元数据的作用
一个元数据款目构成对一个信息资源的基本数据,是信息组织的基本手段和结果,是信息检索的基本检索单位和构成部分。
(1)描述和识别。确认并对要进行组织的信息资源进行个别化描述,使用户能识别该被组织的资源对象。
(2)定位和检索。提供信息资源位置的信息,以便供用户访问时使用。如出处、位置、网址等。通过在描述数据中提供检索点,方便用户对资源检索和利用。
(3)评估和选择。通过记录信息资源的各种特征,如主题、作者、题名、资源类型、出版日期等,供 用户对信息资源的使用价值进行判断,决定是否选择该资源。
(4)管理。元数据是原始信息的简练描述,通过元数据和以实现对信息资源的管理。没有元数据,信息资源管理将是十分困难的。
7.1.2 信息描述的规范
《中文书刊名称汉语拼音拼写法》(GB3259—82) 《检索期刊条目著录规则》(GB3803—83) 《文献著录总则》(GB3792.1—83) 《普通图书著录规则》(GB3792.2—85) 《连续出版物著录规则》(GB3792.3—85) 《非书资料著录规则》(GB3792.4—85) 《档案著录规则》(GB3792.5—85) 《地图资料著录规则》(GB3792.6—86) 《古籍著录规则》(GB3792.7—87)
《文后参考文献著录规则》(GB7714—84) (GB7714—2005) 《文本编码倡议》(Text Encoded Initiative,简称TEI) 《都柏林核心集》(Dublin Core,简称DC)
《政府信息定位服务》(Government Information locator Service,简称GILS)
《联合地理数据委员会的数字地球空间元数据》(Content standard Digital Geospatial
Metadata ,简称CSDGM)
《可视资源核心范畴》(Core Categories for Visual Resources,简称CCVR) 《编码档案描述》(Encoded Archival Description,简称EAD) 《博物馆信息的计算机交换》(Computer Interchange of Museurn Information,简称 CIMI )
7.1.3 信息描述项目及符号
在文献信息库中,常包括文献标识项、代码项、记录信息项、书目信息项、题名项、角色说明项、主题描述项这些信息描述项(数据项) 。
传统的信息描述有ISBD 和MARC 两种模式,网络信息描述项目代表性的有DC 。
ISBD 描述网络信息 ISBD(International standard Bibliographic Description国际标准书目著录) 是由IFLA 制定的国际标准书目描述格式。
ISBD 描述项目的内容:题名与责任者说明项;版本项;文献特殊细节项;出版发行项;载体形态项;丛编项;附注项;文献标准号及有关记载项;提要项。
(1)著录项目标识符又称前置符,置于著录项目之前,用来表示描述项目,依次为: (2)内容识别符的作用是标识描述项目中的部分内容,通常位于描述项目的外部、中间或末尾。包括:
7.2 信息描述工作
信息描述工作,亦称元数据创建工作、信息资源编目,是依据描述规则,对信息资源的特征进行分析、选择、记录的操作过程。对信息资源记录的结果,即为元数据,亦称为款目,元数据是检索系统的基本构成单元,是信息资源的代表,将众多元数据按照一定的次序组织就构成检索系统。
7.2.1 信息描述工作要求
马张华教授认为,一般应做到:准确、规范和完备。
7.2.2 信息描述工作方式
(1)按照描述的资源对象,信息描述工作,亦即信息资源编目,可以分为文献编目、档案编目、博物馆藏品编目、网络资源编目等。
(2)按照描述操作的设备条件,信息资源编目可以分为手工编目、机读编目、联机编目等类型。手工编目直接由人工进行描述款目的制作,用于编制卡片式目录或书本式检索工具; (3)按照其处理的方式,可以分为原始编目和复制编目两种。 (4)按照编目采取的组织形式,可以分为集中编目和共享编目。 国外建立的这类系统中,影响比较大的有:
OCLC(OnlineComputer Library Center) ,该机构原为美国俄亥俄州图书馆中心,后来发展为全美国和国外进行书目服务的机构;
RLIN(Research Library lnformation Network) ,该网络开始于1967年,是一个为美国研究图书馆服务的系统;
UTILAS(University of Toronto Library Automation System),该系统最早为多伦多大学图书馆的自动化系统,目前已扩大成兼为其他图书馆服务的系统。 我国发展的类似系统中,比较有代表性的则是我国高等学校系统建立的中国高等教育文献保障体系(简称CALIS) 。
7.2.3 信息描述工作程序
为了保证信息资源的描述质量,信息资源的描述工作一般应遵循一定的工作程序。信息描述的操作程序通常为:查重一描述一标引一复核并输入系统。
7.3 MARC 与DC
7.3.1 MARC
1.MARC 的发展
MARC(Machine Readable Catalogue,MARC) 是机器可读目录的简称,是一种经过人们编辑、组织的数字化的书目记录的集合,它是美国国会图书馆提出的著名的机读目录发展计划,于1964-1968年期间研制,1966年1月,产生了《标准机器能读目录款式的建议》,即MARC-1格式,1967年提出MARC-2,它是目前使用的各种机读目录格式的母本。
国际图书馆联合会在USMARC 基础上制订了“国际机读目录通信格式”,即UNIMARC ,现在许多国家都采用UNIMARC 进行文献编目。目前大多数国家都是MARC 的用户,但都有所不同,如美国国会图书馆机读目录(LCMARC)、英国机读目录(UKMARC)、日本机读目录(JAPANMARC)、我国的机读目录“中文机读目录”(CNMARC)。
2.MARC 格式
机读目录的每一条记录、每一项数据都应按一定格式存贮才能被计算机识读和查找,另一方面,为了便于书目数据的交流和共享,统一机读目录记录格式,使之标准化。1973年国际标准化组织(ISO)在美国国会图书馆MARC Ⅱ格式基础上制订并分布了《文献工作——书目信息交换用磁带格式》(ISO-2709),它把书目记录的总体结构定义为记录头标区(Leader)、目次区(Directory)、数据区(Data File)以及记录分隔符四部分。
3.CNMARC 格式
CNMARC 是中国机读目录(China Machine-Readable Catalogue)的缩写,是用于中国国家书目机构同其它国家书目机构以及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。中国机读目录研制于20世纪70年代。 1986年UNIMARC 中译本面世。
1992年2月正式出版《中国机读目录通讯格式》,即CN-MARC 。
中文(普通) 图书CN-MARC 著录格式规定的字段及其含义是: 标识块 指示符 文字数据
CN-MARC 示例(录自中国科技大学图书馆书目系统) 000 00750nam0 2200277 450 001 0000416457
005 [1**********]400.0
010 __ |a 7-80703-216-2 |d CNY16.00 099 __ |a CAL [1**********]9
100 __ |a 20050314d2004 ekmy0chiy0121 ea
101 1_ |a chi |c jpn 102 __ |a CN |b 310000 105 __ |a a z 000yy 106 __ |a r
200 1_ |a 生物的超能力 |A sheng wu de chao neng li |f (日) 太田次郎著 |g 邱璐译 210 __ |a 上海 |c 百家出版社 |d 2004 215 __ |a 171页 |c 图 |d 21cm
606 0_ |a 生物学 |A sheng wu xue |j 普及读物 690 __ |a Q1-49 |v 4 692 __ |a 58.11059 |v 3
701 _0 |a 太田次郎 |A tai tian ci lang |4 著 702 _0 |a 邱璐 |A qiu lu |4 译 801 _0 |a CN |b FDU |c 20050314 905 __ |a USTCL |d 58.11059/12 920 __ |a 234030 |z 1 998 __ |a FDU
7.3.2 DC
Dublin Core是国际组织Dublin Core Metadata Initiative拟定的用于标识电子资源的一种简要目录模式。Dublin Core是Dublin Metadata Core ElementSet的简写,它是一个由15个Metadata 标记元素组成的Metadata 系统,其主要目的是为了揭示和组织网上信息资源(包括文本及图像等) 。
现在Dublin Core已被产业界、学术界、研究开发领域及图书馆情报界的广泛接受。
表 错误!使用“开始”选项卡将 应用于要在此处显示的文字。-错误!未定义书签。 Dublin Core
7.3.3 MARC 与DC 的比较
(1)著录目的不同
(2)著录对象不同 (3)著录格式不同 (4)著录主体不同 (5)著录方式不同 (6)揭示关系不同
(7)描述详尽程度 (8)数据质量控制
7.4 XML 与数字资源描述
7.4.1 XML 来源
SGML 、HTML 是XML 的先驱。SGML 是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML 相比,定义的功能很强大,缺点是它不适用于Web 数据描述,而且SGML 软件价格非常价格昂贵。
SGML 、HTML 是XML 的先驱。SGML 是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML 相比,定义的功能很强大,缺点是它不适用于Web 数据描述,而且SGML 软件价格非常价格昂贵。
7.4.2 XML 语言特点与功能
XML (eXtensible Markup Language) 是由万维网协会(W3C) 设计, 专门为Web 应用服务的SGML 的一个重要分支。
XML 是一种元标识语言, 它提供描述结构化资料的格式。
XML 用于数字化信息资源的组织, 不仅能满足不断增长的网络应用需求, 而且还能够确保在与网络进行交互时, 具有良好的可靠性与互操作性。
1.XML 的特点
(1) 自描述性:
XML 是能够进行自解释的语言, 使用文档类型定义DTD (Document Type Definition) 来规定数据, 用XSL ( eXtensible StyleSheet Language) 来描述这些文档如何显示的机制。 (2) 高结构化:XML 是一种结构化的标记语言。XML 元素的结构比关系型数据更有 (3) 开放性: (4) 可粒状更新:
2.XML 的主要功能
(1) 可以依不同的应用来自定义标签。 (2) 结构化的数据。 (3) 强大的链接功能。
7.4.3 XML 语言编程
XML 文档有DTD 和XML 文本组成,
一般而言,用XML 编写网页需要三个文件:
1.文档定义
目前有两种方法可以用来详细定义XML 文档的格式:Document Type Definition(DTD)和XML Schema。
2.样式表文件 3.XML 文件
7.4.4 XML 语言在信息组织中的应用
XML 将各种结构化、半结构化和非结构化数据集成起来, 在XML 平台上整合应用, 使杂乱无章的信息海洋得到根本改善,每个数据节点将实现信息有序存储, 并能为对方接受, 使信息组织的数据挖掘与数据分析工具能够得到很好的实现。
1.基于XML 的一些重要语言
(1) HTML的XML 化语言XHTML 。
(2) 可伸缩矢量图像标记语言SVG 。 (3) 同步多媒体集成语言SMIL 。
(4) 数学标记语言MathML 。MathML (Mathematical Markup Language)于1997年首先由
2.基于XML 与RDF 结合的信息组织方式
传统的许多图书情报系统采用PDF 格式或者单文本格式, 在图书情报领域专有数据格
3.基于XML 的与XML 转换的标记语言和格式 4.利用XSLT 对XML 文档进行转换 5.基于XML 的数据挖掘 【本章习题】
1. 2. 3. 4. 5. 6. 7. 8.
什么是信息描述?为什么说它也是一种信息组织活动? 什么是元数据?它有什么作用? 信息描述有哪些规范?
ISBD 的信息描述有哪些项目?请找10本不同的图书,练习描述。以我国《文献著录总则》的项目要求为描述标准。
信息描述工作有什么要求?它的工作程序如何? 什么是MARC ?你知道有哪些MARC 形式? MARC 格式的结构包括哪些部分?
熟悉中文(普通) 图书CN-MARC 著录格式规定的字段及其含义。请从北京大学或清华大学图书馆的馆藏目录版块登录,检索一本图书,比照阅读其一般著录格式和MARC 著录格式。
什么是DC ?它有哪些项目?请用这些项目描述sina 、sohu 等网站。
MARC 与DC 有什么不同?请阅读相关资料,说说如何实现二者间的转换。 什么是XML ?它有什么特点和功能?为什么它是新一代网络的标准语言? 参考更多资料,编写一个合法的XML 文档?
XML 有哪些具体的应用?请从网上下载一些SVG 、SMIL 、MathML 的源代码,并试着自己编写一些程序。这些程序会让你学习XML 的兴趣大增。
9. 10. 11. 12. 13.
第 7 章 信息描述
7.1 信息描述的作用与规范
7.1.1 信息描述及元数据
1.信息描述
信息描述(information description),是指根据信息组织和检索的需要,依据一定的规则和标准,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。信息描述的结果,是一条有关该信息资源的书目数据记录,它由若干信息描述项组成。所以,信息描述实质是一个按照一定规则分析和选择数据的过程。
信息描述的结果是信息记录,也称元数据。元数据是关于数据的数据,早期用于网络信息资源的组织,即Metadata 。Metadata 被定义为“关于数据的数据”(data about data)或“描述数据的数据”(data that describes data),通常译为元数据,即是描述任何Internet 数据和资源的数据,是促进Internet 信息资源的组织和发现的有力工具。
元数据是指用于帮助识别、描述和定位网络化的电子资源的结构化数据,通过它可以揭示各类电子文献的内容和其他特征以方便检索,能够提高信息的利用价值,其典型的操作环境是网络环境。
2.元数据的作用
一个元数据款目构成对一个信息资源的基本数据,是信息组织的基本手段和结果,是信息检索的基本检索单位和构成部分。
(1)描述和识别。确认并对要进行组织的信息资源进行个别化描述,使用户能识别该被组织的资源对象。
(2)定位和检索。提供信息资源位置的信息,以便供用户访问时使用。如出处、位置、网址等。通过在描述数据中提供检索点,方便用户对资源检索和利用。
(3)评估和选择。通过记录信息资源的各种特征,如主题、作者、题名、资源类型、出版日期等,供 用户对信息资源的使用价值进行判断,决定是否选择该资源。
(4)管理。元数据是原始信息的简练描述,通过元数据和以实现对信息资源的管理。没有元数据,信息资源管理将是十分困难的。
7.1.2 信息描述的规范
《中文书刊名称汉语拼音拼写法》(GB3259—82) 《检索期刊条目著录规则》(GB3803—83) 《文献著录总则》(GB3792.1—83) 《普通图书著录规则》(GB3792.2—85) 《连续出版物著录规则》(GB3792.3—85) 《非书资料著录规则》(GB3792.4—85) 《档案著录规则》(GB3792.5—85) 《地图资料著录规则》(GB3792.6—86) 《古籍著录规则》(GB3792.7—87)
《文后参考文献著录规则》(GB7714—84) (GB7714—2005) 《文本编码倡议》(Text Encoded Initiative,简称TEI) 《都柏林核心集》(Dublin Core,简称DC)
《政府信息定位服务》(Government Information locator Service,简称GILS)
《联合地理数据委员会的数字地球空间元数据》(Content standard Digital Geospatial
Metadata ,简称CSDGM)
《可视资源核心范畴》(Core Categories for Visual Resources,简称CCVR) 《编码档案描述》(Encoded Archival Description,简称EAD) 《博物馆信息的计算机交换》(Computer Interchange of Museurn Information,简称 CIMI )
7.1.3 信息描述项目及符号
在文献信息库中,常包括文献标识项、代码项、记录信息项、书目信息项、题名项、角色说明项、主题描述项这些信息描述项(数据项) 。
传统的信息描述有ISBD 和MARC 两种模式,网络信息描述项目代表性的有DC 。
ISBD 描述网络信息 ISBD(International standard Bibliographic Description国际标准书目著录) 是由IFLA 制定的国际标准书目描述格式。
ISBD 描述项目的内容:题名与责任者说明项;版本项;文献特殊细节项;出版发行项;载体形态项;丛编项;附注项;文献标准号及有关记载项;提要项。
(1)著录项目标识符又称前置符,置于著录项目之前,用来表示描述项目,依次为: (2)内容识别符的作用是标识描述项目中的部分内容,通常位于描述项目的外部、中间或末尾。包括:
7.2 信息描述工作
信息描述工作,亦称元数据创建工作、信息资源编目,是依据描述规则,对信息资源的特征进行分析、选择、记录的操作过程。对信息资源记录的结果,即为元数据,亦称为款目,元数据是检索系统的基本构成单元,是信息资源的代表,将众多元数据按照一定的次序组织就构成检索系统。
7.2.1 信息描述工作要求
马张华教授认为,一般应做到:准确、规范和完备。
7.2.2 信息描述工作方式
(1)按照描述的资源对象,信息描述工作,亦即信息资源编目,可以分为文献编目、档案编目、博物馆藏品编目、网络资源编目等。
(2)按照描述操作的设备条件,信息资源编目可以分为手工编目、机读编目、联机编目等类型。手工编目直接由人工进行描述款目的制作,用于编制卡片式目录或书本式检索工具; (3)按照其处理的方式,可以分为原始编目和复制编目两种。 (4)按照编目采取的组织形式,可以分为集中编目和共享编目。 国外建立的这类系统中,影响比较大的有:
OCLC(OnlineComputer Library Center) ,该机构原为美国俄亥俄州图书馆中心,后来发展为全美国和国外进行书目服务的机构;
RLIN(Research Library lnformation Network) ,该网络开始于1967年,是一个为美国研究图书馆服务的系统;
UTILAS(University of Toronto Library Automation System),该系统最早为多伦多大学图书馆的自动化系统,目前已扩大成兼为其他图书馆服务的系统。 我国发展的类似系统中,比较有代表性的则是我国高等学校系统建立的中国高等教育文献保障体系(简称CALIS) 。
7.2.3 信息描述工作程序
为了保证信息资源的描述质量,信息资源的描述工作一般应遵循一定的工作程序。信息描述的操作程序通常为:查重一描述一标引一复核并输入系统。
7.3 MARC 与DC
7.3.1 MARC
1.MARC 的发展
MARC(Machine Readable Catalogue,MARC) 是机器可读目录的简称,是一种经过人们编辑、组织的数字化的书目记录的集合,它是美国国会图书馆提出的著名的机读目录发展计划,于1964-1968年期间研制,1966年1月,产生了《标准机器能读目录款式的建议》,即MARC-1格式,1967年提出MARC-2,它是目前使用的各种机读目录格式的母本。
国际图书馆联合会在USMARC 基础上制订了“国际机读目录通信格式”,即UNIMARC ,现在许多国家都采用UNIMARC 进行文献编目。目前大多数国家都是MARC 的用户,但都有所不同,如美国国会图书馆机读目录(LCMARC)、英国机读目录(UKMARC)、日本机读目录(JAPANMARC)、我国的机读目录“中文机读目录”(CNMARC)。
2.MARC 格式
机读目录的每一条记录、每一项数据都应按一定格式存贮才能被计算机识读和查找,另一方面,为了便于书目数据的交流和共享,统一机读目录记录格式,使之标准化。1973年国际标准化组织(ISO)在美国国会图书馆MARC Ⅱ格式基础上制订并分布了《文献工作——书目信息交换用磁带格式》(ISO-2709),它把书目记录的总体结构定义为记录头标区(Leader)、目次区(Directory)、数据区(Data File)以及记录分隔符四部分。
3.CNMARC 格式
CNMARC 是中国机读目录(China Machine-Readable Catalogue)的缩写,是用于中国国家书目机构同其它国家书目机构以及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。中国机读目录研制于20世纪70年代。 1986年UNIMARC 中译本面世。
1992年2月正式出版《中国机读目录通讯格式》,即CN-MARC 。
中文(普通) 图书CN-MARC 著录格式规定的字段及其含义是: 标识块 指示符 文字数据
CN-MARC 示例(录自中国科技大学图书馆书目系统) 000 00750nam0 2200277 450 001 0000416457
005 [1**********]400.0
010 __ |a 7-80703-216-2 |d CNY16.00 099 __ |a CAL [1**********]9
100 __ |a 20050314d2004 ekmy0chiy0121 ea
101 1_ |a chi |c jpn 102 __ |a CN |b 310000 105 __ |a a z 000yy 106 __ |a r
200 1_ |a 生物的超能力 |A sheng wu de chao neng li |f (日) 太田次郎著 |g 邱璐译 210 __ |a 上海 |c 百家出版社 |d 2004 215 __ |a 171页 |c 图 |d 21cm
606 0_ |a 生物学 |A sheng wu xue |j 普及读物 690 __ |a Q1-49 |v 4 692 __ |a 58.11059 |v 3
701 _0 |a 太田次郎 |A tai tian ci lang |4 著 702 _0 |a 邱璐 |A qiu lu |4 译 801 _0 |a CN |b FDU |c 20050314 905 __ |a USTCL |d 58.11059/12 920 __ |a 234030 |z 1 998 __ |a FDU
7.3.2 DC
Dublin Core是国际组织Dublin Core Metadata Initiative拟定的用于标识电子资源的一种简要目录模式。Dublin Core是Dublin Metadata Core ElementSet的简写,它是一个由15个Metadata 标记元素组成的Metadata 系统,其主要目的是为了揭示和组织网上信息资源(包括文本及图像等) 。
现在Dublin Core已被产业界、学术界、研究开发领域及图书馆情报界的广泛接受。
表 错误!使用“开始”选项卡将 应用于要在此处显示的文字。-错误!未定义书签。 Dublin Core
7.3.3 MARC 与DC 的比较
(1)著录目的不同
(2)著录对象不同 (3)著录格式不同 (4)著录主体不同 (5)著录方式不同 (6)揭示关系不同
(7)描述详尽程度 (8)数据质量控制
7.4 XML 与数字资源描述
7.4.1 XML 来源
SGML 、HTML 是XML 的先驱。SGML 是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML 相比,定义的功能很强大,缺点是它不适用于Web 数据描述,而且SGML 软件价格非常价格昂贵。
SGML 、HTML 是XML 的先驱。SGML 是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML 相比,定义的功能很强大,缺点是它不适用于Web 数据描述,而且SGML 软件价格非常价格昂贵。
7.4.2 XML 语言特点与功能
XML (eXtensible Markup Language) 是由万维网协会(W3C) 设计, 专门为Web 应用服务的SGML 的一个重要分支。
XML 是一种元标识语言, 它提供描述结构化资料的格式。
XML 用于数字化信息资源的组织, 不仅能满足不断增长的网络应用需求, 而且还能够确保在与网络进行交互时, 具有良好的可靠性与互操作性。
1.XML 的特点
(1) 自描述性:
XML 是能够进行自解释的语言, 使用文档类型定义DTD (Document Type Definition) 来规定数据, 用XSL ( eXtensible StyleSheet Language) 来描述这些文档如何显示的机制。 (2) 高结构化:XML 是一种结构化的标记语言。XML 元素的结构比关系型数据更有 (3) 开放性: (4) 可粒状更新:
2.XML 的主要功能
(1) 可以依不同的应用来自定义标签。 (2) 结构化的数据。 (3) 强大的链接功能。
7.4.3 XML 语言编程
XML 文档有DTD 和XML 文本组成,
一般而言,用XML 编写网页需要三个文件:
1.文档定义
目前有两种方法可以用来详细定义XML 文档的格式:Document Type Definition(DTD)和XML Schema。
2.样式表文件 3.XML 文件
7.4.4 XML 语言在信息组织中的应用
XML 将各种结构化、半结构化和非结构化数据集成起来, 在XML 平台上整合应用, 使杂乱无章的信息海洋得到根本改善,每个数据节点将实现信息有序存储, 并能为对方接受, 使信息组织的数据挖掘与数据分析工具能够得到很好的实现。
1.基于XML 的一些重要语言
(1) HTML的XML 化语言XHTML 。
(2) 可伸缩矢量图像标记语言SVG 。 (3) 同步多媒体集成语言SMIL 。
(4) 数学标记语言MathML 。MathML (Mathematical Markup Language)于1997年首先由
2.基于XML 与RDF 结合的信息组织方式
传统的许多图书情报系统采用PDF 格式或者单文本格式, 在图书情报领域专有数据格
3.基于XML 的与XML 转换的标记语言和格式 4.利用XSLT 对XML 文档进行转换 5.基于XML 的数据挖掘 【本章习题】
1. 2. 3. 4. 5. 6. 7. 8.
什么是信息描述?为什么说它也是一种信息组织活动? 什么是元数据?它有什么作用? 信息描述有哪些规范?
ISBD 的信息描述有哪些项目?请找10本不同的图书,练习描述。以我国《文献著录总则》的项目要求为描述标准。
信息描述工作有什么要求?它的工作程序如何? 什么是MARC ?你知道有哪些MARC 形式? MARC 格式的结构包括哪些部分?
熟悉中文(普通) 图书CN-MARC 著录格式规定的字段及其含义。请从北京大学或清华大学图书馆的馆藏目录版块登录,检索一本图书,比照阅读其一般著录格式和MARC 著录格式。
什么是DC ?它有哪些项目?请用这些项目描述sina 、sohu 等网站。
MARC 与DC 有什么不同?请阅读相关资料,说说如何实现二者间的转换。 什么是XML ?它有什么特点和功能?为什么它是新一代网络的标准语言? 参考更多资料,编写一个合法的XML 文档?
XML 有哪些具体的应用?请从网上下载一些SVG 、SMIL 、MathML 的源代码,并试着自己编写一些程序。这些程序会让你学习XML 的兴趣大增。
9. 10. 11. 12. 13.