一种基于元数据仓储与信息资源目录的信息资源管理方法

作者:王宏鼎张智江张范朱小燕

图书情报工作 2009年01期

  〔分类号〕TP315

  1 引言

  经过多年的信息化建设,我国金融、电信等行业积累了大量信息资源,如何有效开发利用它们已成为我国当前信息化工作的重点[1]。目前国内企业信息资源的现状有以下特点:①信息资源类型多样。信息资源包含结构化数据,如关系型的数据、早期的网状和层次数据库中的数据;非结构化文本信息,如网页、电子邮件等;还有多媒体类信息资源等。②信息资源环境异构。不同的信息系统使用不同的数据库。有些企业目前仍使用层次数据库管理其核心业务,而其它信息管理系统则是关系型的。即使同是关系型数据库,ORACLE数据库和SQLSERVER、DB2之间也都存在差异。③信息资源格式不同。即使同是音频信息,也可能有mp3、wav或者rm格式。

  因此,上述信息资源现状决定了已有信息资源普遍存在标准缺乏、冗余严重、数据质量较差等问题,而人们对信息资源开发利用的需求又普遍具有动态性、多样性和专业性等特点[2],所以信息资源开发利用是一项比较复杂的任务。当前几乎所有信息资源的开发利用都基本依靠手工整理,并按某种既定标准著录元数据,存在效率低、工作量大、人为遗漏多、信息保密性差等问题。为此,结合当前国内企业信息资源实际情况,并借鉴国内外信息资源开发利用的经验,本文提出了一种基于元数据仓储与信息资源目录的信息资源管理方法,同时设计了信息资源管理系统。

  2 相关研究工作

  虽然至今没有公认的定义,但一般认为信息资源是有使用价值的信息[3]。信息资源的开发利用是指不断重组并加工信息资源的内容,并扩展联系、挖掘内核、转换思路,进而产生和运用新的信息,使信息内容本身释放潜能,为用户的各类活动服务[4]。随着我国信息化建设速度的加快,信息资源开发利用已成为人们关注的热点,但是,国内关于信息资源开发利用的研究多集中在宏观的战略研究与策略方面[6-7],而关于信息资源开发利用的实践方法却较少,因此,研究信息资源开发利用的有效方法很必要。

  由于信息资源存在于各个信息孤岛之中,给用户的应用带来了许多不便。为解决信息孤岛问题,美国政府基于信息检索与交换标准Z39.50从1977年起就开始创建了政府信息定位服务体系(Government Information Locator Service,GILS)[5],用户通过GILS可方便查找和访问政府提供的所有资源、服务和文件,但其仅是基于电子政务的一个分类体系,所以对其他行业用户具体业务需求的灵活性支持不足。

  众所周知,元数据为各种数字化信息单元和资源集合提供了规范描述方法和检索工具,也为分布、多种数字化资源构成的信息体系提供了整合工具与纽带,因此,利用元数据管理信息资源是实现其检索、交换、共享、开发利用的有效途径。根据对元数据的不同定义和描述,信息资源元数据主要分为四类[8],如表1所示:

  表1 数字资源元数据作用及构成

  

  由于整个信息供应链中都会产生元数据,所以数据仓库设计者日益认识到元数据对数据整合以及信息利用的重要性[9-10]。随着商业智能(Business Intelligence,BI)技术的不断发展,最终出现了公共仓储元模型(Common Warehouse Metamodel,CWM)[11],它是OMG组织颁布的元数据管理标准,主要目的是在异构环境下,帮助不同数据仓库工具、平台和元数据知识库进行元数据交换。尽管它有利于元数据管理,但仍未能解决数据冗余以及用户信息资源开发利用的动态性、专业性和多样性要求。

  因此,基于信息资源目录与元数据仓储技术,在一个实际的信息资源开发项目中,笔者提出了一种信息资源管理方法。首先,借鉴图书分类目录管理的方法对信息资源分类,建立用户信息资源目录(与GILS相似[5]),该目录构建了科学、合理、实用的用户全局信息体系架构;然后利用元数据仓储和数据交换平台,实现对信息资源目录的创建、检索、更新以及权限管理。基于该方法,设计了一个信息资源管理系统,实践证明,该系统可有效支持企业信息资源的开发利用。

  3 系统总体结构及工作流程

  3.1 系统总体结构

  系统总体结构如图1所示,整个系统由5部分组成,下面分别进行详细介绍。

  

  图1 基于元数据仓储与信息资源目录的信息资源管理系统结构

  3.1.1 信息资源目录管理器 信息资源目录管理器是整个系统的核心,其功能主要是管理信息资源目录。信息资源目录主要实现两个不同领域的抽象:一方面从根目录开始,按照大类、小类逐步延伸到元数据(如图2中由左至右的箭头所示),把信息从业务管理逻辑向数据和技术逻辑逐步抽象后映射到元数据;另一方面是反过来,信息资源目录又将元数据向业务管理方向抽象(如图2中由右至左的箭头所示)。通过这种抽象,底层数据就变为业务人员熟悉的知识,从而帮助他们迅速定位所需信息。尽管业务人员和管理人员比较熟悉业务和管理领域,但他们一般不了解元数据,因此,当业务人员与管理人员想解决一些问题时,找到解决问题的相关信息比较困难,而目录分类则有效填补了他们与元数据之间的鸿沟。目录管理器一般应具备以下五种功能:①根据信息资源目录,自动生成信息分类树,同时将对应元数据包含在相应子节点中,用户从而通过分类树找到所需信息;②满足不同目录视图的构建,例如,针对各种宏观经济运行数据,有的用户关注货币供应信息,有的用户关注汇率信息,因此,信息资源目录管理器支持设计并生成适合不同用户视角的目录视图;③实现对元数据仓储中元数据的检索,帮助用户发现相关数据的信息(元数据);④显示与被检索的元数据相关字段以及对应数据,支持图形显示功能;⑤对信息资源的使用情况进行统计分析,发现用户使用模式。

  除上述功能外,信息资源目录管理器还需要实现用户管理、权限管理等功能。

  

  图2 目录分类的抽象过程

  3.1.2 元数据仓储 根据公共仓储元模型(即关于模型的模型),实现对元数据的存储和管理(包括查询与更新)。当目录管理器提出查询请求时,元数据仓储检索其存储的元数据,并返回结果。

  元数据仓储中的元数据是标准化的,能有效支持数据的交换与共享,其主要由以下几部分信息构成:①标识信息。对元数据进行标识,包括标识名、别名等。②类型信息。不同信息资源有不同的类型信息,例如,数据库中的属性,其类型信息包括字段长度、数据类型等;对视频资源,其类型信息包括媒体格式、大小等。③管理信息。管理信息是关于元数据管理、保护和存储的信息,包括密级、生产者、管理者、创建日期、有效时间等信息。④业务信息。通过业务信息字段内容,实现元数据逻辑分类,支持树形结构目录,从而进行高效检索,包括主题、关键词、分类类别等。

  信息资源目录按照业务和管理逻辑对信息资源分类,而信息资源元数据也有自己的分类体系,通过对元数据分类便于制定元数据标准和设计公共仓储元模型、逻辑模型和物理模型,以支持高效的元数据的管理。在一个实际信息资源管理项目中,通过对某一企业信息资源分析,建立了其信息资源元数据分类体系,如图3所示。

  3.1.3 元数据著录工具 人工著录元数据仓储中的元数据,工作量大且易产生错误,所以信息资源管理系统需要自动化的元数据著录工具,其主要完成以下任务:①根据业务需求目标自动抽取结构化数据的元数据,并进行映射与转换以及规范化元数据。②自动生成标识信息显示给用户,并允许用户进行修正。③利用信息资源目录树选择元数据所属节点,确定其业务管理类别,允许用户添加关键字、划分主题等。

  

  图3 一种信息资源元数据分类体系示例

  3.1.4 数据交换平台 数据交换平台可有效降低数据交换代价,因为基于数据交换平台,m个相互交换数据的系统只需要m个适配器,否则,需要定制m(m-1)/2个双向抽取程序才能实现这些系统相互之间的数据交换。数据交换平台利用用户给定的元数据,通过适配器从对应系统中获得数据并对其进行规范化,然后返回给目标系统(管理分析系统或目录管理器)。

  3.1.5 信息资源利用模块 信息资源利用模块主要参考信息资源目录对信息资源重组,并将其应用到新领域,主要完成以下功能:①将满足条件的重要的、高质量的数据导入管理分析系统,利用OLAP、数据挖掘等技术进行分析,辅助进行科学决策;②将满足条件的数据进行集成后导入新的业务系统,提高开发新系统的数据质量,从而缩短开发周期,降低成本;③实现数据的逻辑集中,形成完整的企业信息体系结构和全局信息视图,指导企业进行信息化建设的规划和实施。

  3.2 工作流程

  借助于信息资源管理系统,用户可方便管理和利用其拥有的信息资源。针对一项信息查询任务,本文所提出的信息资源管理系统整个工作流程如图4所示。

  3.3 实际项目验证

  在一个实际的信息资源分析项目中,笔者利用该方法设计了用户信息资源管理系统,并取得了很好的效果。在项目中,首先对该企业21个信息管理系统中的信息资源现状进行分析,同时调研分析各个业务管理部门的需求,建立该企业的信息资源目录体系,该目录体系主要分为四个层次,第一层次分为两大类(基础信息资源与非基础信息资源),而两大类在第二层次又涉及五大业务主题,每个业务主题下又有若干子目录,从而使管理和业务人员的信息需求与企业的信息资源有机结合。同时,结合企业信息资源现状,制定其信息资源的元数据标准,并设计元数据仓储模型。基于此方法,该企业实现了信息资源管理系统,实际应用结果表明,文中提出的方法可以有效管理企业信息资源。

  

  图4 信息资源管理系统工作流程

  4 结论与展望

  基于公共仓库元模型,利用元数据仓储技术,并使用灵活的目录设计和管理方法,构建了具有全局视图的信息体系架构,本文提出的信息资源管理方法可以很好实现信息资源的逻辑整合;同时,由于它能反映不同用户特定领域和工作视角,实现非技术人员从元数据向业务的良好过渡,便于他们了解信息资源情况,从而提高信息资源的使用效率。在实际的信息资源分析项目中,利用该方法设计了用户信息资源管理系统,实际运行取得了很好的效果。

  当然,用此方法管理信息资源仍有许多工作要做,其中,信息分类是信息资源目录建立的难点之一,下一步将重点研究信息的自动分类问题。

  收稿日期:2008-03-12

  修回日期:2008-01-30

作者介绍:王宏鼎,清华大学计算机科学与技术博士后流动站与中国联通公司博士后工作站博士后,发表论文10余篇。(北京 100032),清华大学计算机科学与技术系。(北京 100084);张智江,教授级高工,中国联通公司技术部总经理,发表论文数篇,出版专著10余部,提出20余个国际标准文稿,申请专利多项。(北京 100032);张范,朱小燕,清华大学计算机科学与技术系教授,博士生导师,发表论文50余篇。(北京 100084)

作者:王宏鼎张智江张范朱小燕

图书情报工作 2009年01期

  〔分类号〕TP315

  1 引言

  经过多年的信息化建设,我国金融、电信等行业积累了大量信息资源,如何有效开发利用它们已成为我国当前信息化工作的重点[1]。目前国内企业信息资源的现状有以下特点:①信息资源类型多样。信息资源包含结构化数据,如关系型的数据、早期的网状和层次数据库中的数据;非结构化文本信息,如网页、电子邮件等;还有多媒体类信息资源等。②信息资源环境异构。不同的信息系统使用不同的数据库。有些企业目前仍使用层次数据库管理其核心业务,而其它信息管理系统则是关系型的。即使同是关系型数据库,ORACLE数据库和SQLSERVER、DB2之间也都存在差异。③信息资源格式不同。即使同是音频信息,也可能有mp3、wav或者rm格式。

  因此,上述信息资源现状决定了已有信息资源普遍存在标准缺乏、冗余严重、数据质量较差等问题,而人们对信息资源开发利用的需求又普遍具有动态性、多样性和专业性等特点[2],所以信息资源开发利用是一项比较复杂的任务。当前几乎所有信息资源的开发利用都基本依靠手工整理,并按某种既定标准著录元数据,存在效率低、工作量大、人为遗漏多、信息保密性差等问题。为此,结合当前国内企业信息资源实际情况,并借鉴国内外信息资源开发利用的经验,本文提出了一种基于元数据仓储与信息资源目录的信息资源管理方法,同时设计了信息资源管理系统。

  2 相关研究工作

  虽然至今没有公认的定义,但一般认为信息资源是有使用价值的信息[3]。信息资源的开发利用是指不断重组并加工信息资源的内容,并扩展联系、挖掘内核、转换思路,进而产生和运用新的信息,使信息内容本身释放潜能,为用户的各类活动服务[4]。随着我国信息化建设速度的加快,信息资源开发利用已成为人们关注的热点,但是,国内关于信息资源开发利用的研究多集中在宏观的战略研究与策略方面[6-7],而关于信息资源开发利用的实践方法却较少,因此,研究信息资源开发利用的有效方法很必要。

  由于信息资源存在于各个信息孤岛之中,给用户的应用带来了许多不便。为解决信息孤岛问题,美国政府基于信息检索与交换标准Z39.50从1977年起就开始创建了政府信息定位服务体系(Government Information Locator Service,GILS)[5],用户通过GILS可方便查找和访问政府提供的所有资源、服务和文件,但其仅是基于电子政务的一个分类体系,所以对其他行业用户具体业务需求的灵活性支持不足。

  众所周知,元数据为各种数字化信息单元和资源集合提供了规范描述方法和检索工具,也为分布、多种数字化资源构成的信息体系提供了整合工具与纽带,因此,利用元数据管理信息资源是实现其检索、交换、共享、开发利用的有效途径。根据对元数据的不同定义和描述,信息资源元数据主要分为四类[8],如表1所示:

  表1 数字资源元数据作用及构成

  

  由于整个信息供应链中都会产生元数据,所以数据仓库设计者日益认识到元数据对数据整合以及信息利用的重要性[9-10]。随着商业智能(Business Intelligence,BI)技术的不断发展,最终出现了公共仓储元模型(Common Warehouse Metamodel,CWM)[11],它是OMG组织颁布的元数据管理标准,主要目的是在异构环境下,帮助不同数据仓库工具、平台和元数据知识库进行元数据交换。尽管它有利于元数据管理,但仍未能解决数据冗余以及用户信息资源开发利用的动态性、专业性和多样性要求。

  因此,基于信息资源目录与元数据仓储技术,在一个实际的信息资源开发项目中,笔者提出了一种信息资源管理方法。首先,借鉴图书分类目录管理的方法对信息资源分类,建立用户信息资源目录(与GILS相似[5]),该目录构建了科学、合理、实用的用户全局信息体系架构;然后利用元数据仓储和数据交换平台,实现对信息资源目录的创建、检索、更新以及权限管理。基于该方法,设计了一个信息资源管理系统,实践证明,该系统可有效支持企业信息资源的开发利用。

  3 系统总体结构及工作流程

  3.1 系统总体结构

  系统总体结构如图1所示,整个系统由5部分组成,下面分别进行详细介绍。

  

  图1 基于元数据仓储与信息资源目录的信息资源管理系统结构

  3.1.1 信息资源目录管理器 信息资源目录管理器是整个系统的核心,其功能主要是管理信息资源目录。信息资源目录主要实现两个不同领域的抽象:一方面从根目录开始,按照大类、小类逐步延伸到元数据(如图2中由左至右的箭头所示),把信息从业务管理逻辑向数据和技术逻辑逐步抽象后映射到元数据;另一方面是反过来,信息资源目录又将元数据向业务管理方向抽象(如图2中由右至左的箭头所示)。通过这种抽象,底层数据就变为业务人员熟悉的知识,从而帮助他们迅速定位所需信息。尽管业务人员和管理人员比较熟悉业务和管理领域,但他们一般不了解元数据,因此,当业务人员与管理人员想解决一些问题时,找到解决问题的相关信息比较困难,而目录分类则有效填补了他们与元数据之间的鸿沟。目录管理器一般应具备以下五种功能:①根据信息资源目录,自动生成信息分类树,同时将对应元数据包含在相应子节点中,用户从而通过分类树找到所需信息;②满足不同目录视图的构建,例如,针对各种宏观经济运行数据,有的用户关注货币供应信息,有的用户关注汇率信息,因此,信息资源目录管理器支持设计并生成适合不同用户视角的目录视图;③实现对元数据仓储中元数据的检索,帮助用户发现相关数据的信息(元数据);④显示与被检索的元数据相关字段以及对应数据,支持图形显示功能;⑤对信息资源的使用情况进行统计分析,发现用户使用模式。

  除上述功能外,信息资源目录管理器还需要实现用户管理、权限管理等功能。

  

  图2 目录分类的抽象过程

  3.1.2 元数据仓储 根据公共仓储元模型(即关于模型的模型),实现对元数据的存储和管理(包括查询与更新)。当目录管理器提出查询请求时,元数据仓储检索其存储的元数据,并返回结果。

  元数据仓储中的元数据是标准化的,能有效支持数据的交换与共享,其主要由以下几部分信息构成:①标识信息。对元数据进行标识,包括标识名、别名等。②类型信息。不同信息资源有不同的类型信息,例如,数据库中的属性,其类型信息包括字段长度、数据类型等;对视频资源,其类型信息包括媒体格式、大小等。③管理信息。管理信息是关于元数据管理、保护和存储的信息,包括密级、生产者、管理者、创建日期、有效时间等信息。④业务信息。通过业务信息字段内容,实现元数据逻辑分类,支持树形结构目录,从而进行高效检索,包括主题、关键词、分类类别等。

  信息资源目录按照业务和管理逻辑对信息资源分类,而信息资源元数据也有自己的分类体系,通过对元数据分类便于制定元数据标准和设计公共仓储元模型、逻辑模型和物理模型,以支持高效的元数据的管理。在一个实际信息资源管理项目中,通过对某一企业信息资源分析,建立了其信息资源元数据分类体系,如图3所示。

  3.1.3 元数据著录工具 人工著录元数据仓储中的元数据,工作量大且易产生错误,所以信息资源管理系统需要自动化的元数据著录工具,其主要完成以下任务:①根据业务需求目标自动抽取结构化数据的元数据,并进行映射与转换以及规范化元数据。②自动生成标识信息显示给用户,并允许用户进行修正。③利用信息资源目录树选择元数据所属节点,确定其业务管理类别,允许用户添加关键字、划分主题等。

  

  图3 一种信息资源元数据分类体系示例

  3.1.4 数据交换平台 数据交换平台可有效降低数据交换代价,因为基于数据交换平台,m个相互交换数据的系统只需要m个适配器,否则,需要定制m(m-1)/2个双向抽取程序才能实现这些系统相互之间的数据交换。数据交换平台利用用户给定的元数据,通过适配器从对应系统中获得数据并对其进行规范化,然后返回给目标系统(管理分析系统或目录管理器)。

  3.1.5 信息资源利用模块 信息资源利用模块主要参考信息资源目录对信息资源重组,并将其应用到新领域,主要完成以下功能:①将满足条件的重要的、高质量的数据导入管理分析系统,利用OLAP、数据挖掘等技术进行分析,辅助进行科学决策;②将满足条件的数据进行集成后导入新的业务系统,提高开发新系统的数据质量,从而缩短开发周期,降低成本;③实现数据的逻辑集中,形成完整的企业信息体系结构和全局信息视图,指导企业进行信息化建设的规划和实施。

  3.2 工作流程

  借助于信息资源管理系统,用户可方便管理和利用其拥有的信息资源。针对一项信息查询任务,本文所提出的信息资源管理系统整个工作流程如图4所示。

  3.3 实际项目验证

  在一个实际的信息资源分析项目中,笔者利用该方法设计了用户信息资源管理系统,并取得了很好的效果。在项目中,首先对该企业21个信息管理系统中的信息资源现状进行分析,同时调研分析各个业务管理部门的需求,建立该企业的信息资源目录体系,该目录体系主要分为四个层次,第一层次分为两大类(基础信息资源与非基础信息资源),而两大类在第二层次又涉及五大业务主题,每个业务主题下又有若干子目录,从而使管理和业务人员的信息需求与企业的信息资源有机结合。同时,结合企业信息资源现状,制定其信息资源的元数据标准,并设计元数据仓储模型。基于此方法,该企业实现了信息资源管理系统,实际应用结果表明,文中提出的方法可以有效管理企业信息资源。

  

  图4 信息资源管理系统工作流程

  4 结论与展望

  基于公共仓库元模型,利用元数据仓储技术,并使用灵活的目录设计和管理方法,构建了具有全局视图的信息体系架构,本文提出的信息资源管理方法可以很好实现信息资源的逻辑整合;同时,由于它能反映不同用户特定领域和工作视角,实现非技术人员从元数据向业务的良好过渡,便于他们了解信息资源情况,从而提高信息资源的使用效率。在实际的信息资源分析项目中,利用该方法设计了用户信息资源管理系统,实际运行取得了很好的效果。

  当然,用此方法管理信息资源仍有许多工作要做,其中,信息分类是信息资源目录建立的难点之一,下一步将重点研究信息的自动分类问题。

  收稿日期:2008-03-12

  修回日期:2008-01-30

作者介绍:王宏鼎,清华大学计算机科学与技术博士后流动站与中国联通公司博士后工作站博士后,发表论文10余篇。(北京 100032),清华大学计算机科学与技术系。(北京 100084);张智江,教授级高工,中国联通公司技术部总经理,发表论文数篇,出版专著10余部,提出20余个国际标准文稿,申请专利多项。(北京 100032);张范,朱小燕,清华大学计算机科学与技术系教授,博士生导师,发表论文50余篇。(北京 100084)


相关文章

  • 书籍系列知识
  • 书籍系列知识 1."实用管理工具箱"系列:生产管理工具箱 内容简介: <"实用管理工具箱"系列:生产管理工具箱>全面.系统地对生产管理的各个模块进行了科学的梳理,经过严格筛选,从生产工艺管 ...查看


  • 网咯物流系统论文摘要&目录
  • 基于J2EE的网络物流系统 [摘要] 随着电子商务技术和网络技术的快速发展,现代物流技术也在不断进步.物流技术是指与物流要素活动有关的所有专业技术的总称,包括各种操作方法.管理技能等,如流通加工技术.物品包装技术.物品标识技术.物品实时跟踪 ...查看


  • 横琴新区产业发展指导目录(全文)
  • 横琴新区产业发展指导目录(全文) 横琴新区产业发展指导目录 一.旅游休闲 (一)文化科技旅游.休闲度假旅游.会议展览旅游.医疗保健旅游.乡村旅游.生态旅游.森林旅游.海洋旅游及其他旅游资源综合开发服务 (二)休闲.登山.潜水.探险等各类户外 ...查看


  • 土地信息的分类.获取途径.应用实例及新途径归纳
  • 土地信息的分类.获取途径.应用实例及新途径归纳 一.土地信息的分类: 在LIS 中, 土地数据可分为三种类型:空间特征数据(定位数据).时间属性数据(尺度数据)和专题属性数据(非定位数据).对于大部分土地信息系统的应用来说,时间和专题属性数 ...查看


  • 上海开放大学_仓储与配送实务_网上记分作业
  • 上海开放大学 <仓储与配送实务> 网上记分作业题库 目录     使用说明 ........................................................................ ...查看


  • 坚果网络营销策划案
  • 企 划 案 坚果网络营销策划案 前言: 超市里薯片.虾条.雪饼.果脯.话梅.花生.松子.杏仁.开心果.鱼片.肉干等休闲食品琳琅满目,这些休闲食品的包装新颖.统计,我国休闲食品市场容量已达到225.8亿元.中国的人口多.消费层次丰富,休闲食品 ...查看


  • 快递企业运作模式分析
  • 快递企业运作模式分析 摘要:随着中国经济的快速发展和经济全球化步伐的加快,商品贸易规模迅速扩大,物资空间移动的广度和深度也随之扩展,因而对于物流活动的效率.物流的快速反应能力以及信息化程度都提出了更高的要求.同时,物流需求的个性化.多样化和 ...查看


  • 项目管理系统操作手册
  • 目 录 . .................................................................................................................. ...查看


  • 智慧城市时空信息云平台建设方案研究
  • 第38卷第3期2015年05月 现 代 测 绘 ModernSurveinandMain ygppg Vol.38,No.3 Ma2015y 智慧城市时空信息云平台建设方案研究 李乃强,刘婵娟 ()江苏省测绘工程院,江苏南京210013 摘 ...查看


热门内容