学 士 学 位 论 文
论文题目: 基于人物信息嵌入的人物关系挖掘
姓 名: 刘春花
学 号: BK1231209
院 系: 信息科学学院
专 业: 计算机科学与技术
指导教师: 于东
二〇一六 年 六 月
北京语言大学学士学位论文 (2012
级)
论 文 题 目: 基于人物信息嵌入的人物关系挖掘
院 系: 信息科学学院
专 业: 计算机科学与技术
学 生 姓 名: 刘春花
指导教师姓名: 于东
论文完成日期: 2016年6月
论文原创性声明
本人郑重声明:所呈交的论文,是本人在导师指导下,独立进行的研究工作及取得的研究成果。尽我所知,除了文中已经注明引用和致谢的地方外,论文中不包含其他人或集体已经发表或撰写的研究成果,也不包含为获得北京语言大学或其他教育机构的学位或证书所使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
签 名:________
日 期:________
学位论文知识产权权属声明
本人郑重声明:本人所呈交论文,是在导师指导下所完成的,论文知识产权归属北京语言大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版本,允许论文被查询和借阅,将论文编入有关数据库进行检索等。本人离校后发表或使用学位论文或与该论文直接相关的学术论文获成果时,署名仍为北京语言大学。
签 名:________
导师签名:________
日 期:________
目 录
摘要......................................................................... I ABSTRACT.................................................................... II
第一章 绪论.................................................................. 1
1.1 研究背景 . ............................................................ 1
1.2 研究现状 . ............................................................. 1
1.2.1 关系抽取的研究现状 . ............................................... 1
1.2.2 人物关系抽取的研究现状 . ............................................ 2
1.3 本文研究内容 . .......................................................... 3
1.4 论文框架 . .............................................................. 4
第2章 中文信息处理相关工具介绍 . ............................................. 4
2.1 相关工具 . .............................................................. 4
2.1.1 哈工大语言技术平台(LTP )功能简介 . ................................ 4
2.1.2 哈工大语言技术平台(LTP )的使用 . .................................. 7
2.2 Perl语言概述 ......................................................... 8
2.3 正则表达式 . ............................................................ 9
第3章 基于规则和依存句法抽取人物实体关系 . ................................... 9
3.1 基于半结构化数据上的规则抽取 . ......................................... 9
3.2 基于依存句法的人物关系抽取 . ........................................... 10
3.2.1 预处理 . ......................................................... 11
3.2.2人名实体在句中的位置分布 .......................................... 11
3.2.3 人名实体关系分类 . ................................................. 12
3.3 基于句法分析的模式提取 . ............................................... 12
第4章 实验设计和实现 . ...................................................... 18
4.1 实验设计 . ............................................................. 18
4.3实验结果 .............................................................. 19
第5章 总结................................................................. 20
致 谢....................................................................... 21
参考文献.................................................................... 22
基于人物信息嵌入的人物关系挖掘
作者:刘春花 指导教师:于东
摘要:互联网技术的高速发展使得网络上的爆发式增长,如何从这些大规模文本中获取有价值的信息并且将其转化为结构化的数据用于计算机的识别与处理是目前研究的重要课 题。开放信息抽取是指从无结构化的文本中抽取出指定的信息,比如实体识别、实体关系抽取,然后将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理。 本文研究的是人物关系抽取。本文以新闻网页和百度百科人物页面作为数据源,使用哈工大语音技术平台作为中文自然语言处理的工具,对无结构化的文本中出现的人物关系进行抽取,以构建人物关系数据库。本文重点研究下面几个问题。
首先,本文以句子作为限定,认为一句话中如果包含两个及以上人名,那么这句话中则有可能有包含人物关系的特征词。还对人名实体在句中的位置分布进行了研究,将人名实体的数量与句子的句法结构相结合进行分类。
其次,通过对中文语句进行句法分析,根据句法分析的结果,统计人名实体与关系特征词之间的依存模式,进而使用这些依存模式大数据上进行人物关系的抽取。
最后, 使用人物关系特征词列表对抽取的人物关系三元组进行过滤和关系分类。
关键词:实体关系抽取,人物关系抽取,依存模式挖掘
Th e Figure Relationship Mining Based On Character
Information Embedding
Author: Liu Chunhua Tutor :Yu Dong
ABSTRACT: The rapid development of Internet technology makes the explosive growth of the Internet, how to extract the valuable information from these large-scale texts and convert them into structured data for the study of natural language processing is an extremely important issue. Open information extraction means extract structured information from unstructured text, such as the recognition of entities, and the extraction of their relationships. And then filled in these structured data to the database for further analysis and processing.
This paper studies the extraction of relationship between the characters. In this paper, news pages and Baidu Encyclopedia character page are used as a data source, using LTP as technology platform as the Chinese natural language processing tools, extracting the relationship between humans, and finally build character relational database. This paper focuses on the following questions.
Firstly, the sentence will be taken into consideration if it contains two or more name entities, because this sentence is likely to contain a characteristic relationship between the characters. Also, the location and distribution of the name entities in the sentence were studied, the syntactic structure of sentences and the number of name entities were combined to classification.
Secondly, according to the results of the Chinese statement syntax analysis, collect the patterns between name entities and characteristics of their relationship, and then use these patterns to extract the relationships between the characters on big data.
Finally, filter and classify the triples extracted from the pattern by the list of feature words.
KEY WORDS:Entity relation extraction, relation extraction figures, dependent pattern mining
第一章 绪论
1.1 研究背景
随着计算机的不断发展以及互联网在政治、经济、医疗等领域广泛地应用,作为社会最集中的参与者人的信息在互联网中也越来越多。关于人的各种各样的信息存在于互联网的各个地方。要想实现数字化的社会则必须学会如何有效的掌控和利用有效的信息,排除掉无用的信息。正是在人类互联网数据急剧增长的社会,对于有效信息的抽取和分类是一件需要迫切解决的问题,所以开放信息抽(Open Information Extraction, Open IE)取成为了研究的重要课题。社交网络的兴起更是让人物之间的联系变得更加丰富,人物之间的关系也就更加复杂。在这样的背景下,探索人物之间的关系便成为了研究的热点。此外,人物搜索引擎和社会关系网络构建中一个重要的基础技术是人物关系的抽取。本文主要研究的是人物领域中的人物关系抽取。网络上的人物信息中蕴含着大量关于人物之间关系的信息,抽取人物关系信息来构建人物关系知识库并构成社会关系拓扑图是可行的。目前己有基于搜索引擎的人物关系抽取系统如微软开发的“人立方关系搜索”,雅虎的“雅虎关系”等都是专注社会网络分析这方面的研究 。人物关系抽取对于人物领域内的知识图谱构建、人物关系推理以及人物行为分析至关重要。 因此人物关系抽取这一任务是有需求、有意义、有前景的。
1.2 研究现状
1.2.1 关系抽取的研究现状
在大数据的背景下,信息抽取(Information Extraction )的需求不断上升。信息抽取主要包括实体抽取、事件抽取、关系抽取。关系抽取的发展与各种类型的评测会议关联很大比如MUC (Message Understanding Conference)、ACE (Automatic Content Extraction)、TAC (Text Analysis Conference)。
实体抽取是关系抽取和事件抽取的基础,旨在从文本中识别出人名、地名、机构名、日期、数额等实体信息。世界由一个一个的实体组成,但是这些实体之间不是孤立的,他们之间有着千万缕的联系,正是这些联系使得这个世界变得更加具有逻辑、更加复杂和精彩。所以要在实体识别的基础上,抽取出这些实体之
间存在的语义关系,才能赋予实体最真实的意义。这项抽取实体间语义关系的任务,即关系抽取。实体间的关系可被形式化描述为关系三元组,其中Entity1,和Entity2是实体类型,Relation 是关系描述,两个实体之间的Relation 可以是多个。
关系抽取即从自然语言文本中抽取出关系三元组,从而提取文本信息。在美国国防部高级计划委员会资助的MUC 会议MUC-6上,关系抽取的概念作为模板元素任务的一部分引入,MUC-7是最后一次MUC 会议,在本次会议上首次引入模板关系抽取任务(template relation task ,包含3种关系) 。随着MUC 会议的停办,美国国家标准与技术研究院(National工nstitute ofStandards and Technology,KIST) 组织展开了自动内容抽取(ACE )测评会议。ACE 会议旨在研究自动抽取出新闻语料中的实体,关系以及事件等内容。关系抽取属于ACE 会议定义的关系检测与识别任务。ACE 会议提供了关系抽取的评测语料,也构建了详细的实体关系类型,将关系抽取任务进一步细化。ACE 会议于2009年并入美国国家标准与技术研究组织的国际文本分析会议(TAC)后,关系抽取并入知识库构建(Knowledge Base Population, KBP)领域的槽填充(Slot-Filling)。
关系抽取旨在从海量的非结构化的文本中抽取出结构化的知识。这些结构化的知识对于知识库的自动构建、知识图谱的补全和推理以及搜索引擎等领域都具有重大的意义。通过关系抽取技术,从无结构的自然语言文本中抽取出格式统一的关系数据,有助于计算机快速处理大规模文本数据,提高处理效率; 通过抽取实体之间的语义关系,能够建立多个实体之间广泛的信息关联,有助于建立领域本体,促进知识图谱的构建; 通过深入挖掘和分析自然语言文本中的语义关系信息,在问答系中能够进一步理解和匹配用户的查询意图,从而为用户提供更精准的搜索服务也更容易结合深度学习和情感分析来使人类更加了解自我了解这个社会。由此可见,关系抽取技术不仅仅具有深刻的理论意义,而且具有广阔的应用前景。
关系抽取经典的抽取系统主要有:FASTUS 抽取系统、REES 系统、DIPR 和Snowball 系统、OpenIE 系统。
1.2.2 人物关系抽取的研究现状
人物关系抽取可看作是实体关系抽取的的一个重要的分支,只是将关系抽取中的命名实体限定为人名。人物由于其特定的存在而与他人之间产生的关系称为人物关系。人物关系抽取有其特定的模式和特征。在之前的研究中,人物关系抽取的方法主要有三种:
1)采用关系描述模式。该方法一般事先定义好需要抽取的人物关系类型,统计
或自动生成关系描述词,接着收集人物关系描述模式或者有序列的关系特征词模式,利用这些模式匹配出更多的人物实例。
2)利用机器学习算法训练分类器。这类方法摒弃关系模式方法的强制匹配,
而是选择有效特征,在标记关系数据的基础上,选择合适的机器学习算法(常用算法是SVM 、改进SVM 等) 进行训练,得到关系分类器用以关系识别。
3)自动生成关系描述短语。这类方法一般采用聚类算法,无需定义人物关系类型,而是将两个人名实体的共现句中能表达关系的短语作为关系类型。
从当前人物关系抽取技术的研究现状来看,人物关系抽取的方法研究中仍然 存在着以下几点所面临的挑战: 1)关于是否预先定义人物关系类型。2) 关于人物关系在识别时被遗漏。3) 关于无效的人名实体共现句。在存在关系的人名实体共现句中,会有部分共现句对该人物关系的描述是没有明显作用,是无效的。或者共现句中存在两个以上的人名实体,多种关系类型,那么这些共现句对其中任意一个关系类型都没有太多有效性。
1.3 本文研究内容
本文主要采用的是关系描述模式的方法对人物关系进行抽取。结合依存句法分析的结果对人物关系进行依存模式抽取,再在大规模的语料中利用依存模式抽取人物关系,构建人物关系数据库。
人物关系通常包含三个部分(人物1,关系,人物2),因此人物关系挖掘需要解决两个主要的问题:人物关系识别(识别具有两个关系的人物),人物关系挖掘(挖掘出两个人之间的具体关系)。本文针对这两个问题的解放方法如下:
第一个问题人物关系识别包含两个子问题:一是如何识别一个人名,这是命名实体识别中的任务,现在各类中文语言分析工具已较为成熟,可以直接使用分析工具分析的结果;二是如何识别两个人是有关系的,这个问题一般简单地可以根据两个人人名的共现来说明两个人之间有关系,也可以根据词向量计算词与词之间的相似度来说明两个人之间有关系。词向量的计算会显得稍微麻烦,并且与一个人名相似的词可能不仅仅是人名,即使是人名也还需要进行排除看是否在我所处理的句子中。本文认为如果两个人名实体出现在同一个句子中则说明他们是有关系的。
第二个问题人物关系挖掘,主要是在句子中包含两个人名以上的情况下,判断句子中是否存在描述两个人名关系的词,如果两个人名满足某种依存模式则将两个人人名和关系抽取出来。这个过程其实是寻找人物实体之间存在关系
的模式都有哪些,找到这些模式也就可以通过这些模式抽取出人物之间的关系。
抽取出正确的关系依存模式之后,将这些模式应用到大数据中进行抽取,进而使用抽取结果来构建数据库。
1.4 论文框架
本文主要针对实体关系抽取中的人物关系抽取进行研究,采取的方法是基于依存句法模式。本文主要分为5章。
第1章为绪论,本章首先介绍论文选题的背景和意义,然后关系抽取和人物关系抽取的研究现状,最后介绍了本文的研究内容。
第2章对中文信息处理相关工具介绍,本章主要介绍了哈工大语言技术平台(LTP )的功能和使用,以及Perl 语言和正则表达式。这是本实验所使用的中文分析工具和编程语言。
第3章介绍基于规则和基于依存句法来抽取人物实体之间的关系,主要介绍了人名实体在句中的位置分布、人名实体关系分类以及基于句法分析的模式提取。
第4章为实验设计与实现,介绍实验流程、实验数据、实验结果。
第5章为总结与展望,主要介绍本文的成果以及对未来研究的思考。
第2章 中文信息处理相关工具介绍
2.1 相关工具
2.1.1 哈工大语言技术平台(LTP )功能简介 语言技术平台(Language Technology Platform ,LTP )是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于XML 的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 (包括 分词、词性标注、命名实体识别、依存句法分析、语义角色分析、语义依存分析),应用程序接口,可视化工具,以及能够以网络服务使用的语言技术云。
语言技术平台的整体构造和功能如表2.1所示:
表2.1 LTP 总体架构表
义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。
表2.2 LTP 依存句法分析标注关系
图2.1 LTP 的demo 示意图
图2.1的上部分是分词、词性标注、命名实体识别、依存句法分析和语义角色标注的结果,下部分是语义依存分析的结果。图的上部分中整句话被分为10个词(包括标点符号),每个词下方都有词性标注,词性标注下方绿色部分是命名实体识别,命名实体下面橙色部分是语义角色标注,词的方带有弧线的是依存句法分析,弧线上红色的字母是两个词之间的关系。
2.1.2 哈工大语言技术平台(LTP )的使用 LTP 的使用:本文所使用过的LTP 主要有两种方式,分别为在线版和单机版。
在线版的使用需要用到的是一个API 接口,该接口是用户注册语言云的服务后获得的标识。对于每句话生成一个URL ,然后将URL 传递给服务器让服务器解析完以后再传回本机,生成URL 需要的三个参数包括待解析句子、待解析的模式、输出格式形式。待解析的模式包括五个,即分词(ws )、词性标注(pos )、命名实体识别(ner )、依存句法分析(dp )、语义角色分析(srl )。输出格式形式包括四种xml(XML格式) ,json(JSON格式) ,conll(CONLL格式) ,plain(简洁文本格式) 。这种方式主要提供了HTTP GET和HTTP POST两种方式的调用接口。
单机版既可以在Linux 系统下的使用也可以在windows 系统下的使用。但是LTP 是依赖编译工具CMAKE 构建项目的,所以在使用LTP 之前需要首先安装CMAKE ,CMAKE 可以从官网上进行下载。LTP 的使用必须包括两部分内容:LTP 项目文件和LTP 模型文件,他们都可以从LTP 的官网上技术支持栏目下(从源代码编译安装LTP )获得。
在线版和单机版的比较:在线版的好处在于可以输出的格式很多,方便后续处理;缺点是每一条句子都要经过服务器的来回传输,速度很慢,并且需要在有网的情况下才可以进行解析。单机版的优点在于可以同时开启多个线程进行处理,速度很快,使用方便,只需要修改一些参数就可以直接使用;缺点是输出格式较为单一,上文在命名实体识别处所举的例子便是单机版解析后的结果,各个待解析模式之间是有依赖的,比如说词性标注是依赖于分词文件的,语义角色标注是依赖于命名实体识别和依存句法分析的,当文件较大时只能一步一步的来而不能同时进行。
2.2 Perl语言概述 在Perl 语言出现(1987年) 之前,在类似Unix 这样的系统中,几乎所有的文本处理程序都是通过awk, sed, shell 和C 语言或包含这些语言的文本工具来完成的。Perl 语言的创立者Larry Wall 想要创建一种语言,使得能够非常简单和高效地处理文本,并且该语言不但具有C 语言的特征和能力而且具有awk 、shell 等脚本语言的特性,于是Perl 语言应运而生。
Perl语言的特点有:
解释性脚本语言:Perl程序不需要预先编译即可由Perl 解释器对源代码程序解释执行。
模块化和可重用性:Perl的函数库被称作“模块”。“模块”可以被Perl 程序共享,Perl 程序可以随意使用在“模块”中定义的函数接口。
可嵌入和可扩展:Perl代码可以很容易地被嵌入到C/ C++语言的应用程序中; 同时,C/ C++例程也可以很容易地被嵌入到Perl 的应用程序中。遵循POSIX 标准:POSIX标准的全称是“可移植的操作系统可扩展标准”。遵循POSIX 标准,有利于把Perl 程序移植到不同的操作系统平台上。
安全性好:Perl通过setuid 来跟踪数据流,因而其安全性要比C 语言更高,避免了许多用C 语言实现时可能出现的安全漏洞。
适合多种操作系统平台:现在,Unix,Linux 及Windows 等操作系统都支持Perl, 甚至一些嵌入式系统也开始支持Perl 语言。
适合多种操作系统平台:现在,Unix,Linux 及Windows 等操作系统都支持Perl, 甚至一些嵌入式系统也开始支持Perl 语言。
免费的自由软件:Perl是典型的自由软件之一,因而赢得了世界上用户的广泛支持和积极参与,这也使得Perl 语言的功能越来越完善和强大。
Perl 语言中精髓的部分应该是正则表达式和它的各种各样的模块,应用甚广。
2.3 正则表达式 由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus ,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。
正则表达式,在Perl 中通常被称为模式(pattern)。模式就是一个概括性标示字符串的方式,模式中定义了一些特殊含义的符号,应用这些符号的不同组合达到描述一组字符串的目的。模式就是字符串的一组特征。Perl 利用特征来描述一组字符串,而不需列出字符串的具体内容。正则表达式的任务是判断一个字符串中是否与给定模式匹配,然后返回“是”或“否”,并且在需要的时候通过变量获取与给定模式匹配的字符子串。Perl 中内建了一个功能强大的正则表达式引擎。正则的主要格式为:~/模式/。在处理文本文件的过程中,利用正则表达式过滤筛选出所需内容是一种非常高效的手段。
在对网页进行剔除不必要的标签时常常使用正则表达式进行匹配,在本文中后面涉及的提取人名实体间的模式的过程中也将用到正则表达式。
第3章 基于规则和依存句法抽取人物实体关系
3.1 基于半结构化数据上的规则抽取
百度百科的人物网页中,带有InfoBox 的网页有三万多个,infobox 指的是百度百科网页中有结构的那一部分,描述了一个人的基本信息,比如姓名,国籍,任职以及家庭关系等栏目,从这些栏目中抽取家庭关系这一栏的属性作为关系的备选集。
下面以周恩来的人物页面的InfoBox 为例进行详细的描述实验思路:
图3.1 InfoBox 抽取的属性值
(1) 每个页面共有的属性是姓名,观察网页源码并抽取出每个网页的“人名_
百度百科”中的人名,作为人物三元组中人物
1。如上图,提取周恩来作为人物1的值。
(2) 观察在属性中是否含有描述家庭关系的词,比如:妻子、配偶、女儿等等
这一系列的词,如果存在则抽取该属性作为中的关系;抽取该属性的属性值作为中人物2
如上图,提取“配偶”作为关系的值,“邓颖超”作为人物2的值。
观察百度百科InfoBox 的信息整理得到百度百科关于描述家庭关系的属性词的描述的列表,再根据同义词词林将该列表进行扩展最后得到的列表中的词条数为123条。
(3) 对从InfoBox 中得到的数据进行清洗和整理。抽取的数据中包含有
1,家庭成员,(关系1,人物2;关系2,人物3)>这样类似的数据,要将其整理成为三元组的形式。
3.2 基于依存句法的人物关系抽取
人物关系抽取属于实体关系抽取范畴,实体关系抽取可采用基于模式提取的 方法,一般基于模式提取的实体关系抽取包括一下几个主要处理过程: 预处理、模式提取、关系抽取。
预处理主要包括语料清洗与整理、中文分词、词性标注、命名实体识别、语句选取。模式提取则是先对小部分语料进行观察,寻找人物与人物之间、人物与关系之间的模式类别,然后将这些模式应用到大的数据集中进行测试,观察测试结果的正确率,并从测试结果中不断完善和更新模式。
关系抽取的过程主要是结合句
中人物人名所处的位置。
3.2.1 预处理
1)语料清洗与整理。从百度百科爬得的网页中包含大量的HTML 标记以及一些杂乱的符号以及乱码的句子要将其处理掉。在此过程中的数据清洗和格式化非常重要,一盘采用正则表达式来抽取有效的文本信息,因此前后起止标记的确定需要谨慎,既需要保留有价值的语料信息,又需要去除大量冗余网页标记。而且抽取的信息当中往往又含有大量的网页特效标记或超链信息标记,而不仅仅是简单地抽取起止标记中间的内容。所以在用正则表达式进行匹配的时候需要仔细的观察,根据网页段落类型的不同设计不同的正则表达式。
2) 中文分词。3)词性标注。4) 命名实体识别。
5)语句选取。利用大数据可以完成自然语言处理的很多任务,但是在完成这些任务当中如果选取具有明显特征的数据作为数据集会在提高数据的稠密度的同时提高模型的运算速度,这样对于结果更有利。在人物关系抽取的任务上,我们需要抽取的是三元组 ,那么在选取语句时一句话中至少应该包含两个人名才有可能作为关系抽取的备选集。所以根据命名实体识别的结果来选取一句话中至少包含两个人名的句子。这样可以筛选掉许多无意义无价值的语句,选出对后续处理有价值的语句,以此可以减少后期的工作量。
3.2.2人名实体在句中的位置分布
人名实体在句中的位置关系与人名的句法成分是息息相关的。对一句包含两个人名以上的句子进行句法分析,可以抽取出一个句子的主干部分,句子结构可以简单地划分为主谓宾。人名实体是名词性词语,名词性处于可以位于句中的主语和宾语位置。根据句法分析的结果,可以就两个人的人名所处的位置对句子进行分类。
在文章[2]中,作者将人名实体位置的特征情况分为九种。如表3.1所示:
表3.1 人名实体位置的特征情况
在做实验的过程中发现这样的分类是存在一些问题的,因为每句话的特征标示只有一个,这样的分类在单句的应用上效果不错。但是在实际情况中,中文的表达很复杂,在复句中当一句话中包含多个人名时,可能主语子句有两个以上人名实体,宾语也有多个人名实体,一个特征标示不能描述这个句子中人名之间的关系,这时句子应该具有多个特征标示。所以提出一种新的划分方法,对于一个句子需要同时考虑主语子句的实体之间的关系、宾语子句之间实体的关系以及主语人名实体和宾语人名实体之间的关系。由人名实体的个数以及在句子中位置可以做如下分类:
表3.2 人名实体的个数在句子中位置的分类表
3.2.3 人名实体关系分类
结合文章[2]中人名实体位置的特征情况的分类,研究过程中进一步总结出出两个人名实体之间的关系主要分为两个大的类别,类别一是两个人名实体有直接的关系,直接关系一般是并列关系;类别2是间接关系,指两个人名实体通过一个或者几个词相连,间接关系一般是两个人名实体通过谓语动词、修饰名词、谓语动词的并列动词将两个人名。
直接关系可以直接采用表3.1所描述的方法进行模式抽取就可以。对于简介关系,经过统计发现在能够体现人物关系的语句中,谓语动词常常为几个特定的词,比如“是”“有”。当谓语动词是这些词的时候关系特征词的选取则需要再进一步考虑主语名词或者宾语名词。例如“孔子是颜回的老师”,此时的特点是“孔子”作为第一人名实体是句子的主语,谓语是“是”,宾语是“老师”,而第二人名实体“颜回”是修饰宾语“老师”的,此时很明显被修饰的宾语名词“老师”是最具特征的词。反过来“颜回的老师是孔子”,也具有这一特征。
3.3 基于句法分析的模式提取
通过统计的方法发现模式,再根据模式匹配从大规模语料中抽取大量的任务
关系来构建人物关系数据库,关系数据库中每个三元组为 。
由表1已经知道人名实体在句中的位置与核心特征词抽取的关系。在实验过程中发现对一句话进行依存句法分析以后,一个人名与父亲节点的关系的属性值主要有四种:SBV 、ATT 、COO 、POB 。统计结果表明其中SBV 的最多,其次ATT ,然后是COO 和POB (其中POB 的对于人物关系抽取没什么意义)。
在实验过程中统计得到的模式如下:
(一) 两个及以上人名位于主语,宾语没有人名
对每个人名进行判断,判断父亲词和的关系,如果父亲词和谓语动词为SBV 关系,这说明父亲词为该句子的主语,抽取父亲词为Nh2。
● 当谓语动词不为“是”时,抽取谓语动词作为特征词Rel 。
例如:1914年,孔祥熙与宋霭龄于日本结婚。抽取谓语动词“结婚”作为特征词。
利用哈工大语言云进行句法分析得到结果如下: (1) 当前人名Nh1与父亲词的关系是COO 且父亲词的词性为Nh 。
图3.2 两人名同处主语且是并列关系的句法分析图
由图3.2知句中“孔祥熙”与“宋霭龄”两个人名实体都是位于主语,且“孔祥熙”与“宋霭龄”之间的关系弧的标注是“COO ”,即并列关系,句子的谓语动词也就是HED 所在弧指向的词语“结婚”。此时提取“结婚”作为Rel 。
● 当谓语动词为“是”时,提取谓语动词的宾语名词作为特征词。
例如:马时亨与王培琪曾是新法书院同学。提取“同学”作为Rel 。
(2) 当前人名与父亲词的关系是ATT ,父亲词的父亲词的词性为Nh 。 抽取当前词的父亲词为特征词,父亲词的父亲词作为Nh2。
例如“曹大元的妻子杨晖也是著名围棋棋手。”这句话中需要抽取的三元组是 。
使用句法分析得到结果如下:
图3.3 两人名同处主语且是修饰关系的句法分析图
图3.2中杨晖为主语,曹大元处于主语的修饰成分中,此时在修饰成分“曹大元
的妻子”中“妻子”这个名词便是最具特征的词,体现的是一种夫妻关系,因此
抽取“妻子”作为Rel 。
(3) 当前人名Nh1与父亲词的关系是SBV ,抽取谓语动词作为特征词Rel 。抽
取谓语动词的ADV 孩子节点,寻找每个孩子节点的POB 孩子节点,如果词性为
Nh 则抽取该人名作为Nh2。
例如:1947年蒋英于上海与钱学森结婚。
图3.4 两人名同处主语且无直接关系
“蒋英”与谓语动词“结婚”是SBV 关系,“钱学森”与“蒋英”和“结婚”
没有直接关系,而是通过“与”字联系起来。“钱学森”的父亲词是“与”,POB
关系 ->“与”的父亲词是“结婚”,ADV 关系。抽取“结婚”作为Rel 。
(二) 两个及以上人名位于宾语,主语没有人名
(1) 当前人名与父亲词的关系是COO 且父亲词的词性为Nh 。
COO 关系一般无法直接抽取出两个人的关系。例如:出生于1938年10月24
日,出身“刘氏三杰”艺术之家(伯父刘半农、刘天华、父亲刘北茂)
。因为句
中没有直接表示宾语人名关系的词。
(2) 当前人名Nh1与父亲词的为ATT 关系。
找到当前人名的父亲词,以及当前词的祖父词,如果祖父词为NH 则抽取父
亲词为特征词Rel ,祖父词为NH2。
例如:“他的妻子以往被认为是洪秀全的妹妹洪宣娇。”
图3.4 两人名同处宾语语且为修饰关系
由图5可以看出,这句话的谓语动词是“认为”,“洪宣娇”是整个句子的
宾语,“洪秀全的妹妹”是用来修饰“洪宣娇”的,所以抽取修饰成分中的名词
作为关系特征词Rel 。
(3) 当前词Nh1与父亲词是SBV 关系,寻找父亲词的宾语
● 如果父亲词是“有”,抽取“有”的宾语人名作为Nh2, 抽取Nh2的修饰
性名词作为关系特征词Rel 。
● 如果父亲词不是“有”,则父亲词作为关系特征词Rel ,宾语人名作为Nh2。
例如:2010年6月结婚,先生为台湾职业篮球明星,达欣工程篮球队队长张智
峰,两人育有一儿子张恩睿。抽取“有”的宾语“张恩睿”作为Nh2,修饰名
词“儿子”作为Rel 。
(三) 一个人名位于主语,一个人名位于宾语
● 当谓语动词不为“有”的情况,直接抽取谓语动词。例如“子路师从
孔子。”
(1) 两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词。
图3.5 两人名分处主宾语
在这句中主语“子路”,谓语“师从”,宾语“孔子”,这里突出体现两人关
系的词便是谓语动词“师从”,这里体现的是一种师生关系。
当谓语动词为“有”时,抽取宾语人名前一个修饰名词。
例如:“马福寿有一个儿子马春元。”,谓语动词为“有”,抽取“马春元”前
面的修饰名词“儿子”。这里需要判断“儿子”的父亲词是不是马春元,他们之
间的关系是不是ATT ,以及儿子是否为名词。
(2) 两人名实体不同时分别为主语和宾语,这其中又包括三种情况:
1)一个人名实体为主语,另一个人名实体不为主语对应的谓语动词的宾语,
例如“金溥聪有两段婚姻,元配生有长子金毓保。”主语是“金溥聪”,谓语动词
“有”,宾语“婚姻”,但是第二个“原配生有长子金毓保”中的“有”与第一个
谓语动词“有”是并列关系,且“金毓保”是第二个有的宾语动词,这时候需要
提取的是“金毓保”的修饰名词“长子”。
2)一个人名实体不为主语,另一个人名实体为宾语,例如“在抗大期间,
与女学生员凌漪结婚,并生有长子刘煜南。”,这句话句法分析得出“刘煜南”是
句子中动词“有”的宾语,但是句中没有主谓关系。
3)两者并不正好是句子的主语和宾语,这种情况一般很难抽取到两个人名
实体之间的关系
(四) 两个及以上人名位于主语,一个人名位于宾语
需要判断两个主语人名的关系以及主语人名和宾语人名的关系。首先,两个
主语人名实体的关系处理方式与只有两个及以上人名位于主语,宾语没有人名的
处理方法相同。然后判断主语的两个人名实体与宾语人名实体的关系,主语人名
与宾语人名实体的关系除了表3.1所描述的施事与受事关系抽取谓语动词作为特
征词以外。还有下面的情况:
例如:“王欣和丈夫李小强育有儿子李立。”
图3.5 两人名处于主语,一个处于宾语
王欣和李小强的关系是COO ,但是这里不可以提取谓语动词“育”作为两
者的关系,而应该提取李小强的修饰词“丈夫”作为关系特征词。对于王欣和李
小强与宾语“李立”的关系则应该抽取“李立”的修饰词“儿子”作为特征词而
不是谓语动词“育”。当然如果将“育有”同时抽取出来即“王欣,育有,李立”
这样处理也是可以的,但是最好还是抽取“儿子”,这样的表达更为精确。
(五) 一个人名位于主语,两个及以上人名位于宾语
需要判断两个宾语人名的关系,以及主语人名和宾语人名之间的关系。首先
判断主语人名是否和宾语人名有重复,如果宾语人名等于2,主语人名与宾语人
名有重复则按照主语人名数为1,宾语人名数为2的方法进行抽取。如果没有重
复则先判断宾语人名之间的关系,再分别判断主语人名与宾语人名间的关系。
(六) 两个及以上人名位于主语,两个及以上人名位于宾语
此时需要判断两个主语人名的关系以及两个主语人名和宾语人名的关系,以
及宾语人名之间的关系。
对于这种情况,首先需要判断主语人名和宾语人名是否有重复,如果有重复且如
果主语人名等于2,宾语人名等于2,宾语人名中有一个与主语人名重复,则处
理方式与类别2处理方式相同。如宾语两个人名都与主语相同,则按照类别1
的方法来处理。
如果主语人名和宾语人名没有重复,则对任两个人名的关系都要进行判断。
关系分类说明:对于在句法分析中无明显关系且通过上面的模式也提取不出来任
何关系的但是出现在同一个句子中的都将其归类为共现关系。其余的关系根据关
系特征词来进行分类。
解决分词与命名实体识别人名界限不一样的问题:
句法分析时处理的都是一个一个的词,但是人名实体在经过命名实体识别的
时候外文名和三个字的人名很容易本分词两个或者多个词,这就存在一个界限不
匹配的问题。
在模式匹配通过之后需要抽取出三元组,在这种情况下如
果认为当前词就是人名是不合理的,因为抽取出来的是一个不完整的人名。为了
解决这问题,决定将命名实体识别的结果按照词的顺序对每个词进行编号,同时
给每个人名实体赋予两个属性。将一句话中所有的人名实体的
开始id 和结束id 都记录。这样在进行模式匹配的程序中读入之前记录的每个人
名实体的开始id 和结束id 并放入哈希表中,当模式匹配完成需要使用人名的时
候,就可以根据哈希表中的内容来判断当前词是否是一个完整的人名,当开始
id 等于结束id 时说明当前词是一个人名可以直接进行输出,如果当前词不是一
个完整的词的时候就输出从开始id 到结束id 所有的词,也就是一个完整的人名。
第4章 实验设计和实现
4.1 实验设计
本章主要讲述基于依存模式的人物关系抽取的实验设计与实现,系统结构图
如下所示:
图4.1 基于依存模式抽取的框架图
图4.1左半部分是从测试数据中抽取出人物关系的依存模式,测试数据是从百度
百科中人工挑选的具有人物关系的数据,人物关系密度较大且易于观察和抽取模
式。
图4.1右半部分是在大数据下应用已有的依存模式进行匹配,抽取出人物关系三
元组的候选集,然后使用核心特征词列表对候选集进行过滤与分类,最后生成人
物关系数据库。大数据的来源主要是百度百科人物网页、人名日报。核心特征词
的来源主要是人工统计、同义词词林。
4.3实验结果
实验结果说明:从百度百科以及人民日报的语料中抽取出大量的关系三元组
物1,关系,人物2>,从同义词词林中选取六类特征关系词来分别表示六类关系,
分别是家庭关系、工作关系、师生关系、朋友关系、合作关系。所抽取得到的六
类关系数据的数量如表4.1所示,其中家庭关系所占比重最大。
第5章 总结
人物关系抽取是人物信息抽取和人物网络构建的重要环节,有着广泛的应用
前景。随着互联网的迅速发展和信息的迅速增长,对于信息抽取来说,必须适应
从快速增长的海量互联网文本中迅速获取结构化信息。本文以构建人物关系知识
库为目的,对中文人物关系抽取进行了研究。
本文的主要工作和创新点如下:
关系是指两个人名实体经过句法分析之后有弧直接相连,一般来讲当两个人
名实体是并列关系的时候他们之间是直接关系。间接关系指两个人名实体之
间要以其它的词作为桥梁来连接,比如经过谓语动词、宾语名词修饰词、主
语名词修饰词等等。
(2) 提出了人名实体在句中的位置分布关系,将人名实体的数量与句子的句法
结构相结合进行分类,主要分为六个类别,这六个类别可以囊括所有的人名
实体之间的关系。
(3) 本文通过统计的方法发现模式,再根据模式匹配从大规模语料中抽取大量
的任务关系来构建人物关系数据库。
尽管己经取得了阶段性的成果,但是还存在许多方面需要继续改进和研究:
(1) 这是基于统计的方法,模式统计可能不完整,也就可能导致数据不完整。
(2) 本文主要的研究是基于依存分析的结果,所以对句法分析的正确率依耐性
很强,如果句法分析的结果不正确那么将直接影响最后的结果。
(3) 对于数据过滤采用的是关系特征词来进行过滤,这对关系特征词列表的要
求很高,关系特征词太多会导致数据过滤不干净,太少会大大减少数据量。
(1) 提出在句法分析中人名实体关系分类主要分为直接关系和间接关系。直接
致 谢
大学生活已经进入尾声,再回首曾经走过的岁月,心中是踏实的,因为我没
有辜负时光,我用我的方式在不断努力和进步。毕业设计的完成锻炼了我深入思
考问题的能力和独立解决问题的能力。
诚挚的感谢我的论文指导老师北京语言大学大数据与语言教育研究所的于
东老师,我的大学四年与老师您是分不开的,谢谢您对我的指导和栽培。在您的
指导和帮助下,我顺利的完成了毕业设计。从开题到最后论文的完成,每一次遇
到问题老师都帮助我耐心的解答。
感谢荀恩东教授,荀老师严谨的工程思维,开阔的视野,和对细节的严格要
求,让我受益良多。
感谢博士学长饶高琦和硕士学长唐共波在我的论文完成的过程中遇到困难
这次毕业设计让我收获颇多,我相信我今天所学习到知识在以后的某一天
都将发挥作用。我也将持续保持对学习的热情,努力做一个热爱思考热爱学习的
人。最后,衷心地感谢指导老师于东的悉心指导和鼓励以及学院老师和同学的帮
助。
时给我提供的帮助。
参考文献
[1] 黄勋,游宏梁,于洋. 关系抽取技术研究综述[J]. 现代图书情报技术. 2013-11.
[2] 廉营. 基于语义角色标注的微博人物关系抽取[D]. 计算机科学与技术. 2013.
[3] 潘云. 基于中文在线资源的人物关系抽取研究[D]. 计算机应用技术. 2015.
[4] 彭成. 面向社会网络的人物关系抽取研究[D]. 苏州大学. 2013.
[5] 黄晨,钱龙华,周国栋,朱巧明. 基于卷积树核的无指导中文实体关系抽取研究[J]. 中
文信息学报,2010, 04:11-17.
[6] 曾道建,来斯惟,张元哲,刘康,赵军. 面向非结构化文本的开放式实体属性抽取[J].
江西师范大学学报(自然科学版) ,2013, 03:279-283+305.
[7] 于东,刘春花,田悦. 基于远距离监督和模式匹配的职衔履历属性抽取[J]. 计算机
应用,2016,36(2):455-459,464.
学 士 学 位 论 文
论文题目: 基于人物信息嵌入的人物关系挖掘
姓 名: 刘春花
学 号: BK1231209
院 系: 信息科学学院
专 业: 计算机科学与技术
指导教师: 于东
二〇一六 年 六 月
北京语言大学学士学位论文 (2012
级)
论 文 题 目: 基于人物信息嵌入的人物关系挖掘
院 系: 信息科学学院
专 业: 计算机科学与技术
学 生 姓 名: 刘春花
指导教师姓名: 于东
论文完成日期: 2016年6月
论文原创性声明
本人郑重声明:所呈交的论文,是本人在导师指导下,独立进行的研究工作及取得的研究成果。尽我所知,除了文中已经注明引用和致谢的地方外,论文中不包含其他人或集体已经发表或撰写的研究成果,也不包含为获得北京语言大学或其他教育机构的学位或证书所使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
签 名:________
日 期:________
学位论文知识产权权属声明
本人郑重声明:本人所呈交论文,是在导师指导下所完成的,论文知识产权归属北京语言大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版本,允许论文被查询和借阅,将论文编入有关数据库进行检索等。本人离校后发表或使用学位论文或与该论文直接相关的学术论文获成果时,署名仍为北京语言大学。
签 名:________
导师签名:________
日 期:________
目 录
摘要......................................................................... I ABSTRACT.................................................................... II
第一章 绪论.................................................................. 1
1.1 研究背景 . ............................................................ 1
1.2 研究现状 . ............................................................. 1
1.2.1 关系抽取的研究现状 . ............................................... 1
1.2.2 人物关系抽取的研究现状 . ............................................ 2
1.3 本文研究内容 . .......................................................... 3
1.4 论文框架 . .............................................................. 4
第2章 中文信息处理相关工具介绍 . ............................................. 4
2.1 相关工具 . .............................................................. 4
2.1.1 哈工大语言技术平台(LTP )功能简介 . ................................ 4
2.1.2 哈工大语言技术平台(LTP )的使用 . .................................. 7
2.2 Perl语言概述 ......................................................... 8
2.3 正则表达式 . ............................................................ 9
第3章 基于规则和依存句法抽取人物实体关系 . ................................... 9
3.1 基于半结构化数据上的规则抽取 . ......................................... 9
3.2 基于依存句法的人物关系抽取 . ........................................... 10
3.2.1 预处理 . ......................................................... 11
3.2.2人名实体在句中的位置分布 .......................................... 11
3.2.3 人名实体关系分类 . ................................................. 12
3.3 基于句法分析的模式提取 . ............................................... 12
第4章 实验设计和实现 . ...................................................... 18
4.1 实验设计 . ............................................................. 18
4.3实验结果 .............................................................. 19
第5章 总结................................................................. 20
致 谢....................................................................... 21
参考文献.................................................................... 22
基于人物信息嵌入的人物关系挖掘
作者:刘春花 指导教师:于东
摘要:互联网技术的高速发展使得网络上的爆发式增长,如何从这些大规模文本中获取有价值的信息并且将其转化为结构化的数据用于计算机的识别与处理是目前研究的重要课 题。开放信息抽取是指从无结构化的文本中抽取出指定的信息,比如实体识别、实体关系抽取,然后将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理。 本文研究的是人物关系抽取。本文以新闻网页和百度百科人物页面作为数据源,使用哈工大语音技术平台作为中文自然语言处理的工具,对无结构化的文本中出现的人物关系进行抽取,以构建人物关系数据库。本文重点研究下面几个问题。
首先,本文以句子作为限定,认为一句话中如果包含两个及以上人名,那么这句话中则有可能有包含人物关系的特征词。还对人名实体在句中的位置分布进行了研究,将人名实体的数量与句子的句法结构相结合进行分类。
其次,通过对中文语句进行句法分析,根据句法分析的结果,统计人名实体与关系特征词之间的依存模式,进而使用这些依存模式大数据上进行人物关系的抽取。
最后, 使用人物关系特征词列表对抽取的人物关系三元组进行过滤和关系分类。
关键词:实体关系抽取,人物关系抽取,依存模式挖掘
Th e Figure Relationship Mining Based On Character
Information Embedding
Author: Liu Chunhua Tutor :Yu Dong
ABSTRACT: The rapid development of Internet technology makes the explosive growth of the Internet, how to extract the valuable information from these large-scale texts and convert them into structured data for the study of natural language processing is an extremely important issue. Open information extraction means extract structured information from unstructured text, such as the recognition of entities, and the extraction of their relationships. And then filled in these structured data to the database for further analysis and processing.
This paper studies the extraction of relationship between the characters. In this paper, news pages and Baidu Encyclopedia character page are used as a data source, using LTP as technology platform as the Chinese natural language processing tools, extracting the relationship between humans, and finally build character relational database. This paper focuses on the following questions.
Firstly, the sentence will be taken into consideration if it contains two or more name entities, because this sentence is likely to contain a characteristic relationship between the characters. Also, the location and distribution of the name entities in the sentence were studied, the syntactic structure of sentences and the number of name entities were combined to classification.
Secondly, according to the results of the Chinese statement syntax analysis, collect the patterns between name entities and characteristics of their relationship, and then use these patterns to extract the relationships between the characters on big data.
Finally, filter and classify the triples extracted from the pattern by the list of feature words.
KEY WORDS:Entity relation extraction, relation extraction figures, dependent pattern mining
第一章 绪论
1.1 研究背景
随着计算机的不断发展以及互联网在政治、经济、医疗等领域广泛地应用,作为社会最集中的参与者人的信息在互联网中也越来越多。关于人的各种各样的信息存在于互联网的各个地方。要想实现数字化的社会则必须学会如何有效的掌控和利用有效的信息,排除掉无用的信息。正是在人类互联网数据急剧增长的社会,对于有效信息的抽取和分类是一件需要迫切解决的问题,所以开放信息抽(Open Information Extraction, Open IE)取成为了研究的重要课题。社交网络的兴起更是让人物之间的联系变得更加丰富,人物之间的关系也就更加复杂。在这样的背景下,探索人物之间的关系便成为了研究的热点。此外,人物搜索引擎和社会关系网络构建中一个重要的基础技术是人物关系的抽取。本文主要研究的是人物领域中的人物关系抽取。网络上的人物信息中蕴含着大量关于人物之间关系的信息,抽取人物关系信息来构建人物关系知识库并构成社会关系拓扑图是可行的。目前己有基于搜索引擎的人物关系抽取系统如微软开发的“人立方关系搜索”,雅虎的“雅虎关系”等都是专注社会网络分析这方面的研究 。人物关系抽取对于人物领域内的知识图谱构建、人物关系推理以及人物行为分析至关重要。 因此人物关系抽取这一任务是有需求、有意义、有前景的。
1.2 研究现状
1.2.1 关系抽取的研究现状
在大数据的背景下,信息抽取(Information Extraction )的需求不断上升。信息抽取主要包括实体抽取、事件抽取、关系抽取。关系抽取的发展与各种类型的评测会议关联很大比如MUC (Message Understanding Conference)、ACE (Automatic Content Extraction)、TAC (Text Analysis Conference)。
实体抽取是关系抽取和事件抽取的基础,旨在从文本中识别出人名、地名、机构名、日期、数额等实体信息。世界由一个一个的实体组成,但是这些实体之间不是孤立的,他们之间有着千万缕的联系,正是这些联系使得这个世界变得更加具有逻辑、更加复杂和精彩。所以要在实体识别的基础上,抽取出这些实体之
间存在的语义关系,才能赋予实体最真实的意义。这项抽取实体间语义关系的任务,即关系抽取。实体间的关系可被形式化描述为关系三元组,其中Entity1,和Entity2是实体类型,Relation 是关系描述,两个实体之间的Relation 可以是多个。
关系抽取即从自然语言文本中抽取出关系三元组,从而提取文本信息。在美国国防部高级计划委员会资助的MUC 会议MUC-6上,关系抽取的概念作为模板元素任务的一部分引入,MUC-7是最后一次MUC 会议,在本次会议上首次引入模板关系抽取任务(template relation task ,包含3种关系) 。随着MUC 会议的停办,美国国家标准与技术研究院(National工nstitute ofStandards and Technology,KIST) 组织展开了自动内容抽取(ACE )测评会议。ACE 会议旨在研究自动抽取出新闻语料中的实体,关系以及事件等内容。关系抽取属于ACE 会议定义的关系检测与识别任务。ACE 会议提供了关系抽取的评测语料,也构建了详细的实体关系类型,将关系抽取任务进一步细化。ACE 会议于2009年并入美国国家标准与技术研究组织的国际文本分析会议(TAC)后,关系抽取并入知识库构建(Knowledge Base Population, KBP)领域的槽填充(Slot-Filling)。
关系抽取旨在从海量的非结构化的文本中抽取出结构化的知识。这些结构化的知识对于知识库的自动构建、知识图谱的补全和推理以及搜索引擎等领域都具有重大的意义。通过关系抽取技术,从无结构的自然语言文本中抽取出格式统一的关系数据,有助于计算机快速处理大规模文本数据,提高处理效率; 通过抽取实体之间的语义关系,能够建立多个实体之间广泛的信息关联,有助于建立领域本体,促进知识图谱的构建; 通过深入挖掘和分析自然语言文本中的语义关系信息,在问答系中能够进一步理解和匹配用户的查询意图,从而为用户提供更精准的搜索服务也更容易结合深度学习和情感分析来使人类更加了解自我了解这个社会。由此可见,关系抽取技术不仅仅具有深刻的理论意义,而且具有广阔的应用前景。
关系抽取经典的抽取系统主要有:FASTUS 抽取系统、REES 系统、DIPR 和Snowball 系统、OpenIE 系统。
1.2.2 人物关系抽取的研究现状
人物关系抽取可看作是实体关系抽取的的一个重要的分支,只是将关系抽取中的命名实体限定为人名。人物由于其特定的存在而与他人之间产生的关系称为人物关系。人物关系抽取有其特定的模式和特征。在之前的研究中,人物关系抽取的方法主要有三种:
1)采用关系描述模式。该方法一般事先定义好需要抽取的人物关系类型,统计
或自动生成关系描述词,接着收集人物关系描述模式或者有序列的关系特征词模式,利用这些模式匹配出更多的人物实例。
2)利用机器学习算法训练分类器。这类方法摒弃关系模式方法的强制匹配,
而是选择有效特征,在标记关系数据的基础上,选择合适的机器学习算法(常用算法是SVM 、改进SVM 等) 进行训练,得到关系分类器用以关系识别。
3)自动生成关系描述短语。这类方法一般采用聚类算法,无需定义人物关系类型,而是将两个人名实体的共现句中能表达关系的短语作为关系类型。
从当前人物关系抽取技术的研究现状来看,人物关系抽取的方法研究中仍然 存在着以下几点所面临的挑战: 1)关于是否预先定义人物关系类型。2) 关于人物关系在识别时被遗漏。3) 关于无效的人名实体共现句。在存在关系的人名实体共现句中,会有部分共现句对该人物关系的描述是没有明显作用,是无效的。或者共现句中存在两个以上的人名实体,多种关系类型,那么这些共现句对其中任意一个关系类型都没有太多有效性。
1.3 本文研究内容
本文主要采用的是关系描述模式的方法对人物关系进行抽取。结合依存句法分析的结果对人物关系进行依存模式抽取,再在大规模的语料中利用依存模式抽取人物关系,构建人物关系数据库。
人物关系通常包含三个部分(人物1,关系,人物2),因此人物关系挖掘需要解决两个主要的问题:人物关系识别(识别具有两个关系的人物),人物关系挖掘(挖掘出两个人之间的具体关系)。本文针对这两个问题的解放方法如下:
第一个问题人物关系识别包含两个子问题:一是如何识别一个人名,这是命名实体识别中的任务,现在各类中文语言分析工具已较为成熟,可以直接使用分析工具分析的结果;二是如何识别两个人是有关系的,这个问题一般简单地可以根据两个人人名的共现来说明两个人之间有关系,也可以根据词向量计算词与词之间的相似度来说明两个人之间有关系。词向量的计算会显得稍微麻烦,并且与一个人名相似的词可能不仅仅是人名,即使是人名也还需要进行排除看是否在我所处理的句子中。本文认为如果两个人名实体出现在同一个句子中则说明他们是有关系的。
第二个问题人物关系挖掘,主要是在句子中包含两个人名以上的情况下,判断句子中是否存在描述两个人名关系的词,如果两个人名满足某种依存模式则将两个人人名和关系抽取出来。这个过程其实是寻找人物实体之间存在关系
的模式都有哪些,找到这些模式也就可以通过这些模式抽取出人物之间的关系。
抽取出正确的关系依存模式之后,将这些模式应用到大数据中进行抽取,进而使用抽取结果来构建数据库。
1.4 论文框架
本文主要针对实体关系抽取中的人物关系抽取进行研究,采取的方法是基于依存句法模式。本文主要分为5章。
第1章为绪论,本章首先介绍论文选题的背景和意义,然后关系抽取和人物关系抽取的研究现状,最后介绍了本文的研究内容。
第2章对中文信息处理相关工具介绍,本章主要介绍了哈工大语言技术平台(LTP )的功能和使用,以及Perl 语言和正则表达式。这是本实验所使用的中文分析工具和编程语言。
第3章介绍基于规则和基于依存句法来抽取人物实体之间的关系,主要介绍了人名实体在句中的位置分布、人名实体关系分类以及基于句法分析的模式提取。
第4章为实验设计与实现,介绍实验流程、实验数据、实验结果。
第5章为总结与展望,主要介绍本文的成果以及对未来研究的思考。
第2章 中文信息处理相关工具介绍
2.1 相关工具
2.1.1 哈工大语言技术平台(LTP )功能简介 语言技术平台(Language Technology Platform ,LTP )是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于XML 的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 (包括 分词、词性标注、命名实体识别、依存句法分析、语义角色分析、语义依存分析),应用程序接口,可视化工具,以及能够以网络服务使用的语言技术云。
语言技术平台的整体构造和功能如表2.1所示:
表2.1 LTP 总体架构表
义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。
表2.2 LTP 依存句法分析标注关系
图2.1 LTP 的demo 示意图
图2.1的上部分是分词、词性标注、命名实体识别、依存句法分析和语义角色标注的结果,下部分是语义依存分析的结果。图的上部分中整句话被分为10个词(包括标点符号),每个词下方都有词性标注,词性标注下方绿色部分是命名实体识别,命名实体下面橙色部分是语义角色标注,词的方带有弧线的是依存句法分析,弧线上红色的字母是两个词之间的关系。
2.1.2 哈工大语言技术平台(LTP )的使用 LTP 的使用:本文所使用过的LTP 主要有两种方式,分别为在线版和单机版。
在线版的使用需要用到的是一个API 接口,该接口是用户注册语言云的服务后获得的标识。对于每句话生成一个URL ,然后将URL 传递给服务器让服务器解析完以后再传回本机,生成URL 需要的三个参数包括待解析句子、待解析的模式、输出格式形式。待解析的模式包括五个,即分词(ws )、词性标注(pos )、命名实体识别(ner )、依存句法分析(dp )、语义角色分析(srl )。输出格式形式包括四种xml(XML格式) ,json(JSON格式) ,conll(CONLL格式) ,plain(简洁文本格式) 。这种方式主要提供了HTTP GET和HTTP POST两种方式的调用接口。
单机版既可以在Linux 系统下的使用也可以在windows 系统下的使用。但是LTP 是依赖编译工具CMAKE 构建项目的,所以在使用LTP 之前需要首先安装CMAKE ,CMAKE 可以从官网上进行下载。LTP 的使用必须包括两部分内容:LTP 项目文件和LTP 模型文件,他们都可以从LTP 的官网上技术支持栏目下(从源代码编译安装LTP )获得。
在线版和单机版的比较:在线版的好处在于可以输出的格式很多,方便后续处理;缺点是每一条句子都要经过服务器的来回传输,速度很慢,并且需要在有网的情况下才可以进行解析。单机版的优点在于可以同时开启多个线程进行处理,速度很快,使用方便,只需要修改一些参数就可以直接使用;缺点是输出格式较为单一,上文在命名实体识别处所举的例子便是单机版解析后的结果,各个待解析模式之间是有依赖的,比如说词性标注是依赖于分词文件的,语义角色标注是依赖于命名实体识别和依存句法分析的,当文件较大时只能一步一步的来而不能同时进行。
2.2 Perl语言概述 在Perl 语言出现(1987年) 之前,在类似Unix 这样的系统中,几乎所有的文本处理程序都是通过awk, sed, shell 和C 语言或包含这些语言的文本工具来完成的。Perl 语言的创立者Larry Wall 想要创建一种语言,使得能够非常简单和高效地处理文本,并且该语言不但具有C 语言的特征和能力而且具有awk 、shell 等脚本语言的特性,于是Perl 语言应运而生。
Perl语言的特点有:
解释性脚本语言:Perl程序不需要预先编译即可由Perl 解释器对源代码程序解释执行。
模块化和可重用性:Perl的函数库被称作“模块”。“模块”可以被Perl 程序共享,Perl 程序可以随意使用在“模块”中定义的函数接口。
可嵌入和可扩展:Perl代码可以很容易地被嵌入到C/ C++语言的应用程序中; 同时,C/ C++例程也可以很容易地被嵌入到Perl 的应用程序中。遵循POSIX 标准:POSIX标准的全称是“可移植的操作系统可扩展标准”。遵循POSIX 标准,有利于把Perl 程序移植到不同的操作系统平台上。
安全性好:Perl通过setuid 来跟踪数据流,因而其安全性要比C 语言更高,避免了许多用C 语言实现时可能出现的安全漏洞。
适合多种操作系统平台:现在,Unix,Linux 及Windows 等操作系统都支持Perl, 甚至一些嵌入式系统也开始支持Perl 语言。
适合多种操作系统平台:现在,Unix,Linux 及Windows 等操作系统都支持Perl, 甚至一些嵌入式系统也开始支持Perl 语言。
免费的自由软件:Perl是典型的自由软件之一,因而赢得了世界上用户的广泛支持和积极参与,这也使得Perl 语言的功能越来越完善和强大。
Perl 语言中精髓的部分应该是正则表达式和它的各种各样的模块,应用甚广。
2.3 正则表达式 由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus ,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。
正则表达式,在Perl 中通常被称为模式(pattern)。模式就是一个概括性标示字符串的方式,模式中定义了一些特殊含义的符号,应用这些符号的不同组合达到描述一组字符串的目的。模式就是字符串的一组特征。Perl 利用特征来描述一组字符串,而不需列出字符串的具体内容。正则表达式的任务是判断一个字符串中是否与给定模式匹配,然后返回“是”或“否”,并且在需要的时候通过变量获取与给定模式匹配的字符子串。Perl 中内建了一个功能强大的正则表达式引擎。正则的主要格式为:~/模式/。在处理文本文件的过程中,利用正则表达式过滤筛选出所需内容是一种非常高效的手段。
在对网页进行剔除不必要的标签时常常使用正则表达式进行匹配,在本文中后面涉及的提取人名实体间的模式的过程中也将用到正则表达式。
第3章 基于规则和依存句法抽取人物实体关系
3.1 基于半结构化数据上的规则抽取
百度百科的人物网页中,带有InfoBox 的网页有三万多个,infobox 指的是百度百科网页中有结构的那一部分,描述了一个人的基本信息,比如姓名,国籍,任职以及家庭关系等栏目,从这些栏目中抽取家庭关系这一栏的属性作为关系的备选集。
下面以周恩来的人物页面的InfoBox 为例进行详细的描述实验思路:
图3.1 InfoBox 抽取的属性值
(1) 每个页面共有的属性是姓名,观察网页源码并抽取出每个网页的“人名_
百度百科”中的人名,作为人物三元组中人物
1。如上图,提取周恩来作为人物1的值。
(2) 观察在属性中是否含有描述家庭关系的词,比如:妻子、配偶、女儿等等
这一系列的词,如果存在则抽取该属性作为中的关系;抽取该属性的属性值作为中人物2
如上图,提取“配偶”作为关系的值,“邓颖超”作为人物2的值。
观察百度百科InfoBox 的信息整理得到百度百科关于描述家庭关系的属性词的描述的列表,再根据同义词词林将该列表进行扩展最后得到的列表中的词条数为123条。
(3) 对从InfoBox 中得到的数据进行清洗和整理。抽取的数据中包含有
1,家庭成员,(关系1,人物2;关系2,人物3)>这样类似的数据,要将其整理成为三元组的形式。
3.2 基于依存句法的人物关系抽取
人物关系抽取属于实体关系抽取范畴,实体关系抽取可采用基于模式提取的 方法,一般基于模式提取的实体关系抽取包括一下几个主要处理过程: 预处理、模式提取、关系抽取。
预处理主要包括语料清洗与整理、中文分词、词性标注、命名实体识别、语句选取。模式提取则是先对小部分语料进行观察,寻找人物与人物之间、人物与关系之间的模式类别,然后将这些模式应用到大的数据集中进行测试,观察测试结果的正确率,并从测试结果中不断完善和更新模式。
关系抽取的过程主要是结合句
中人物人名所处的位置。
3.2.1 预处理
1)语料清洗与整理。从百度百科爬得的网页中包含大量的HTML 标记以及一些杂乱的符号以及乱码的句子要将其处理掉。在此过程中的数据清洗和格式化非常重要,一盘采用正则表达式来抽取有效的文本信息,因此前后起止标记的确定需要谨慎,既需要保留有价值的语料信息,又需要去除大量冗余网页标记。而且抽取的信息当中往往又含有大量的网页特效标记或超链信息标记,而不仅仅是简单地抽取起止标记中间的内容。所以在用正则表达式进行匹配的时候需要仔细的观察,根据网页段落类型的不同设计不同的正则表达式。
2) 中文分词。3)词性标注。4) 命名实体识别。
5)语句选取。利用大数据可以完成自然语言处理的很多任务,但是在完成这些任务当中如果选取具有明显特征的数据作为数据集会在提高数据的稠密度的同时提高模型的运算速度,这样对于结果更有利。在人物关系抽取的任务上,我们需要抽取的是三元组 ,那么在选取语句时一句话中至少应该包含两个人名才有可能作为关系抽取的备选集。所以根据命名实体识别的结果来选取一句话中至少包含两个人名的句子。这样可以筛选掉许多无意义无价值的语句,选出对后续处理有价值的语句,以此可以减少后期的工作量。
3.2.2人名实体在句中的位置分布
人名实体在句中的位置关系与人名的句法成分是息息相关的。对一句包含两个人名以上的句子进行句法分析,可以抽取出一个句子的主干部分,句子结构可以简单地划分为主谓宾。人名实体是名词性词语,名词性处于可以位于句中的主语和宾语位置。根据句法分析的结果,可以就两个人的人名所处的位置对句子进行分类。
在文章[2]中,作者将人名实体位置的特征情况分为九种。如表3.1所示:
表3.1 人名实体位置的特征情况
在做实验的过程中发现这样的分类是存在一些问题的,因为每句话的特征标示只有一个,这样的分类在单句的应用上效果不错。但是在实际情况中,中文的表达很复杂,在复句中当一句话中包含多个人名时,可能主语子句有两个以上人名实体,宾语也有多个人名实体,一个特征标示不能描述这个句子中人名之间的关系,这时句子应该具有多个特征标示。所以提出一种新的划分方法,对于一个句子需要同时考虑主语子句的实体之间的关系、宾语子句之间实体的关系以及主语人名实体和宾语人名实体之间的关系。由人名实体的个数以及在句子中位置可以做如下分类:
表3.2 人名实体的个数在句子中位置的分类表
3.2.3 人名实体关系分类
结合文章[2]中人名实体位置的特征情况的分类,研究过程中进一步总结出出两个人名实体之间的关系主要分为两个大的类别,类别一是两个人名实体有直接的关系,直接关系一般是并列关系;类别2是间接关系,指两个人名实体通过一个或者几个词相连,间接关系一般是两个人名实体通过谓语动词、修饰名词、谓语动词的并列动词将两个人名。
直接关系可以直接采用表3.1所描述的方法进行模式抽取就可以。对于简介关系,经过统计发现在能够体现人物关系的语句中,谓语动词常常为几个特定的词,比如“是”“有”。当谓语动词是这些词的时候关系特征词的选取则需要再进一步考虑主语名词或者宾语名词。例如“孔子是颜回的老师”,此时的特点是“孔子”作为第一人名实体是句子的主语,谓语是“是”,宾语是“老师”,而第二人名实体“颜回”是修饰宾语“老师”的,此时很明显被修饰的宾语名词“老师”是最具特征的词。反过来“颜回的老师是孔子”,也具有这一特征。
3.3 基于句法分析的模式提取
通过统计的方法发现模式,再根据模式匹配从大规模语料中抽取大量的任务
关系来构建人物关系数据库,关系数据库中每个三元组为 。
由表1已经知道人名实体在句中的位置与核心特征词抽取的关系。在实验过程中发现对一句话进行依存句法分析以后,一个人名与父亲节点的关系的属性值主要有四种:SBV 、ATT 、COO 、POB 。统计结果表明其中SBV 的最多,其次ATT ,然后是COO 和POB (其中POB 的对于人物关系抽取没什么意义)。
在实验过程中统计得到的模式如下:
(一) 两个及以上人名位于主语,宾语没有人名
对每个人名进行判断,判断父亲词和的关系,如果父亲词和谓语动词为SBV 关系,这说明父亲词为该句子的主语,抽取父亲词为Nh2。
● 当谓语动词不为“是”时,抽取谓语动词作为特征词Rel 。
例如:1914年,孔祥熙与宋霭龄于日本结婚。抽取谓语动词“结婚”作为特征词。
利用哈工大语言云进行句法分析得到结果如下: (1) 当前人名Nh1与父亲词的关系是COO 且父亲词的词性为Nh 。
图3.2 两人名同处主语且是并列关系的句法分析图
由图3.2知句中“孔祥熙”与“宋霭龄”两个人名实体都是位于主语,且“孔祥熙”与“宋霭龄”之间的关系弧的标注是“COO ”,即并列关系,句子的谓语动词也就是HED 所在弧指向的词语“结婚”。此时提取“结婚”作为Rel 。
● 当谓语动词为“是”时,提取谓语动词的宾语名词作为特征词。
例如:马时亨与王培琪曾是新法书院同学。提取“同学”作为Rel 。
(2) 当前人名与父亲词的关系是ATT ,父亲词的父亲词的词性为Nh 。 抽取当前词的父亲词为特征词,父亲词的父亲词作为Nh2。
例如“曹大元的妻子杨晖也是著名围棋棋手。”这句话中需要抽取的三元组是 。
使用句法分析得到结果如下:
图3.3 两人名同处主语且是修饰关系的句法分析图
图3.2中杨晖为主语,曹大元处于主语的修饰成分中,此时在修饰成分“曹大元
的妻子”中“妻子”这个名词便是最具特征的词,体现的是一种夫妻关系,因此
抽取“妻子”作为Rel 。
(3) 当前人名Nh1与父亲词的关系是SBV ,抽取谓语动词作为特征词Rel 。抽
取谓语动词的ADV 孩子节点,寻找每个孩子节点的POB 孩子节点,如果词性为
Nh 则抽取该人名作为Nh2。
例如:1947年蒋英于上海与钱学森结婚。
图3.4 两人名同处主语且无直接关系
“蒋英”与谓语动词“结婚”是SBV 关系,“钱学森”与“蒋英”和“结婚”
没有直接关系,而是通过“与”字联系起来。“钱学森”的父亲词是“与”,POB
关系 ->“与”的父亲词是“结婚”,ADV 关系。抽取“结婚”作为Rel 。
(二) 两个及以上人名位于宾语,主语没有人名
(1) 当前人名与父亲词的关系是COO 且父亲词的词性为Nh 。
COO 关系一般无法直接抽取出两个人的关系。例如:出生于1938年10月24
日,出身“刘氏三杰”艺术之家(伯父刘半农、刘天华、父亲刘北茂)
。因为句
中没有直接表示宾语人名关系的词。
(2) 当前人名Nh1与父亲词的为ATT 关系。
找到当前人名的父亲词,以及当前词的祖父词,如果祖父词为NH 则抽取父
亲词为特征词Rel ,祖父词为NH2。
例如:“他的妻子以往被认为是洪秀全的妹妹洪宣娇。”
图3.4 两人名同处宾语语且为修饰关系
由图5可以看出,这句话的谓语动词是“认为”,“洪宣娇”是整个句子的
宾语,“洪秀全的妹妹”是用来修饰“洪宣娇”的,所以抽取修饰成分中的名词
作为关系特征词Rel 。
(3) 当前词Nh1与父亲词是SBV 关系,寻找父亲词的宾语
● 如果父亲词是“有”,抽取“有”的宾语人名作为Nh2, 抽取Nh2的修饰
性名词作为关系特征词Rel 。
● 如果父亲词不是“有”,则父亲词作为关系特征词Rel ,宾语人名作为Nh2。
例如:2010年6月结婚,先生为台湾职业篮球明星,达欣工程篮球队队长张智
峰,两人育有一儿子张恩睿。抽取“有”的宾语“张恩睿”作为Nh2,修饰名
词“儿子”作为Rel 。
(三) 一个人名位于主语,一个人名位于宾语
● 当谓语动词不为“有”的情况,直接抽取谓语动词。例如“子路师从
孔子。”
(1) 两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词。
图3.5 两人名分处主宾语
在这句中主语“子路”,谓语“师从”,宾语“孔子”,这里突出体现两人关
系的词便是谓语动词“师从”,这里体现的是一种师生关系。
当谓语动词为“有”时,抽取宾语人名前一个修饰名词。
例如:“马福寿有一个儿子马春元。”,谓语动词为“有”,抽取“马春元”前
面的修饰名词“儿子”。这里需要判断“儿子”的父亲词是不是马春元,他们之
间的关系是不是ATT ,以及儿子是否为名词。
(2) 两人名实体不同时分别为主语和宾语,这其中又包括三种情况:
1)一个人名实体为主语,另一个人名实体不为主语对应的谓语动词的宾语,
例如“金溥聪有两段婚姻,元配生有长子金毓保。”主语是“金溥聪”,谓语动词
“有”,宾语“婚姻”,但是第二个“原配生有长子金毓保”中的“有”与第一个
谓语动词“有”是并列关系,且“金毓保”是第二个有的宾语动词,这时候需要
提取的是“金毓保”的修饰名词“长子”。
2)一个人名实体不为主语,另一个人名实体为宾语,例如“在抗大期间,
与女学生员凌漪结婚,并生有长子刘煜南。”,这句话句法分析得出“刘煜南”是
句子中动词“有”的宾语,但是句中没有主谓关系。
3)两者并不正好是句子的主语和宾语,这种情况一般很难抽取到两个人名
实体之间的关系
(四) 两个及以上人名位于主语,一个人名位于宾语
需要判断两个主语人名的关系以及主语人名和宾语人名的关系。首先,两个
主语人名实体的关系处理方式与只有两个及以上人名位于主语,宾语没有人名的
处理方法相同。然后判断主语的两个人名实体与宾语人名实体的关系,主语人名
与宾语人名实体的关系除了表3.1所描述的施事与受事关系抽取谓语动词作为特
征词以外。还有下面的情况:
例如:“王欣和丈夫李小强育有儿子李立。”
图3.5 两人名处于主语,一个处于宾语
王欣和李小强的关系是COO ,但是这里不可以提取谓语动词“育”作为两
者的关系,而应该提取李小强的修饰词“丈夫”作为关系特征词。对于王欣和李
小强与宾语“李立”的关系则应该抽取“李立”的修饰词“儿子”作为特征词而
不是谓语动词“育”。当然如果将“育有”同时抽取出来即“王欣,育有,李立”
这样处理也是可以的,但是最好还是抽取“儿子”,这样的表达更为精确。
(五) 一个人名位于主语,两个及以上人名位于宾语
需要判断两个宾语人名的关系,以及主语人名和宾语人名之间的关系。首先
判断主语人名是否和宾语人名有重复,如果宾语人名等于2,主语人名与宾语人
名有重复则按照主语人名数为1,宾语人名数为2的方法进行抽取。如果没有重
复则先判断宾语人名之间的关系,再分别判断主语人名与宾语人名间的关系。
(六) 两个及以上人名位于主语,两个及以上人名位于宾语
此时需要判断两个主语人名的关系以及两个主语人名和宾语人名的关系,以
及宾语人名之间的关系。
对于这种情况,首先需要判断主语人名和宾语人名是否有重复,如果有重复且如
果主语人名等于2,宾语人名等于2,宾语人名中有一个与主语人名重复,则处
理方式与类别2处理方式相同。如宾语两个人名都与主语相同,则按照类别1
的方法来处理。
如果主语人名和宾语人名没有重复,则对任两个人名的关系都要进行判断。
关系分类说明:对于在句法分析中无明显关系且通过上面的模式也提取不出来任
何关系的但是出现在同一个句子中的都将其归类为共现关系。其余的关系根据关
系特征词来进行分类。
解决分词与命名实体识别人名界限不一样的问题:
句法分析时处理的都是一个一个的词,但是人名实体在经过命名实体识别的
时候外文名和三个字的人名很容易本分词两个或者多个词,这就存在一个界限不
匹配的问题。
在模式匹配通过之后需要抽取出三元组,在这种情况下如
果认为当前词就是人名是不合理的,因为抽取出来的是一个不完整的人名。为了
解决这问题,决定将命名实体识别的结果按照词的顺序对每个词进行编号,同时
给每个人名实体赋予两个属性。将一句话中所有的人名实体的
开始id 和结束id 都记录。这样在进行模式匹配的程序中读入之前记录的每个人
名实体的开始id 和结束id 并放入哈希表中,当模式匹配完成需要使用人名的时
候,就可以根据哈希表中的内容来判断当前词是否是一个完整的人名,当开始
id 等于结束id 时说明当前词是一个人名可以直接进行输出,如果当前词不是一
个完整的词的时候就输出从开始id 到结束id 所有的词,也就是一个完整的人名。
第4章 实验设计和实现
4.1 实验设计
本章主要讲述基于依存模式的人物关系抽取的实验设计与实现,系统结构图
如下所示:
图4.1 基于依存模式抽取的框架图
图4.1左半部分是从测试数据中抽取出人物关系的依存模式,测试数据是从百度
百科中人工挑选的具有人物关系的数据,人物关系密度较大且易于观察和抽取模
式。
图4.1右半部分是在大数据下应用已有的依存模式进行匹配,抽取出人物关系三
元组的候选集,然后使用核心特征词列表对候选集进行过滤与分类,最后生成人
物关系数据库。大数据的来源主要是百度百科人物网页、人名日报。核心特征词
的来源主要是人工统计、同义词词林。
4.3实验结果
实验结果说明:从百度百科以及人民日报的语料中抽取出大量的关系三元组
物1,关系,人物2>,从同义词词林中选取六类特征关系词来分别表示六类关系,
分别是家庭关系、工作关系、师生关系、朋友关系、合作关系。所抽取得到的六
类关系数据的数量如表4.1所示,其中家庭关系所占比重最大。
第5章 总结
人物关系抽取是人物信息抽取和人物网络构建的重要环节,有着广泛的应用
前景。随着互联网的迅速发展和信息的迅速增长,对于信息抽取来说,必须适应
从快速增长的海量互联网文本中迅速获取结构化信息。本文以构建人物关系知识
库为目的,对中文人物关系抽取进行了研究。
本文的主要工作和创新点如下:
关系是指两个人名实体经过句法分析之后有弧直接相连,一般来讲当两个人
名实体是并列关系的时候他们之间是直接关系。间接关系指两个人名实体之
间要以其它的词作为桥梁来连接,比如经过谓语动词、宾语名词修饰词、主
语名词修饰词等等。
(2) 提出了人名实体在句中的位置分布关系,将人名实体的数量与句子的句法
结构相结合进行分类,主要分为六个类别,这六个类别可以囊括所有的人名
实体之间的关系。
(3) 本文通过统计的方法发现模式,再根据模式匹配从大规模语料中抽取大量
的任务关系来构建人物关系数据库。
尽管己经取得了阶段性的成果,但是还存在许多方面需要继续改进和研究:
(1) 这是基于统计的方法,模式统计可能不完整,也就可能导致数据不完整。
(2) 本文主要的研究是基于依存分析的结果,所以对句法分析的正确率依耐性
很强,如果句法分析的结果不正确那么将直接影响最后的结果。
(3) 对于数据过滤采用的是关系特征词来进行过滤,这对关系特征词列表的要
求很高,关系特征词太多会导致数据过滤不干净,太少会大大减少数据量。
(1) 提出在句法分析中人名实体关系分类主要分为直接关系和间接关系。直接
致 谢
大学生活已经进入尾声,再回首曾经走过的岁月,心中是踏实的,因为我没
有辜负时光,我用我的方式在不断努力和进步。毕业设计的完成锻炼了我深入思
考问题的能力和独立解决问题的能力。
诚挚的感谢我的论文指导老师北京语言大学大数据与语言教育研究所的于
东老师,我的大学四年与老师您是分不开的,谢谢您对我的指导和栽培。在您的
指导和帮助下,我顺利的完成了毕业设计。从开题到最后论文的完成,每一次遇
到问题老师都帮助我耐心的解答。
感谢荀恩东教授,荀老师严谨的工程思维,开阔的视野,和对细节的严格要
求,让我受益良多。
感谢博士学长饶高琦和硕士学长唐共波在我的论文完成的过程中遇到困难
这次毕业设计让我收获颇多,我相信我今天所学习到知识在以后的某一天
都将发挥作用。我也将持续保持对学习的热情,努力做一个热爱思考热爱学习的
人。最后,衷心地感谢指导老师于东的悉心指导和鼓励以及学院老师和同学的帮
助。
时给我提供的帮助。
参考文献
[1] 黄勋,游宏梁,于洋. 关系抽取技术研究综述[J]. 现代图书情报技术. 2013-11.
[2] 廉营. 基于语义角色标注的微博人物关系抽取[D]. 计算机科学与技术. 2013.
[3] 潘云. 基于中文在线资源的人物关系抽取研究[D]. 计算机应用技术. 2015.
[4] 彭成. 面向社会网络的人物关系抽取研究[D]. 苏州大学. 2013.
[5] 黄晨,钱龙华,周国栋,朱巧明. 基于卷积树核的无指导中文实体关系抽取研究[J]. 中
文信息学报,2010, 04:11-17.
[6] 曾道建,来斯惟,张元哲,刘康,赵军. 面向非结构化文本的开放式实体属性抽取[J].
江西师范大学学报(自然科学版) ,2013, 03:279-283+305.
[7] 于东,刘春花,田悦. 基于远距离监督和模式匹配的职衔履历属性抽取[J]. 计算机
应用,2016,36(2):455-459,464.