有关自动分词软件!高分相赠!

CSDN - 技术社区 -

主  题:有关自动分词软件!高分相赠!

作  者:zhizhuwang (蜘蛛)

信 誉 值:96

所属论坛:C/C++ C

问题点数:0

回复次数:7

发表时间:2002-12-05 22:05:53Z

有那位知道自动分词软件的原理

回复人: imwj(江江王) ( ) 信誉:99 2002-12-05 22:16:52Z 得分:0

?分什么词

Top

回复人: typet1999(有钞票咯) ( ) 信誉:100 2002-12-05 22:23:37Z 得分:0

?你要基于统计的还是基于语料的?

Top

回复人: TheAres(班门斧) ( ) 信誉:100 2002-12-06 00:34:23Z 得分:0

?自动分词技术总起来说现在还没有一种比较完美的解决方案.现在普遍的问题就是识别率太低(从各个搜索引擎就能看出来).有人作过一些研究,比如:串频统计和词形匹配相结合的汉语自动分词系统作者 刘 挺 吴 岩 王开铸作者单位 哈尔滨工业大学计算机系  1 50 0 0 1http://naxun.sjtu.edu.cn/articles/zhongwenxinxixuebao/comment.asp?article_name=串频统计和词形匹配相结合的汉语自动分词系统http://www5.nlc.gov.cn/disk4/xuehui/2000nianhui/xsjl-2xm.htm你自己去www.google.com,用"自动分词"查一下,有不少有用的东西.

Top

回复人: linxi075(林夕) ( ) 信誉:100 2002-12-06 10:07:38Z 得分:0

?根据定义分隔符(可以自己定义)分词:如空格,Tab,分号,逗号,引号等,碰到分隔符,就认为是一个单词即可,很简单的,自己都可以写一个简单点的试试。

Top

回复人: typet1999(有钞票咯) ( ) 信誉:100 2002-12-10 21:42:18Z 得分:0

?可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、 基于理解的分词方法和基于统计的分词方法。 1、 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大 的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词 ) 。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先 匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程 相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械 分词方法如下; 1) 、正向最大匹配 2) 、逆向最大匹配 3) 、最少切分(使每一句中切出的词数最小) 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法 结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般 很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错 误率为1/245。(--这可能是因为汉语的中心语靠后的特点。)但这种精度还远远不能满 足实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大 基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词 作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和 切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进 机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助 ,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的 准确率。 对于机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m),即 Automatic Segmentation Model。其中, d:匹配方向,+1表示正向,-1表示逆向; a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字; m:最大/最小匹配标志,+1为最大匹配,-1为最小匹配。 例如,ASM(+, -, +)就是正向减字最大匹配法(即MM方法),ASM(-, -, +)就是逆向减字 最大匹配法(即RMM方法),等等。对于现代汉语来说,只有m=+1是实用的方法。 用这种模型可以对各种方法的复杂度进行比较,假设在词典的匹配过程都使用顺序查找 和相同的计首字索引查找方法,则在不记首字索引查找次数(最小为log = 12 - 14)和词典读入内存时间的情况下,对于典型的词频分布,减字匹配ASM(d,-,m)的 复杂度约为12.3次,增字匹配ASM(d,+,m)的复杂度约为10.6。 另外,还可以证明,早期曾流行一时的"切分标志字串"预处理方法是一个毫无必要的技术, 它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切 分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记 歧义字段的任何信息。因此,在近来的分词系统中,已经基本上废弃了这种"切分标志" 预处理方法。 2、基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续 过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基 本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧 义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控 部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧 义进行判断,即它模拟了人对句子的理解过程。 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段。 3、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可 信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。 定义两个字的互现信息为: M(X,Y)=logP(X,Y)/P(X).P(Y),其中 P(X,Y)是汉字X、Y 的相邻共现概率,P(X) 、P(Y)分别是X、Y在语料中出现的概率。互现信息体现了汉字 之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了 一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做 无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度 高、但并不是词的常用字组,例如"这一"、"之一"、"有的"、"我的"、"许多的"等, 并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本 的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将 串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了 无词典分词结合上下文识别生词、自动消除歧义的优点。

Top

回复人: TheAres(班门斧) ( ) 信誉:100 2002-12-20 23:44:10Z 得分:0

?唉,这种帖子,回答的还满有兴致,贴主都忘了. up一下.

Top

回复人: zhizhuwang(蜘蛛) ( ) 信誉:96 2002-12-21 09:25:44Z 得分:0

?还要解决C中汉语字符的的处理问题,我对这个想的不是很清楚那里有源码,我想找来研究研究!

Top

该问题已经结贴

CSDN - 技术社区 -

主  题:有关自动分词软件!高分相赠!

作  者:zhizhuwang (蜘蛛)

信 誉 值:96

所属论坛:C/C++ C

问题点数:0

回复次数:7

发表时间:2002-12-05 22:05:53Z

有那位知道自动分词软件的原理

回复人: imwj(江江王) ( ) 信誉:99 2002-12-05 22:16:52Z 得分:0

?分什么词

Top

回复人: typet1999(有钞票咯) ( ) 信誉:100 2002-12-05 22:23:37Z 得分:0

?你要基于统计的还是基于语料的?

Top

回复人: TheAres(班门斧) ( ) 信誉:100 2002-12-06 00:34:23Z 得分:0

?自动分词技术总起来说现在还没有一种比较完美的解决方案.现在普遍的问题就是识别率太低(从各个搜索引擎就能看出来).有人作过一些研究,比如:串频统计和词形匹配相结合的汉语自动分词系统作者 刘 挺 吴 岩 王开铸作者单位 哈尔滨工业大学计算机系  1 50 0 0 1http://naxun.sjtu.edu.cn/articles/zhongwenxinxixuebao/comment.asp?article_name=串频统计和词形匹配相结合的汉语自动分词系统http://www5.nlc.gov.cn/disk4/xuehui/2000nianhui/xsjl-2xm.htm你自己去www.google.com,用"自动分词"查一下,有不少有用的东西.

Top

回复人: linxi075(林夕) ( ) 信誉:100 2002-12-06 10:07:38Z 得分:0

?根据定义分隔符(可以自己定义)分词:如空格,Tab,分号,逗号,引号等,碰到分隔符,就认为是一个单词即可,很简单的,自己都可以写一个简单点的试试。

Top

回复人: typet1999(有钞票咯) ( ) 信誉:100 2002-12-10 21:42:18Z 得分:0

?可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、 基于理解的分词方法和基于统计的分词方法。 1、 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大 的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词 ) 。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先 匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程 相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械 分词方法如下; 1) 、正向最大匹配 2) 、逆向最大匹配 3) 、最少切分(使每一句中切出的词数最小) 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法 结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般 很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错 误率为1/245。(--这可能是因为汉语的中心语靠后的特点。)但这种精度还远远不能满 足实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大 基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词 作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和 切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进 机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助 ,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的 准确率。 对于机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m),即 Automatic Segmentation Model。其中, d:匹配方向,+1表示正向,-1表示逆向; a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字; m:最大/最小匹配标志,+1为最大匹配,-1为最小匹配。 例如,ASM(+, -, +)就是正向减字最大匹配法(即MM方法),ASM(-, -, +)就是逆向减字 最大匹配法(即RMM方法),等等。对于现代汉语来说,只有m=+1是实用的方法。 用这种模型可以对各种方法的复杂度进行比较,假设在词典的匹配过程都使用顺序查找 和相同的计首字索引查找方法,则在不记首字索引查找次数(最小为log = 12 - 14)和词典读入内存时间的情况下,对于典型的词频分布,减字匹配ASM(d,-,m)的 复杂度约为12.3次,增字匹配ASM(d,+,m)的复杂度约为10.6。 另外,还可以证明,早期曾流行一时的"切分标志字串"预处理方法是一个毫无必要的技术, 它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切 分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记 歧义字段的任何信息。因此,在近来的分词系统中,已经基本上废弃了这种"切分标志" 预处理方法。 2、基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续 过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基 本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧 义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控 部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧 义进行判断,即它模拟了人对句子的理解过程。 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段。 3、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可 信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。 定义两个字的互现信息为: M(X,Y)=logP(X,Y)/P(X).P(Y),其中 P(X,Y)是汉字X、Y 的相邻共现概率,P(X) 、P(Y)分别是X、Y在语料中出现的概率。互现信息体现了汉字 之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了 一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做 无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度 高、但并不是词的常用字组,例如"这一"、"之一"、"有的"、"我的"、"许多的"等, 并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本 的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将 串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了 无词典分词结合上下文识别生词、自动消除歧义的优点。

Top

回复人: TheAres(班门斧) ( ) 信誉:100 2002-12-20 23:44:10Z 得分:0

?唉,这种帖子,回答的还满有兴致,贴主都忘了. up一下.

Top

回复人: zhizhuwang(蜘蛛) ( ) 信誉:96 2002-12-21 09:25:44Z 得分:0

?还要解决C中汉语字符的的处理问题,我对这个想的不是很清楚那里有源码,我想找来研究研究!

Top

该问题已经结贴


相关文章

  • 一种基于TFIDF方法的中文关键词抽取算法
  • p 徐文海, 温有奎(西安电子科技大学 经济管理学院, 陕西 西安 710071) 一种基于TFI DF 方法的中文关键词抽取算法 摘 要:本文在海量智能分词基础之上, 提出了一种基于向量空间模型和TF I DF 方法的中文关键词抽取算法. ...查看


  • 信息安全管理要求
  • ********** 信息安全管理要求 为明确履行的安全管理责任,确保互联网络与信息安全,营造安全洁净的网络环境,根据<全国人大常委会关于维护互联网安全的决定>.<中华人民共和国计算机信息系统安全保护条例>.< ...查看


  • 毕业设计题目-老师-公布doc-东南大学软件学院
  • 东南大学软件学院本科毕业设计题目 序号题目主要内容时间要求和人数人数其他要求指导教师1基于异步动态OTP的身份验证协议算法实现 一.学习部分: 1.分析目前同步OTP的发展状态以及逐步被异步OTP取代的原因: 2.异步OTP的基本原理和发展 ...查看


  • 语言文字信息处理整理
  • 一. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.填空选择目前计算机系统的工作原理是由冯·诺依曼提出来的.在微型计算机存储器中,不能修改其存储内容的是ROM .HTTP 是一种超文本传输协议.Symbian 操作系统属于嵌入 ...查看


  • 网络舆情分析技术的研究
  • 网络舆情分析研究 舆情是指在一定的社会空间内,围绕中介性社会事件的发生.发展和变化,民众对社会管理者产生和持有的社会政治态度.它是较多群众关于社会中各种现象.问题所表达的信念.态度.意见和情绪等等表现的总和.网络舆情形成迅速,对社会影响巨大 ...查看


  • 考研英语写作怎么提高
  • 考研英语写作怎么提高 每当提到考研英语写作的复习方法时,得到的答案无非是背不同题材的模板.积累高级词汇等.确实,有了模板能帮助考生快速构建作文框架,有了高级词汇能帮助丰富作文内容.但是不要忘了,你在背模板和词汇的同时,别人也在背.那么,考研 ...查看


  • 西安工程大学本科专业情况简介
  • 西安工程大学本科专业情况简介 纺织工程专业 专业概况:本专业是我校特色专业之一,国家级特色专业建设点.省级特色专业建设点.省级名牌专业.该专业涵盖了纤维材料.纺织品设计.纺织品加工设备.纺织生产质量控制.纺织品经营与贸易.计算机应用等多方面 ...查看


  • 韩国留学,所学专业和就业前景到底是怎么样的?(二)
  • 韩国留学,所学专业和就业前景到底是怎么样的?(二) 很多同学对于自己去韩国留学所学的专业对应的未来就业前景的概念是很模糊的,今天,蔚蓝韩国留学的专业指导老师栗老师,就来为大家详细列出这些专业所对应的就业前景,究竟是什么样的.韩国留学有哪些热 ...查看


  • 工学门类专业代码及专业名称选
  • 机械设计制造及其自动化(机械制造工艺与设备.机械 设计及制造.汽车与拖拉机.机车车辆080301 工程.流体传动 及控制.真空技术及设备.机械电子工程.设备工程与 管理.林木与木工机 械)② 材料成型及控制工程(金属材料与热处理.热加工工艺 ...查看


热门内容