基于机器学习的专利价值评估方法研究
赵蕴华1,张
静1,李
岩2,殷绪成2
(1.中国科学技术信息研究所,北京100038;2.北京科技大学,北京100083)
摘
要:本文从机器学习技术的角度出发,首先对专利价值评估指标进行分析和选择,其次采用机
器学习方法中决策树、支持向量机和神经网络三种算法对样本进行训练并测试,最后对测试结果进行了分析。实验结果表明,机器学习方法在专利价值评估中起到一定作用,并存在潜在的方法用以更好地解决专利价值评估问题。
关键词:专利价值;评估指标;决策树;支持向量机;神经网络中图分类号:G306
文献标识码:A
文章编号:1007-7634(2013)12-15-04
StudyonEvaluationforPatentValueBasedonMachineLearning
ZHAOYun-hua1,ZHANGJing1,LIYan2,YINXu-cheng2
(1.ChinaInformationInstituteofScienceandTechnology,Beijing100038,China;
Abstract:Inthispaper,westudytheevaluationforpatentvaluebasedonmachinelearningtechnology.
2.UniversityofScience&Technology,BeijingBeijing100038,China)
First,theevaluationindexischosen.Then,threemethods,includingdecisiontree,supportvectorma⁃learningplaysaroleinevaluation,andthereexistsapotentialapproachtobetteraddresstheproblemfortheevaluationofpatentvalue.
Keywords:patentvalue;evaluationindex;decisiontree;supportvectormachine;neuralnetwork
chineandneuralnetwork,aretrainedandtested.Atlast,weanalyzetheresult,whichshowsthatmachine
1引言
者或者使用者带来利益的具体表现。从专利所处的状态进行划分,专利价值可分为静态价值和动态价值【2】。静态价值是指处于相对静止状态的专利,其中包括正在研究的专利和尚未使用的专利等的价值;动态价值是指正在使用中的专利的价值。
本文将针对专利文本自身的价值进行评估和分析,其关键问题在于对评估指标进行筛选,以及对评估方法进行选择。
当今世界国际经济竞争日益激烈,知识产权成为最有价值的财产形式,其主要原因在于知识产权是全球经济的生产要素和保持科技创新领先的基础。专利作为知识产权最重要的承载者,已成为推动科技进步、提高创新能力不可或缺的因素,在世界各地抢占科技和经济制高点的竞争中起着重要的作用。专利的价值成为衡量国家及企业市场竞争力和综合实力的重要指标,也成为专利实施转化的重要因素,更是完善专利交易市场的基础【1】。专利价值是指在现实市场条件下,专利可以给其所有
收稿日期:2013-06-21
2专利价值评估的指标选择
由于专利价值评估具有时效性、模糊性和预期收入不确定性的特点,因此很难对其进行评估。最
作者简介:赵蕴华(1967-),女,辽宁人,副研究馆员,主要从事信息咨询和信息资源研究.
-15-
佳方法是通过定性定量相结合的方式量化判断依据,最终得到比较真实的数据【3】。在评估之前,需要先对专利数据进行格式上的规范,以及评估指标的选择。文中数据样本来自美国专利商标局(USP⁃TO)的数据,如图1所示为数据项分布示意图,数据数据项都是有用的,其中存在着一些冗余信息,因此首先要对所有的数据进行筛选,然后再对其进行合理的量化。在数据项中,有一项是由百分数来描述的,称为强度(Strength),从0到100%分为十段,用以表示专利的重要程度,因此本文将其作为对专利价值高低的评判标准,这相当于将专利的价值分为十类,每一类表示一个价值程度,用一个相应的数值来表示。
项大致可分为数值和非数值两类,但并不是所有的
称类数据包括专利权人、专利权人原始格式、专利权人规范格式、上级组织、发明人,即Assignee、Orig⁃Inventors,是记录单位或个人名称信息的数据,由于inalAssignee、NormalizedAssignee、UltimateParent、这些数据项无法直接转化为数值的形式,因此暂不采用该类数据。编号类数据是指用于区分专利及其关系的标识,包括专利的公开号、申请号、所有IPC分类号、首IPC分类号、美国分类号、专利家族IPC、FirstIPC、USClassification、FamilyID,其中公开
号,即PublicationNumber、ApplicationNumber、All号和申请号是专利在申请和被公开时所获得的标识,具有唯一性,IPC分类号和美国分类号是专利所属技术领域的分类标识,因此在进行信息评价时,先不使用此项数据,可在日后进行专门的研究,在该类数据项中,专利家族号是专利家族的标识,专利家族是多次申请、公布或具有基本相同内容的一组专利文献,因此可以将专利家族号转化为具有此家族号的专利数量(即专利家族大小)作为专利价值评估的一个指标。日期类数据包括优先权日期、申请日期、公开日期、预计失效日期,即PriorityDate、FileDate、PublicationDate、Est.ExpirationDate,可将日期的先后以及日期间隔时间作为评估tations、Source,但这些数据项对专利价值的重要性不强,或者无法进行数值化,因此暂不能成为专利价值评估的指标。
图1专利的数据项分布示意图
如图1所示,数值类数据包括三项,分别为权利要求项数量、专利被引用数量、引用其他专利数量,即Claims、BackwardReferences、ForwardReferences,其中权利要求项数量是指专利要求书中所申请的权利要求项的数目,专利被引用数量是指该项专利被其他专利引用的数目,引用其他专利数量是指该项专利引用了其他专利的数量。专利引用是指新的发明创造对现有专利技术的引用,它表征了这些现有技术对后续发明的重要性【4】,如图2所示,为数值类数据与专利强度的对比图,横坐标表示专利按强度由低到高分级的离散排列,图中曲线分别表示专利的权利要求项、专利被引用和引用其他专利的实际数量,其上方的折线表示由低到高的十个强度按适当比例放大后的等高线,曲线中的折线表示每个强度中相应指标的平均值。由对比图可以看出,虽然同一强度内指标的数值分布存在较大方差,但其与强度存在一定的总体上升趋势,因此以上三项数值指标可能会对专利价值的评估起到重要的作用。
非数值类的数据大致又分为名称类、编号类、日期类和其它类这四类数据,这些数据主要是由字符和数字的组合来描述一些指定的信息。其中,名-
指标。其它类数据包括类别代码、标题、公开国别、引用、源,即KindCode、Title、PublicationCountry、Ci⁃
图2数值类数据与专利强度对比图
通过选取专利价值评价指标,可以更科学的对专利本身进行定量研究,所得出的结论具有国际可比性,因此获得广泛的重视和应用【5】。
3算法原理
评估方法的选择是专利价值评估的关键问题,在上述对评估指标的筛选中,可以把专利价值评估视为一个强度分类问题。在机器学习中有很多用于解决分类问题的方法,本文尝试使用决策树、支
持向量机和神经网络三种方法来解决专利价值评
估问题。
3.1决策树算法
如图3所示,SVM的原理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。理论上,支持向量机能够实现对线性可分数据的最优分类。
3.3神经网络BP算法
决策树是一种广泛应用于事务决策的工具,它的中间节点和叶子节点分别可表示中间过程的输入数据和最终输出的分类模式,它是从根至叶不断筛选正确输出的过程。决策树算法应用于不同的领域,它具有可以代替统计过程来发现数据,抽取文本,寻找缺失数据等功能【6】。
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树算法构造决策树来发现数据中蕴涵的分类规则。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。其经典算法有ID3与决策树算法。
C4.5算法,随着研究的深入,也不断的提出改进的
3.2支持向量机
神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
神经网络BP(BackPropagation)算法【8】的学习过程包括信号的正向传播和误差的反向传播。在信号的正向传播时,输入数据从输入层传入,经过各隐层逐层处理后,传向输出层。如果出现输出层的输出与标准值不相符的情况,则转入误差的反向传播阶段。误差的反向传播是指将误差以某种形式回传至隐层并最终到达输入层的过程,在传播过程中将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号将用于修正各单元权值。信号的正向传播和误差的反向传播周而复始地进行,在此过程中,各层的权值均在不断的调整,直至误差减少到可接受的程度,或完成预先设定的学习次数。
4实验及结果分析
本文选用美国专利商标局(USPTO)的部分专利数据作为实验分析的数据样本来源,包括了1703条内容完整的专利信息数据。实验平台为WindowsServer2003,内存8GB,CPU为四核2.00GHz,软件环境为Matlab2011。实验的输入项分别为权利要求项数量、专利被引用数量、引用其他专利数量、专利家族大小、专利的优先权日期、申请日期、公开日期和预计失效日期的时间间隔共七项,输出项为专利强度,共分为十个等级,即十类输出。
在实验样本中,随机抽取1350条专利信息数据将其作为训练集,其余353条数据作为测试集。首先,尝试采用决策树算法进行实验。决策树算法通过对数据样本的学习,构建了针对该专利数据的决策树,如图4所示是输入指标构建的决策树示意图,决策树算法善于寻找数据分类的主要因素,图中x6表示专利被引数量、x7表示引用其他专利数量、x5
支持向量机(supportvectormachines,SVM)【7】是建立在统计学习理论VC维理论和结构风险最小化原理基础上的机器学习方法。在解决小样本、非线性和高维模式识别等问题中,支持向量机表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题。同时,它具有坚实的理论基础,简单明了的数学模型,因此,在模式分类、回归分析、函数估计、时间序列预测等领域都得到了长足的发展。
图3支持向量机原理示意图
表示权利要求项数量,从树型结构可以发现,
专利
-17-
被引数量的大小是整个决策树的根节点,这再一次表明专利价值的最大决定因素是专利被引数量,其次是引用其他专利数量和权利要求项数量。
5结语
本文尝试从机器学习技术的角度出发,对专利价值的评估方法进行了探索。首先,分析和选取了专利信息数据中有利于价值评估的指标,并将部分指标进行了数值化处理;然后,采用了决策树算法、支持向量机算法和神经网络算法对整理后的指标
图4决策树结构示意图
将实验得到的专利强度分类结果与专利中给出的专利强度进行比较,如图5所示,折线为实际的测试结果,折线为专利信息中给出的强度等级。在每个强度等级中测试结果出现了很大的波动,虽然识别率仅为33.92%,但仍然呈现了总体的对应趋势。
数据进行专利强度分类实验;最后,实验结果表明,上述方法对专利价值的评估存在可能,但需要对评估指标和评估方法进行深入的探讨和研究。在今后工作中,应考虑指标的进一步挖掘工作,将更多更有效的非数值属性加入到指标集中,参与专利价值的评估。还应考虑在常用算法基础之上,尝试更有效的机器学习方法进一步研究,从而获得新的解决思路和方法。另外,专利的诉讼对专利的价值也有一定的影响,本文仅是从专利文本自身内容的角度出发对其价值进行评估,下一步还可以就结合法律状态信息的专利价值评估展开研究。
图5决策树算法对专利数据样本的测试结果图
参考文献
1桂2张3王
婕,张兆峰,雷孝平,李
鹏.基于法律状态与被引
在使用支持向量机进行分类时,采用了十次交叉验证的方式来对支持向量机的参数进行调整和设定,再用训练好的支持向量机对测试样本进行评估分类。采用神经网络进行分类的分类器是由输入层、一个隐层和输出层构成的三层神经网络,其中隐层设置了30个隐层节点。训练后的神经网络对测试样本的最终识别率为52%。
以上实验结果表明,影响专利价值的最主要的因素为专利被引用数量,其次是引用其他专利数量和权利要求项数量,这也体现了专利的价值之所在。在三种算法的尝试中得到的识别率并不高,但仍然呈现出了一定的总体趋势。在本文的指标选取中,忽略了一些非数值型的数据,这些数据可能含有更有效的评估专利价值的信息,但目前没有找到好的解决办法将其转化成可利用的数值指标;同时,本文使用了三种常用的机器学习方法对专利信息数据进行实验,在机器学习领域中,可能存在更好的方法用于解决专利价值评估的问题。
信息整合的专利价值评估研究[J].数字图书馆论坛,2010,(9):26-30.
涛,李
命与战略,2006,(8):23-26.
刚.企业知识产权价值及其评价研究[J].革
价值评估方法研究[J].经济论坛,2012,(10):131-136.研究[J].中国发明与专利,2013,(1):58-61.管理研究,2008,(6):115-117.
静,吴玉春,孙大帅.基于决策树模型的非商业化专利
欢.利用专利引证信息评价专利质量的改进
4马天旗,刘
5汪雪峰,刘晓轩,朱东华.专利价值评价指标研究[J].科学6ArundhatiN,AamirN,SiddharthP,BalwantA.Overviewof
ControlandSystemGraduateResearchColloquium,2011:7丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述8周
[J].电子科技大学学报,2011,(1):2-10.2008,(2):
90-92.
政.BP神经网络的发展现状综述[J].山西电子技术,
(责任编辑:赵立军)
37-42.
useofdecisiontreealgorithmsinmachinelearning[C].IEEE
-
基于机器学习的专利价值评估方法研究
赵蕴华1,张
静1,李
岩2,殷绪成2
(1.中国科学技术信息研究所,北京100038;2.北京科技大学,北京100083)
摘
要:本文从机器学习技术的角度出发,首先对专利价值评估指标进行分析和选择,其次采用机
器学习方法中决策树、支持向量机和神经网络三种算法对样本进行训练并测试,最后对测试结果进行了分析。实验结果表明,机器学习方法在专利价值评估中起到一定作用,并存在潜在的方法用以更好地解决专利价值评估问题。
关键词:专利价值;评估指标;决策树;支持向量机;神经网络中图分类号:G306
文献标识码:A
文章编号:1007-7634(2013)12-15-04
StudyonEvaluationforPatentValueBasedonMachineLearning
ZHAOYun-hua1,ZHANGJing1,LIYan2,YINXu-cheng2
(1.ChinaInformationInstituteofScienceandTechnology,Beijing100038,China;
Abstract:Inthispaper,westudytheevaluationforpatentvaluebasedonmachinelearningtechnology.
2.UniversityofScience&Technology,BeijingBeijing100038,China)
First,theevaluationindexischosen.Then,threemethods,includingdecisiontree,supportvectorma⁃learningplaysaroleinevaluation,andthereexistsapotentialapproachtobetteraddresstheproblemfortheevaluationofpatentvalue.
Keywords:patentvalue;evaluationindex;decisiontree;supportvectormachine;neuralnetwork
chineandneuralnetwork,aretrainedandtested.Atlast,weanalyzetheresult,whichshowsthatmachine
1引言
者或者使用者带来利益的具体表现。从专利所处的状态进行划分,专利价值可分为静态价值和动态价值【2】。静态价值是指处于相对静止状态的专利,其中包括正在研究的专利和尚未使用的专利等的价值;动态价值是指正在使用中的专利的价值。
本文将针对专利文本自身的价值进行评估和分析,其关键问题在于对评估指标进行筛选,以及对评估方法进行选择。
当今世界国际经济竞争日益激烈,知识产权成为最有价值的财产形式,其主要原因在于知识产权是全球经济的生产要素和保持科技创新领先的基础。专利作为知识产权最重要的承载者,已成为推动科技进步、提高创新能力不可或缺的因素,在世界各地抢占科技和经济制高点的竞争中起着重要的作用。专利的价值成为衡量国家及企业市场竞争力和综合实力的重要指标,也成为专利实施转化的重要因素,更是完善专利交易市场的基础【1】。专利价值是指在现实市场条件下,专利可以给其所有
收稿日期:2013-06-21
2专利价值评估的指标选择
由于专利价值评估具有时效性、模糊性和预期收入不确定性的特点,因此很难对其进行评估。最
作者简介:赵蕴华(1967-),女,辽宁人,副研究馆员,主要从事信息咨询和信息资源研究.
-15-
佳方法是通过定性定量相结合的方式量化判断依据,最终得到比较真实的数据【3】。在评估之前,需要先对专利数据进行格式上的规范,以及评估指标的选择。文中数据样本来自美国专利商标局(USP⁃TO)的数据,如图1所示为数据项分布示意图,数据数据项都是有用的,其中存在着一些冗余信息,因此首先要对所有的数据进行筛选,然后再对其进行合理的量化。在数据项中,有一项是由百分数来描述的,称为强度(Strength),从0到100%分为十段,用以表示专利的重要程度,因此本文将其作为对专利价值高低的评判标准,这相当于将专利的价值分为十类,每一类表示一个价值程度,用一个相应的数值来表示。
项大致可分为数值和非数值两类,但并不是所有的
称类数据包括专利权人、专利权人原始格式、专利权人规范格式、上级组织、发明人,即Assignee、Orig⁃Inventors,是记录单位或个人名称信息的数据,由于inalAssignee、NormalizedAssignee、UltimateParent、这些数据项无法直接转化为数值的形式,因此暂不采用该类数据。编号类数据是指用于区分专利及其关系的标识,包括专利的公开号、申请号、所有IPC分类号、首IPC分类号、美国分类号、专利家族IPC、FirstIPC、USClassification、FamilyID,其中公开
号,即PublicationNumber、ApplicationNumber、All号和申请号是专利在申请和被公开时所获得的标识,具有唯一性,IPC分类号和美国分类号是专利所属技术领域的分类标识,因此在进行信息评价时,先不使用此项数据,可在日后进行专门的研究,在该类数据项中,专利家族号是专利家族的标识,专利家族是多次申请、公布或具有基本相同内容的一组专利文献,因此可以将专利家族号转化为具有此家族号的专利数量(即专利家族大小)作为专利价值评估的一个指标。日期类数据包括优先权日期、申请日期、公开日期、预计失效日期,即PriorityDate、FileDate、PublicationDate、Est.ExpirationDate,可将日期的先后以及日期间隔时间作为评估tations、Source,但这些数据项对专利价值的重要性不强,或者无法进行数值化,因此暂不能成为专利价值评估的指标。
图1专利的数据项分布示意图
如图1所示,数值类数据包括三项,分别为权利要求项数量、专利被引用数量、引用其他专利数量,即Claims、BackwardReferences、ForwardReferences,其中权利要求项数量是指专利要求书中所申请的权利要求项的数目,专利被引用数量是指该项专利被其他专利引用的数目,引用其他专利数量是指该项专利引用了其他专利的数量。专利引用是指新的发明创造对现有专利技术的引用,它表征了这些现有技术对后续发明的重要性【4】,如图2所示,为数值类数据与专利强度的对比图,横坐标表示专利按强度由低到高分级的离散排列,图中曲线分别表示专利的权利要求项、专利被引用和引用其他专利的实际数量,其上方的折线表示由低到高的十个强度按适当比例放大后的等高线,曲线中的折线表示每个强度中相应指标的平均值。由对比图可以看出,虽然同一强度内指标的数值分布存在较大方差,但其与强度存在一定的总体上升趋势,因此以上三项数值指标可能会对专利价值的评估起到重要的作用。
非数值类的数据大致又分为名称类、编号类、日期类和其它类这四类数据,这些数据主要是由字符和数字的组合来描述一些指定的信息。其中,名-
指标。其它类数据包括类别代码、标题、公开国别、引用、源,即KindCode、Title、PublicationCountry、Ci⁃
图2数值类数据与专利强度对比图
通过选取专利价值评价指标,可以更科学的对专利本身进行定量研究,所得出的结论具有国际可比性,因此获得广泛的重视和应用【5】。
3算法原理
评估方法的选择是专利价值评估的关键问题,在上述对评估指标的筛选中,可以把专利价值评估视为一个强度分类问题。在机器学习中有很多用于解决分类问题的方法,本文尝试使用决策树、支
持向量机和神经网络三种方法来解决专利价值评
估问题。
3.1决策树算法
如图3所示,SVM的原理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。理论上,支持向量机能够实现对线性可分数据的最优分类。
3.3神经网络BP算法
决策树是一种广泛应用于事务决策的工具,它的中间节点和叶子节点分别可表示中间过程的输入数据和最终输出的分类模式,它是从根至叶不断筛选正确输出的过程。决策树算法应用于不同的领域,它具有可以代替统计过程来发现数据,抽取文本,寻找缺失数据等功能【6】。
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树算法构造决策树来发现数据中蕴涵的分类规则。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。其经典算法有ID3与决策树算法。
C4.5算法,随着研究的深入,也不断的提出改进的
3.2支持向量机
神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
神经网络BP(BackPropagation)算法【8】的学习过程包括信号的正向传播和误差的反向传播。在信号的正向传播时,输入数据从输入层传入,经过各隐层逐层处理后,传向输出层。如果出现输出层的输出与标准值不相符的情况,则转入误差的反向传播阶段。误差的反向传播是指将误差以某种形式回传至隐层并最终到达输入层的过程,在传播过程中将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号将用于修正各单元权值。信号的正向传播和误差的反向传播周而复始地进行,在此过程中,各层的权值均在不断的调整,直至误差减少到可接受的程度,或完成预先设定的学习次数。
4实验及结果分析
本文选用美国专利商标局(USPTO)的部分专利数据作为实验分析的数据样本来源,包括了1703条内容完整的专利信息数据。实验平台为WindowsServer2003,内存8GB,CPU为四核2.00GHz,软件环境为Matlab2011。实验的输入项分别为权利要求项数量、专利被引用数量、引用其他专利数量、专利家族大小、专利的优先权日期、申请日期、公开日期和预计失效日期的时间间隔共七项,输出项为专利强度,共分为十个等级,即十类输出。
在实验样本中,随机抽取1350条专利信息数据将其作为训练集,其余353条数据作为测试集。首先,尝试采用决策树算法进行实验。决策树算法通过对数据样本的学习,构建了针对该专利数据的决策树,如图4所示是输入指标构建的决策树示意图,决策树算法善于寻找数据分类的主要因素,图中x6表示专利被引数量、x7表示引用其他专利数量、x5
支持向量机(supportvectormachines,SVM)【7】是建立在统计学习理论VC维理论和结构风险最小化原理基础上的机器学习方法。在解决小样本、非线性和高维模式识别等问题中,支持向量机表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题。同时,它具有坚实的理论基础,简单明了的数学模型,因此,在模式分类、回归分析、函数估计、时间序列预测等领域都得到了长足的发展。
图3支持向量机原理示意图
表示权利要求项数量,从树型结构可以发现,
专利
-17-
被引数量的大小是整个决策树的根节点,这再一次表明专利价值的最大决定因素是专利被引数量,其次是引用其他专利数量和权利要求项数量。
5结语
本文尝试从机器学习技术的角度出发,对专利价值的评估方法进行了探索。首先,分析和选取了专利信息数据中有利于价值评估的指标,并将部分指标进行了数值化处理;然后,采用了决策树算法、支持向量机算法和神经网络算法对整理后的指标
图4决策树结构示意图
将实验得到的专利强度分类结果与专利中给出的专利强度进行比较,如图5所示,折线为实际的测试结果,折线为专利信息中给出的强度等级。在每个强度等级中测试结果出现了很大的波动,虽然识别率仅为33.92%,但仍然呈现了总体的对应趋势。
数据进行专利强度分类实验;最后,实验结果表明,上述方法对专利价值的评估存在可能,但需要对评估指标和评估方法进行深入的探讨和研究。在今后工作中,应考虑指标的进一步挖掘工作,将更多更有效的非数值属性加入到指标集中,参与专利价值的评估。还应考虑在常用算法基础之上,尝试更有效的机器学习方法进一步研究,从而获得新的解决思路和方法。另外,专利的诉讼对专利的价值也有一定的影响,本文仅是从专利文本自身内容的角度出发对其价值进行评估,下一步还可以就结合法律状态信息的专利价值评估展开研究。
图5决策树算法对专利数据样本的测试结果图
参考文献
1桂2张3王
婕,张兆峰,雷孝平,李
鹏.基于法律状态与被引
在使用支持向量机进行分类时,采用了十次交叉验证的方式来对支持向量机的参数进行调整和设定,再用训练好的支持向量机对测试样本进行评估分类。采用神经网络进行分类的分类器是由输入层、一个隐层和输出层构成的三层神经网络,其中隐层设置了30个隐层节点。训练后的神经网络对测试样本的最终识别率为52%。
以上实验结果表明,影响专利价值的最主要的因素为专利被引用数量,其次是引用其他专利数量和权利要求项数量,这也体现了专利的价值之所在。在三种算法的尝试中得到的识别率并不高,但仍然呈现出了一定的总体趋势。在本文的指标选取中,忽略了一些非数值型的数据,这些数据可能含有更有效的评估专利价值的信息,但目前没有找到好的解决办法将其转化成可利用的数值指标;同时,本文使用了三种常用的机器学习方法对专利信息数据进行实验,在机器学习领域中,可能存在更好的方法用于解决专利价值评估的问题。
信息整合的专利价值评估研究[J].数字图书馆论坛,2010,(9):26-30.
涛,李
命与战略,2006,(8):23-26.
刚.企业知识产权价值及其评价研究[J].革
价值评估方法研究[J].经济论坛,2012,(10):131-136.研究[J].中国发明与专利,2013,(1):58-61.管理研究,2008,(6):115-117.
静,吴玉春,孙大帅.基于决策树模型的非商业化专利
欢.利用专利引证信息评价专利质量的改进
4马天旗,刘
5汪雪峰,刘晓轩,朱东华.专利价值评价指标研究[J].科学6ArundhatiN,AamirN,SiddharthP,BalwantA.Overviewof
ControlandSystemGraduateResearchColloquium,2011:7丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述8周
[J].电子科技大学学报,2011,(1):2-10.2008,(2):
90-92.
政.BP神经网络的发展现状综述[J].山西电子技术,
(责任编辑:赵立军)
37-42.
useofdecisiontreealgorithmsinmachinelearning[C].IEEE
-