网络舆情分析系统的研究与设计

网络舆情分析系统的研究与设计

摘要:网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。随着科技的发展,政府迫切需要更好地监控与引导网络,本文通过研究现今网络舆情分析系统的技术特征,并根据需要,介绍了网络舆情分析系统的一种可行模型,能够提高网络舆情分析的准确性和灵活性,有效促进我国网络舆情分析工作的迅速发展。

关键词:网络舆情;网页文本结构化;文本分类;文本聚类

互联网的高速发展使网络信息越来越难以处理,所以,传统的以人工分类为基础的处理方式已完全不能够适应如此规模的网络信息量得处理工作。作为一个新的研究课题,对网络舆情的监控和分析,必须建立在高科技的现代信息技术当中,从而能够及时面对网络舆情并第一时间对其进行主动控制和疏导。

一、网络舆情分析系统的总体模型概括

网络舆情分析系统根据用户的不同需求,对特定种类的以网络为载体的新闻和消息在收集后通过网页净化、词频统计等手段对信息进行有效的预处理活动,并将预处理的所得结果入库,并通过数据挖掘算法对信息进行分析,最后会得到一定时期内网络所出现出现的热点信息,并对其进行追踪,得到事件的详细信息。

1.1 输入输出层面

输入层指互联网搜索、数据源等。随着网络在获取信息方面的便捷性和灵活性的提高,许多信息平台,如博客、新闻和政府网站都成为网络舆情的监控源。输出层一般来说指的是前端展示输出,对于网络舆情分析系统来说,其输出程序主要根据用户需要提供信息,其信息的种类呈现出多样化的特点。

1.2 业务处理层面

1.2.1网络舆情系统信息采集以及预处理方式

网络舆情监控系统需要在了解用户需求的前提下,设定所需主题或目标,并利用人工和自动相结合的信息采集手段完成信息收集的任务。对于已经定位的网络资源,需要知道网络资源是否已进入数据库中,若己保存到数据库,系统需继续进行其他资源的收集。网络舆情信息预处理是网络舆情信息分析系统的准备阶段,能够对网页当中的信息进行数据清洗和分类处理后,形成格式化的数据然后上传到数据库,并进行信息过滤,滤除无关信息,保存重要信息。

1.2.2 网络舆情数据存储

舆情数据存储主要包含数据入库、网页快照与附件存储等,舆情数据需要在收集后保存在相应的数据库中,并需要根据不同种类的信息类型,对数据库进行相应的分类。

1.2.3网络舆情语义分析

网络舆情语义分析作为整个系统最重要的模块,能够挖掘出在信息预处理模块中所获得的信息,所运用的技术主要有追踪热点、关联分析与趋势分析等,能够有效实现网络舆情监控和热点追踪的功能。在此过程中,所使用信息分析的方法基于向量空间模型,采用多种组合式的数据挖掘技术和算法,更好地对文本信息分析和处理,保证了整个系统基于用户需求,即使进行策略调整,使整个系统达到运行的最佳状态。

二、网络舆情信息的预处理技术手段

模板配置法、网页的文本结构化信息处理法等方法是主要的网络舆情信息数据的预处理方法,但模板配置法需设定每个信息源的网站模板,使工作量和维护量过大,而网页的文本结构化信息处理法利用页面结构分析与智能节点分析转换的方法,在自动抽取数据后,有效识别与清除网页内的无效内容,所以一般来说,网络舆情系统采用文本结构化处理方法。

Web 网页一般包括关注内容和掺杂内容两部分。关注内容是网页的主要内容,在一个网页当中,其新闻内容、帖子内容等都属于网页的关注内容,而掺杂内容指的是诸如搜索条、广告灯与主体内容无关的信息要素。所以,在信息预处理中,如何快速处理掺杂内容,成为网络舆情分析系统的重要技术之一。首先利用 HTML 网页标签树实现网页净化,有效地降低网页结构的复杂性,缩减网页空间,从而节省后续分析过程的时间和空间花费。

三、网络舆情分析系统的语义分析技术

网络舆情分析系统语义分析技术,主要对各项新闻热点敏感话题等进行分析,是整个网络舆情系统的最关键技术,是影响网络舆情信息分析结果是否准确的重要手段。语义分析技术包含文档特征库、算法库、分析结果库等数据库,并采纳了数据挖掘中的文本分类和文本聚类的算法,对已完成预处理之后的网络舆情信息进行分析和处理,产生相应的分析结果库。而算法库以及算法调度和线程处理是语义分析模块的主要工作

3.1算法库管理

算法库能够有效地为每一处理线程生成一种恰当的算法供算法调度程序进行使用,在接收管理员的设置和查询要求之后,将所设置的特定信息和各种特殊信息要求存储到算法配置信息库中并进行恰当的管理。

3.2算法调度

算法调度主要负责进程的分配以及多线程的管理工作,是整个舆情分析的动力构成。通

过各种手段,控制线程的运行。而且系统为每个用户的个人进程进行控制,并可以为一个用户同时处理多个不同的进程。

3.3线程处理

每一个的线程处理,就是一次进行文本分类或文本聚类的过程,其中包括了权值向量的生成、特征选择或特征抽取、文本分类或文本聚类。首先需要通过算法库,确定其中各个部分恰当的算法,每个部分根据其特征,采用一种特定的算法。然后按照事先设定好的时间频度和处理手段,从数据库中抽取相应内容,并进行深层次的分析与处理,最后获得结果后将最终的处理结果存入相应的结果库中,并帮助用户根据自身的特定需要,进行处理结果的查询,并利用恰当的手段和表现方式,将这些分析后的所得结果展现给需要查询的用户。

四、结语

本系统的最大优点,便是能够灵活搭配算法和自由处理的架构,真正实现分析和追踪热点的效应,网络舆情分析系统的核心技术在于舆情的分析和引擎,这些技术手段包括文本分类、文本聚类、观点倾向性辨别等计算机文本信息识别技术,真正实现了热点追踪与分析。随着网络系统的发展,若本系统能够大量投入运用,将成为各个级别部门的重要网络舆情监控工具,并创造大量的经济效益和社会效益。

参考文献:

[1] Jianping Zeng,Shiyong Zhang,Chengrong Wu,Jianfeng Xie.Pre -dictive Model for Internet Public Opinion.IEEE. Vol.3,pp.7 -11,2007.

[2] 王娟. 网络舆情监控分析系统构建[J],长春理工大学学报,2007(4).

[3] 孟春艳. 用于文本分类和文本聚类的特征抽取方法的研究[J],微计算机信息.2009(3).

[4] 胡学钢, 董学春, 谢飞. 基于词向量空间模型的中文文本分类方法[J]. 合肥工业大学学报(自然科学版). 2007(10).

[5] 许鑫, 章成志, 李雯静. 国内网络舆情研究的回顾与展望[J]. 情报理论与实践. 2009(3).

网络舆情分析系统的研究与设计

摘要:网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。随着科技的发展,政府迫切需要更好地监控与引导网络,本文通过研究现今网络舆情分析系统的技术特征,并根据需要,介绍了网络舆情分析系统的一种可行模型,能够提高网络舆情分析的准确性和灵活性,有效促进我国网络舆情分析工作的迅速发展。

关键词:网络舆情;网页文本结构化;文本分类;文本聚类

互联网的高速发展使网络信息越来越难以处理,所以,传统的以人工分类为基础的处理方式已完全不能够适应如此规模的网络信息量得处理工作。作为一个新的研究课题,对网络舆情的监控和分析,必须建立在高科技的现代信息技术当中,从而能够及时面对网络舆情并第一时间对其进行主动控制和疏导。

一、网络舆情分析系统的总体模型概括

网络舆情分析系统根据用户的不同需求,对特定种类的以网络为载体的新闻和消息在收集后通过网页净化、词频统计等手段对信息进行有效的预处理活动,并将预处理的所得结果入库,并通过数据挖掘算法对信息进行分析,最后会得到一定时期内网络所出现出现的热点信息,并对其进行追踪,得到事件的详细信息。

1.1 输入输出层面

输入层指互联网搜索、数据源等。随着网络在获取信息方面的便捷性和灵活性的提高,许多信息平台,如博客、新闻和政府网站都成为网络舆情的监控源。输出层一般来说指的是前端展示输出,对于网络舆情分析系统来说,其输出程序主要根据用户需要提供信息,其信息的种类呈现出多样化的特点。

1.2 业务处理层面

1.2.1网络舆情系统信息采集以及预处理方式

网络舆情监控系统需要在了解用户需求的前提下,设定所需主题或目标,并利用人工和自动相结合的信息采集手段完成信息收集的任务。对于已经定位的网络资源,需要知道网络资源是否已进入数据库中,若己保存到数据库,系统需继续进行其他资源的收集。网络舆情信息预处理是网络舆情信息分析系统的准备阶段,能够对网页当中的信息进行数据清洗和分类处理后,形成格式化的数据然后上传到数据库,并进行信息过滤,滤除无关信息,保存重要信息。

1.2.2 网络舆情数据存储

舆情数据存储主要包含数据入库、网页快照与附件存储等,舆情数据需要在收集后保存在相应的数据库中,并需要根据不同种类的信息类型,对数据库进行相应的分类。

1.2.3网络舆情语义分析

网络舆情语义分析作为整个系统最重要的模块,能够挖掘出在信息预处理模块中所获得的信息,所运用的技术主要有追踪热点、关联分析与趋势分析等,能够有效实现网络舆情监控和热点追踪的功能。在此过程中,所使用信息分析的方法基于向量空间模型,采用多种组合式的数据挖掘技术和算法,更好地对文本信息分析和处理,保证了整个系统基于用户需求,即使进行策略调整,使整个系统达到运行的最佳状态。

二、网络舆情信息的预处理技术手段

模板配置法、网页的文本结构化信息处理法等方法是主要的网络舆情信息数据的预处理方法,但模板配置法需设定每个信息源的网站模板,使工作量和维护量过大,而网页的文本结构化信息处理法利用页面结构分析与智能节点分析转换的方法,在自动抽取数据后,有效识别与清除网页内的无效内容,所以一般来说,网络舆情系统采用文本结构化处理方法。

Web 网页一般包括关注内容和掺杂内容两部分。关注内容是网页的主要内容,在一个网页当中,其新闻内容、帖子内容等都属于网页的关注内容,而掺杂内容指的是诸如搜索条、广告灯与主体内容无关的信息要素。所以,在信息预处理中,如何快速处理掺杂内容,成为网络舆情分析系统的重要技术之一。首先利用 HTML 网页标签树实现网页净化,有效地降低网页结构的复杂性,缩减网页空间,从而节省后续分析过程的时间和空间花费。

三、网络舆情分析系统的语义分析技术

网络舆情分析系统语义分析技术,主要对各项新闻热点敏感话题等进行分析,是整个网络舆情系统的最关键技术,是影响网络舆情信息分析结果是否准确的重要手段。语义分析技术包含文档特征库、算法库、分析结果库等数据库,并采纳了数据挖掘中的文本分类和文本聚类的算法,对已完成预处理之后的网络舆情信息进行分析和处理,产生相应的分析结果库。而算法库以及算法调度和线程处理是语义分析模块的主要工作

3.1算法库管理

算法库能够有效地为每一处理线程生成一种恰当的算法供算法调度程序进行使用,在接收管理员的设置和查询要求之后,将所设置的特定信息和各种特殊信息要求存储到算法配置信息库中并进行恰当的管理。

3.2算法调度

算法调度主要负责进程的分配以及多线程的管理工作,是整个舆情分析的动力构成。通

过各种手段,控制线程的运行。而且系统为每个用户的个人进程进行控制,并可以为一个用户同时处理多个不同的进程。

3.3线程处理

每一个的线程处理,就是一次进行文本分类或文本聚类的过程,其中包括了权值向量的生成、特征选择或特征抽取、文本分类或文本聚类。首先需要通过算法库,确定其中各个部分恰当的算法,每个部分根据其特征,采用一种特定的算法。然后按照事先设定好的时间频度和处理手段,从数据库中抽取相应内容,并进行深层次的分析与处理,最后获得结果后将最终的处理结果存入相应的结果库中,并帮助用户根据自身的特定需要,进行处理结果的查询,并利用恰当的手段和表现方式,将这些分析后的所得结果展现给需要查询的用户。

四、结语

本系统的最大优点,便是能够灵活搭配算法和自由处理的架构,真正实现分析和追踪热点的效应,网络舆情分析系统的核心技术在于舆情的分析和引擎,这些技术手段包括文本分类、文本聚类、观点倾向性辨别等计算机文本信息识别技术,真正实现了热点追踪与分析。随着网络系统的发展,若本系统能够大量投入运用,将成为各个级别部门的重要网络舆情监控工具,并创造大量的经济效益和社会效益。

参考文献:

[1] Jianping Zeng,Shiyong Zhang,Chengrong Wu,Jianfeng Xie.Pre -dictive Model for Internet Public Opinion.IEEE. Vol.3,pp.7 -11,2007.

[2] 王娟. 网络舆情监控分析系统构建[J],长春理工大学学报,2007(4).

[3] 孟春艳. 用于文本分类和文本聚类的特征抽取方法的研究[J],微计算机信息.2009(3).

[4] 胡学钢, 董学春, 谢飞. 基于词向量空间模型的中文文本分类方法[J]. 合肥工业大学学报(自然科学版). 2007(10).

[5] 许鑫, 章成志, 李雯静. 国内网络舆情研究的回顾与展望[J]. 情报理论与实践. 2009(3).


相关文章

  • 突发事件网络舆情预警研究综述
  • 2013年6月 JUN.2013 情报探索 InformationResearch 第6期(总188期) No.6(SerialNo.188) 突发事件网络舆情预警研究综述术 彭劭莉 张 乐 (湘潭大学公共管理学院湖南湘潭411105) 摘 ...查看


  • 网络毕业论文选题
  • 毕业论文(设计) 题 目 学 院 学 院 专 业 学生姓名 学 号 年级 级 指导教师 毕业教务处制表 毕业 毕业二〇一五年 九月二十 日 一.写作说明 专业从事毕业论文写作与发表相关服务,本团队擅长案例数据分析.编程仿真.图表制作.毕业设 ...查看


  • 网络舆情的研究现状储召杰
  • 目录 一 网络舆情 .............................................................................................. 2 二 网络舆情的研究 ... ...查看


  • 农产品质量安全网络舆情分析研判探讨
  • 农产品质量安全网络舆情分析研判探讨 2013-06-18 摘要:对网络舆情信息进行客观分析和科学研判,是农产品质量安全网络舆情监测管理的重要环节.本文探讨了农产品质量安全网络舆情分析研判的基本要求及工作组织,分析了农产品质量安全网络舆情的分 ...查看


  • 网络舆情热点的形成与发展现状及舆论引导
  • 理论月刊20∞年第4期 网络舆情热点的形成与发展.现状及舆论引导 G簿牡会黼,夭聿300191) 摘要:网络舆情热点是网民思想情绪和群众利益诉求在网络上的集中反映,是网民热切关注的聚焦点,是民众议论的集中点.反映出一个时期网民的所思所想.互 ...查看


  • 网络舆情分析技术的研究
  • 网络舆情分析研究 舆情是指在一定的社会空间内,围绕中介性社会事件的发生.发展和变化,民众对社会管理者产生和持有的社会政治态度.它是较多群众关于社会中各种现象.问题所表达的信念.态度.意见和情绪等等表现的总和.网络舆情形成迅速,对社会影响巨大 ...查看


  • 政府如何应对网络舆情危机
  • 工作思考·人才研究 政府如何应对网络舆情危机 ■ 石翠仙 闫利平 靳兰 互联网空前地延展了人类的生活空间,"虚拟世界"与现实世界相互影响渗透,现实社会的矛盾可能导致网络舆情的产生,而网络舆情的爆发也会影响现实社会有关事件 ...查看


  • 2013年度中国舆情监测行业市场份额总体状况分析
  • 2013年度中国舆情监测行业市场份额总体状况分析 随着网络舆情的重要性越来越凸显,政府和企业对舆情监测的需求不断上升,这推动了舆情监测市场进入高速成长期.看到这块不断做大的蛋糕,大批投机者纷纷进入舆情监测市场.截止2013年底,全国共涌现出 ...查看


  • 2016年政法舆情年度报告(上篇)2016年政法舆情年度报告(上篇)
  • [我要纠错] [字体:大 默认 小][打印][关闭] 发布时间:2017-01-19 17:13:12 [编者按] 2016年是全面建成小康社会决胜阶段的开局之年,全国各级政法机关同心协力完成了维护社会大局稳定.促进社会公平正义.保障人民安 ...查看


热门内容