论文开题:网络热点话题的获取与分析

论文开题:网络热点话题的获取与分析

毕业论文开题报告

专 业:计算机科学与技术

班 级:08计算机2班

一、 题目的来源、目标和意义

根据中国互联网络信息中心2010年1月发布的《中国互联网发展状况统计报告》数据显示,自2003年开始,中国的网页规模保持成倍地增长,2009年网页数量年增长率超过100%达到336亿个。网络新闻使用率为80.1%,覆盖八成以上的网民群体,较2008年提高了1.6%;用户规模达3.1亿人,年增长7369万人,年增幅31.5%。如何对互联网信息进行监管,已成为亟待解决的问题。但是互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对网络热点话题进行分析、整理,才能建立起全面、有效、快速的热点话题监测预警机制,使互联网得以健康、快速的发展。因此,对网络热点话题的获取与分析技术的研究已成为一项紧迫而又重要的课题。

网络热点话题的获取与分析离不开文本挖掘技术。文本挖掘是以半结构化( 如web 网页) 或者无结构( 如纯文本) 的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程。在互联网时代大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速高质量的文本序列模式挖掘技术可以将大量文本信息组成少数有意义的簇,这种技术能够提供导航/浏览机制,通过序列驱动的降维或权值调整来改善检索性能,因此,序列模式挖掘技术已成为文本信息挖掘技术中的核心技术。

序列模式是把数据之间的关联陛与发生次序联系起来。为了挖掘序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的先后次序。我们一般分如下五个步骤来找出所有的序列模式:排序、频繁项集搜索、转换、序列和选最大序列。其中频繁项集搜索是其中关键的一步。随着数据挖掘技术的发展

索引的。garofalakis等人通过利用正则表达式约束方法提出了spirit算法。

单维挖掘序列模式只关心一个带有时间戳的属性,多维序列模式的挖掘目的则是寻找不同维度属性具有更多信息的有用模式。三种挖掘多维序列模式的常见方法,分别是seq2dim、dim2seq以及uniseq算法。uniseq算法将多维信息融入到序列中形成新的序列数据库,然后按照prefixspan方法对新的序列数据库进行挖掘。seq2dim算法首先挖掘原始序列的序列模式,然后对序列投影下的数据库多维信息的模式进行挖掘。dim2seq则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的数据库序列模式。由于通常多维序列模式的长度较短,投影数据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更加高效多产。实验结果表明,多数情况seq2dim有着良好的性能;当维数较低时多维模式也较短,uniseq较其他两种方法高效; dim2seq在挖掘过程中许多模式并未形成多维序列模式,因此效率较低。 现实世界中序列数据集往往是实时更新的。相应地,有趣模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可能不再有效,而新的有趣模式还有待进一步发现。通常有两种维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘关注于当数据持续增加或减

少时来维护序列模式。增量式序列模式挖掘常被定义为:给定序列数据库,通过插入或删除序列形成新的序列数据库,在新的序列数据库中寻找所有的最大频繁序列模式。

二、存在的问题

在过去的10年里,提出了许多算法来解决频繁项集挖掘的效率问题。只有很少的研究者提供他们算法的源代码,这使得比较这些算法变得很困难。不仅如此,即便是同一个算法的不同实现,在性能上也有相当大的差异。此外,不同的实验数据库,不同的最小支持度闽值,不同的数据结构,不同的数据库表示表示方式,不同的实验平台,都会造成算法性能和评价上的差异。在真实数据集和合成数据集上这些算法表现出非常不同的性能,在真实数据集上,最小支持度的阈值是影响算法性能的关键。然而,支持度的最小阈值并没有一个普遍适用的指导性的确定方法。

三、研究方法和算法设计

挖掘最大频繁项集是关联规则挖掘中一个重要的研究内容,但这方面的研究工作尚不够充分。有代表性的相关工作有roberto j.提出maxminer算法,doug burdick等人提出的mafia,dimitrios gunopulos等人提出的随机算法,dao-i lin等人提出的pincer-search算法。 此次,本文设计的算法是基于rakesh agrawal和ramakrishnan srikant两位博士在1994年提出的关联规则挖掘算法:apriori algorithm。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (market basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。

一些概念和定义

1. 资料库(transaction database):存储着二维结构的记录集。定义为:d

2. 所有项集(items):所有项目的集合。定义为:i。

3. 记录(transaction ):在资料库里的一笔记录。定义为:t,t ∈ d

4. 项集(itemset):同时出现的项的集合。定义为:k-itemset(k项集),除非特别说明,否则下文出现的k均表示项数。

5. 支持度(support):定义为 supp(x) = occur(x) / count(d) = p(x)。

6. 置信度(confidence/strength): 定义为 conf(x->y) = supp(x ∪ y) / supp(x) = p(y|x)。

7. 候选集(candidate itemset):通过向下合并得出的项集。定义为c[k]。

8. 频繁集(frequent itemset):支持度大于等于特定的最小支持度(minimum support/minsup)的项集。表示为l[k]。注意,频繁集的子集一定是频繁集。

9. 提升比率(提升度lift):lift(x -> y) = lift(y -> x) = conf(x -> y)/supp(y) = conf(y -> x)/supp(x) = p(x and y)/(p(x)p(y))。

apriori核心算法过程如下:

1. 过单趟扫描数据库d计算出各个1项集的支持度,得到频繁1项集的集合。

2. 连接步:为了生成k项集,预先生成k项候选集,由2个只有一个项不同的属于的频集做一个(k-2)join运算得到的。

注:本算法中jion运算的项必须是相邻的。

3. 剪枝步:由于k项候选集是超集,所以可能有些元素不是频繁的。在潜在k项集的某个子集不是中的成员是,则该潜在频繁项集不可能是频繁的可以从中移去。

4. 通过单趟扫描数据库d,计算中各个项集的支持度,将中不满足支持度的项集去掉形成。通过迭代循环,重复步骤2~4,直到有某个r值使得为空,这时算法停止。

挖掘频繁项集的算法描述如下

(1) l1 = find_frequent_1-itemsets(d); // 挖掘频繁1-项集,比较容易

(2) for (k=2;lk-1 ≠φ ;k++) {

(3) ck = apriori_gen(lk-1 ,min_sup); // 调用apriori_gen方法生成候选频繁k-项集

(4) for each transaction t ∈ d { // 扫描事务数据库d

(5) ct = subset(ck,t);

(6) for each candidate c ∈ ct

(7) c.count++; // 统计候选频繁k-项集的计数

(8) }

(9) lk ={c ∈ ck|c.count≥min_sup} // 满足最小支持度的k-项集即为频繁k-项集

(10) }

(11) return l= ∪ k lk; // 合并频繁k-项集(k>0)

基于第1步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。

挖掘频繁关联规则的算法描述如下:

(1) 初始状态 : l = ∪ k lk; ar = φ; // l是频繁项集集合,ar是频繁关联规则集合

(2) for all λk (λk是l的元素,是一个k-频繁项集,大小为n){

(3) for all αk (αk是λk 的非空真子集){

(4) if(αk → βm的置信度>= minconf) { // 这里,m + k = n,其中αk → βm是一个关联规则

(5) ar = ar ∪ (αk → βm);

(6) }

(7) }

(8) }

(9) return ar;

在剪枝步中的每个元素需在交易数据库中进行验证来决定其是否加入,这里的验证过程 是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库。

论文开题:网络热点话题的获取与分析

毕业论文开题报告

专 业:计算机科学与技术

班 级:08计算机2班

一、 题目的来源、目标和意义

根据中国互联网络信息中心2010年1月发布的《中国互联网发展状况统计报告》数据显示,自2003年开始,中国的网页规模保持成倍地增长,2009年网页数量年增长率超过100%达到336亿个。网络新闻使用率为80.1%,覆盖八成以上的网民群体,较2008年提高了1.6%;用户规模达3.1亿人,年增长7369万人,年增幅31.5%。如何对互联网信息进行监管,已成为亟待解决的问题。但是互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对网络热点话题进行分析、整理,才能建立起全面、有效、快速的热点话题监测预警机制,使互联网得以健康、快速的发展。因此,对网络热点话题的获取与分析技术的研究已成为一项紧迫而又重要的课题。

网络热点话题的获取与分析离不开文本挖掘技术。文本挖掘是以半结构化( 如web 网页) 或者无结构( 如纯文本) 的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程。在互联网时代大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速高质量的文本序列模式挖掘技术可以将大量文本信息组成少数有意义的簇,这种技术能够提供导航/浏览机制,通过序列驱动的降维或权值调整来改善检索性能,因此,序列模式挖掘技术已成为文本信息挖掘技术中的核心技术。

序列模式是把数据之间的关联陛与发生次序联系起来。为了挖掘序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的先后次序。我们一般分如下五个步骤来找出所有的序列模式:排序、频繁项集搜索、转换、序列和选最大序列。其中频繁项集搜索是其中关键的一步。随着数据挖掘技术的发展

索引的。garofalakis等人通过利用正则表达式约束方法提出了spirit算法。

单维挖掘序列模式只关心一个带有时间戳的属性,多维序列模式的挖掘目的则是寻找不同维度属性具有更多信息的有用模式。三种挖掘多维序列模式的常见方法,分别是seq2dim、dim2seq以及uniseq算法。uniseq算法将多维信息融入到序列中形成新的序列数据库,然后按照prefixspan方法对新的序列数据库进行挖掘。seq2dim算法首先挖掘原始序列的序列模式,然后对序列投影下的数据库多维信息的模式进行挖掘。dim2seq则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的数据库序列模式。由于通常多维序列模式的长度较短,投影数据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更加高效多产。实验结果表明,多数情况seq2dim有着良好的性能;当维数较低时多维模式也较短,uniseq较其他两种方法高效; dim2seq在挖掘过程中许多模式并未形成多维序列模式,因此效率较低。 现实世界中序列数据集往往是实时更新的。相应地,有趣模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可能不再有效,而新的有趣模式还有待进一步发现。通常有两种维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘关注于当数据持续增加或减

少时来维护序列模式。增量式序列模式挖掘常被定义为:给定序列数据库,通过插入或删除序列形成新的序列数据库,在新的序列数据库中寻找所有的最大频繁序列模式。

二、存在的问题

在过去的10年里,提出了许多算法来解决频繁项集挖掘的效率问题。只有很少的研究者提供他们算法的源代码,这使得比较这些算法变得很困难。不仅如此,即便是同一个算法的不同实现,在性能上也有相当大的差异。此外,不同的实验数据库,不同的最小支持度闽值,不同的数据结构,不同的数据库表示表示方式,不同的实验平台,都会造成算法性能和评价上的差异。在真实数据集和合成数据集上这些算法表现出非常不同的性能,在真实数据集上,最小支持度的阈值是影响算法性能的关键。然而,支持度的最小阈值并没有一个普遍适用的指导性的确定方法。

三、研究方法和算法设计

挖掘最大频繁项集是关联规则挖掘中一个重要的研究内容,但这方面的研究工作尚不够充分。有代表性的相关工作有roberto j.提出maxminer算法,doug burdick等人提出的mafia,dimitrios gunopulos等人提出的随机算法,dao-i lin等人提出的pincer-search算法。 此次,本文设计的算法是基于rakesh agrawal和ramakrishnan srikant两位博士在1994年提出的关联规则挖掘算法:apriori algorithm。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (market basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。

一些概念和定义

1. 资料库(transaction database):存储着二维结构的记录集。定义为:d

2. 所有项集(items):所有项目的集合。定义为:i。

3. 记录(transaction ):在资料库里的一笔记录。定义为:t,t ∈ d

4. 项集(itemset):同时出现的项的集合。定义为:k-itemset(k项集),除非特别说明,否则下文出现的k均表示项数。

5. 支持度(support):定义为 supp(x) = occur(x) / count(d) = p(x)。

6. 置信度(confidence/strength): 定义为 conf(x->y) = supp(x ∪ y) / supp(x) = p(y|x)。

7. 候选集(candidate itemset):通过向下合并得出的项集。定义为c[k]。

8. 频繁集(frequent itemset):支持度大于等于特定的最小支持度(minimum support/minsup)的项集。表示为l[k]。注意,频繁集的子集一定是频繁集。

9. 提升比率(提升度lift):lift(x -> y) = lift(y -> x) = conf(x -> y)/supp(y) = conf(y -> x)/supp(x) = p(x and y)/(p(x)p(y))。

apriori核心算法过程如下:

1. 过单趟扫描数据库d计算出各个1项集的支持度,得到频繁1项集的集合。

2. 连接步:为了生成k项集,预先生成k项候选集,由2个只有一个项不同的属于的频集做一个(k-2)join运算得到的。

注:本算法中jion运算的项必须是相邻的。

3. 剪枝步:由于k项候选集是超集,所以可能有些元素不是频繁的。在潜在k项集的某个子集不是中的成员是,则该潜在频繁项集不可能是频繁的可以从中移去。

4. 通过单趟扫描数据库d,计算中各个项集的支持度,将中不满足支持度的项集去掉形成。通过迭代循环,重复步骤2~4,直到有某个r值使得为空,这时算法停止。

挖掘频繁项集的算法描述如下

(1) l1 = find_frequent_1-itemsets(d); // 挖掘频繁1-项集,比较容易

(2) for (k=2;lk-1 ≠φ ;k++) {

(3) ck = apriori_gen(lk-1 ,min_sup); // 调用apriori_gen方法生成候选频繁k-项集

(4) for each transaction t ∈ d { // 扫描事务数据库d

(5) ct = subset(ck,t);

(6) for each candidate c ∈ ct

(7) c.count++; // 统计候选频繁k-项集的计数

(8) }

(9) lk ={c ∈ ck|c.count≥min_sup} // 满足最小支持度的k-项集即为频繁k-项集

(10) }

(11) return l= ∪ k lk; // 合并频繁k-项集(k>0)

基于第1步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。

挖掘频繁关联规则的算法描述如下:

(1) 初始状态 : l = ∪ k lk; ar = φ; // l是频繁项集集合,ar是频繁关联规则集合

(2) for all λk (λk是l的元素,是一个k-频繁项集,大小为n){

(3) for all αk (αk是λk 的非空真子集){

(4) if(αk → βm的置信度>= minconf) { // 这里,m + k = n,其中αk → βm是一个关联规则

(5) ar = ar ∪ (αk → βm);

(6) }

(7) }

(8) }

(9) return ar;

在剪枝步中的每个元素需在交易数据库中进行验证来决定其是否加入,这里的验证过程 是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库。


相关文章

  • 毕业论文开题报告模板
  • 移动学习应用现状与发展趋势 开题报告 教育技术学专业学生 *** 指导老师 *** 一.立题依据 1.选题背景 近年来,随着无线移动技术.蓝牙和WAP等技术日趋成熟,移动通讯技术和移动计算技术不断融合并迅速普及全球,为移动教育的开展提供了理 ...查看


  • 2015大学生毕业论文开题报告范文
  • 大学生毕业论文开题报告范文 大学生毕业论文开题报告范文(一) 一.本课题选题的依据 在现代素质教育的形势下,建设为素质教育服务的.现代化的.功能完善的教育教学资源系统,拓展学生自主学习的空间,发展学生的多种能力,特别是创新能力,已经成为中学 ...查看


  • 地图学与地理信息系统攻读博士学位
  • 地图学与地理信息系统攻读博士学位 研究生培养方案 一.培养目标 1.掌握马列主义.毛泽东思想和邓小平理论,树立正确的世界观.人生观和价值观,遵纪守法,具有较强的事业心和责任感,道德品质和修养较高,愿为我国的现代化建设贡献自己的力量. 2.能 ...查看


  • 开题报告写作方法
  • 开题报告写作方法 开题报告应包括以下几个部分: 选题意义主要包括理论意义.实践意义,即本论文选题在理论上有什么创新或应用,以及本论文对实践有什么指导意义. 选题目的是指论文写作最终希望达到的目的,可以与意义并写. 文献综述与研究现状包括以下 ...查看


  • 计算机毕业论文开题报告范文
  • 精选范文:计算机毕业论文开题报告范文(共2篇) 1.本课题的研究意义 在internet 飞速发展的今天,互联网成为人们快速获取.发布和传递信息的重要渠道,它在人们政治. 经济.生活等各个方面发挥着重要的作用. 因此网站建设在interne ...查看


  • 写开题报告时如何搜集资料
  • 写开题报告时如何搜集资料 开题报告是用文字体现的.并把计划研究的课题.如何研究.理论适用等主要问题写清楚的论文总构想.一般为表格式,因其要把要报告的每一项内容转换成相应的栏目,这样做,既便于开题报告按栏目填写,避免遗漏:又便于评审者一目了然 ...查看


  • 经管会电成人大专毕业设计(论文)大纲
  • 山东英才学院 毕业设计(论文)大纲 学 院 名 称 经济管理学院 专 业 名 称 会计电算化 主 撰 人 亓玉芳 审 定 人 李众宜 编 写 日 期 2010 年 10 月 一.学时或周数 毕业论文是人才培养过程中的一个重要环节,也是整个教 ...查看


  • 湘潭大学全日制电气工程硕士专业学位研究生
  • 湘潭大学全日制电气工程硕士专业学位研究生 培养方案 一.培养目标: 1.较好地掌握马克思主义的基本原理,具有正确的世界观.人生观和价值观,坚持党的基本路线,遵纪守法,具有较强的事业心和责任感.品行端正,诚实守信,学风严谨,身心健康. 2.掌 ...查看


  • 图书馆管理系统毕业设计开题报告
  • 毕业设计(论文) 开题报告 题 目 图书管理系统的设计与开发 专 业 计算机科学与技术 班 级 10 计科 0 1班 学 生 指导教师 职 称 助 教 高科学院 年 一.毕业设计(论文) 课题来源.类型 二.选题的目的及意义 目的:通过本次 ...查看


热门内容