文本挖掘的网络舆情

2024-05-08

文本挖掘的网络舆情（精选4篇）

文本挖掘的网络舆情第1篇

近年来, 网络舆情对人们日常生活和社会稳定的影响越来越大, 一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。因此, 分析网络舆情的应对策略, 建立监测预警机制, 必将对网络文化的健康发展起到重要作用。

随着计算机网络技术特别是云计算的发展, 越来越多的数据分布式的存储在网络中, 这些海量的、分布式的、异构的、复杂的数据给数据挖掘的实现带来了巨大挑战。处理这些数据的复杂度很高, 传统计算机系统的计算能力很难达到要求, 单机服务器提供的有限计算资源已经不能满足要求, 需要借助分布式计算技术来实现大规模并行计算。

1、网络舆情

网络舆情是指在一定的社会空间内, 通过网络围绕中介性社会事件的发生、发展和变化, 民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。网络舆情形成迅速, 对社会影响巨大, 目前网络成为反映社会舆情的主要载体之一。

网络舆情表达快捷、信息多元, 方式互动, 具备传统媒体无法比拟的优势。网络的开放性和虚拟性, 决定了网络舆情具有以下特点:直接性、随意性和多元化、突发性、隐蔽性、偏差性。这些特性决定了网络舆情数据挖掘的原始数据具有如下特点:数据量大重复度高、数据维度高、实时性强、语义不确定性。

2、云计算

云计算是一种基于互联网的计算方式, 通过这种方式, 共享的软硬件资源和信息可以按需提供给计算机和其他设备。

云计算抽象了计算与存储资源并动态的分配给需要使用的用户, 它是一个高伸缩性、高可靠性、底层透明、安全的底层架构并具有友好的监控与维护接口。在其上开发应用时只需要按照其应用程序接日规范调用所需资源即可, 其使用费用跟总的资源使用量成正比而不像以往跟系统吞吐量成止比。如此用户只需关心业务逻辑实现, 针对数据挖掘实现而言, 我们可以把各种算法部署到云计算平台运行然后通过云计算平台的控制面板或者接口设定目标响应时间就能得到满意的结果。

云计算系统对大数据集进行处理、分析向用户提供高效的服务。云计算的特点是对海量的数据存储、读取后进行大量的分析, 数据的读操作频率远大于数据的更新频率, 云中的数据管理是一种读优化的数据管理。

3、云计算及网络舆情挖掘

3.1 基于DOM的XML数据规约

网络上采集的各种数据都是杂乱、异构的, 为了能使舆情挖掘工具对其进行处理, 必须对采集的数据进行规约, 同使时也可使云计算平台上运行的应用能够访问异构数据。

XML (Extensible Markup Language) 即可扩展标记语言, 一种简单的数据存储语言, 使用一系列简单的标记描述数据, 而这些标记可以用方便的方式建立, 虽然XML占用的空间比二进制数据要占用更多的空间, 但XML简单易于掌握和使用。。XML是Internet环境中跨平台的, 依赖于内容的技术, 是当前处理结构化文档信息的有力工具。

DOM是Document Object Model文档对象模型的缩写。根据W3C DOM规范, DOM是一种与浏览器、平台、语言无关的接口, 使得它可以访问页面其他的标准组件。DOM解决了Netscape的Javascript和Microsof的JScript之间的冲突, 给予WEB设计师和开发者一个标准的方法, 让他们来访问他们站点中的数据、脚本和表现层对像。

利用基于DOM的XML解析方法, 用Python实现了XML解析器, 解析器先将各种XML内容转换为DOM, 然后以树型结构遍历所有属性, 再根据规范定义理解其语义并将结果封装成可被各模块使用的数据结构。

3.2 Hadoop简介

Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop是可靠的, 因为它假设计算元素和存储会失败, 因此它维护多个工作数据副本, 确保能够针对失败的节点重新分布处理。Hadoop是高效的, 因为它以并行的方式工作, 通过并行处理加快处理速度。Hadoop还是可伸缩的, 能够处理PB级数据。此外, Hadoop依赖于社区服务器, 因此它的成本比较低, 任何人都可以使用。

Hadoop带有用Java语言编写的框架, 因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写, 比如C++。Hadoop使用的是Map and Reduce流程, 这个流程称为创建索引, 它将Web爬行器检索到的文本Web页面作为输入, 并且将这些页面上的单词的频率报告作为结果。然后可以在整个Web搜索过程中使用这个结果从已定义的搜索参数中识别内容。

4. 系统实现

在对数据进行规约后, 系统采用Apache公司的HDFS系统实现分布式存储。Hadoop的分布式文件系统 (HDFS) 是一个设计在商用硬件平台上的分布式文件系统, 它支持的高容错性和低成本运行的特点以及大数据量吞吐的访问级别和适应大数据集使之和其它分布式系统相比具有巨大的优势。

使用到的软件有Apaehe Hadoop, IBM Map Reduce Tools for Eclipse。在Eclipse环境下能方便地进行Hadoop并行程序的开发和调试。IBM Map Reduce Tools for Eclipse插件可以简化开发和部署Hadoop并行程序的过程, 可以在Eclipse中创建一个Hadoop Ma PReduee应用程序, 并提供基于Ma PReduee框架的类开发的向导, 部署一个Hadoop Map Reduee应用程序到一个Hadoop服务器 (本地和远程均可) , 可通过专门的视图查看Hadoop服务器、Hadoop分布式文件系统 (DFS) 和当前运行的任务的状态。

为验证基于云计算的数据挖掘处理能力, 本文使用学习数据集, 采用的是支持向量机对4组不同数量的数据集分别在本地与云计算平台上进行分类计算。

表1.执行时间对比

从表1可以看出数据量越大, 基于云计算的舆情挖掘系统的运行效率比本地执行的运行效率越高。

5. 总结

本文将云计算平台与数据挖掘算法进行结合, 使之应用于舆情挖掘领域。这可以看作是对云计算的应用层次上的探索应用。本系统解决了现有舆情挖掘平台大数据量处理周期长、实时性差、建设成本高, 重用性差以及资源利用率不足的缺点。建立了高效的可重用的舆情挖掘平台, 提高了舆情数据挖掘平台的挖掘效率, 降低了系统维护的难度。

摘要：网络舆情对人们日常生活和社会稳定的影响越来越大。传统的单机服务器已不能满足海量、异构、分布式、复杂的数据的计算要求。云计算系统能对大数据集进行处理、分析, 向用户提供高效的服务。但数据本身具有噪声、异构等问题, 为解决此问题首先进行数据规约, 再对规约后的数据使用云计算工具进行网络舆情的挖掘。

关键词：云计算,网络舆情,挖掘,数据规约

参考文献

[1]Ming-Feng Chang, Min-Hsiung Hsu, Kuei-Hui Chen.AnIntroduetion to Cloud Computing Service platform-Google APPEngine.ComPuter and eommunieation.Vol.126, PP24-33, 2008.12

[2]Bing Liu, 著.俞勇, 薛贵荣, 韩定一, 译.数据挖掘清华大学出版社2009

[3]邓倩妮, 陈全.云计算及其关键技术.上海超级计算中心高性能计算发展与应用第26期

[4]Sotomayor B, Childers L著, 马廷淮, 刘文杰, 薛胜军译.GlobusToolkit 4:Java网格服务编程[M].北京:清华大学出版社, 2009

[5]Ming-Fens Chang, Min-Hsiung Hsu, Kuei-Hui Chen.An In-troduction to Cloud Computing Service Platform-Google AppEngine[J].Computer and communication.Vo1.126, pp24-33, 2008.12

[6]俞斌, 熊齐邦.基于XML的网络配置管理的研究与实现方案[J], 计算机技术与发展, 2007

基于文本挖掘的网络媒体报道研究第2篇

[关键词] 文本挖掘网络媒体实体关系属性抽取上海世博

1 引言

随着信息技术的发展和网络信息资源的丰富，数字化信息不断改变着我们的思维方式和工作模式。然而面对海量信息，如何发现并获取有价值的信息成为难题。如今，各种网络搜索引擎可以帮助人们进行有效的信息检索和分类，但是利用这些工具检索出来的信息仍然是海量的。如何从检索到的海量信息中挖掘出用户感兴趣的内容，并能对信息进行必要的分析、提炼成为信息管理、情报分析领域的新课题呢？本文将运用属性抽取和文本挖掘的方法，以网络版新闻报道为例，对报道的内容进行分析，并挖掘出媒体报道的内涵。

文本挖掘是数据挖掘技术中日益盛行的重要研究领域，同数据挖掘的区别在于文本挖掘主要处理非结构化的文本数据，包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、技术标准、电子邮件消息及Web页面等，这些数据不像关系数据库那样具有规范格式，因此处理难度都较高。同时，这些文档又大多采用自然语言描述，对挖掘提出更高的要求。从1995年Feldman正式提出文本挖掘的概念[1]至今，国外学者对文本挖掘的应用研究进行了很多有益的探讨，这方面最主要的研究集中在文本挖掘理论体系与技术手段方面，获得的成果有文本挖掘模型[2-3]、非结构化文本文件特征抽取与文本中间表示[4-6]、文本挖掘算法 [7-8]、语义关系挖掘[9-10]、文本聚类与主题分析[11-12]等，对文本挖掘国外学者已经形成了一套较成熟的理论体系，并且应用于多个领域，如网络聊天室文本流主题跟踪[11]、在线新闻实时监控[12]、专利数据分析[13]等。最近几年，国内学者对文本挖掘的关注度开始提高，但仍然处于吸收国外研究成果阶段，在理论方面，对文本特征抽取和文本聚类[14-16]等进行了一定的探讨；在实践应用中，文献[17]运用文本挖掘的方法对政府工作报告中用户感兴趣的区域经济关系进行了实证研究，并得到相关结论。通过国内外的研究对比，笔者发现，无论在理论探讨还是实践应用方面，国内的文本挖掘研究还不够深入，仍处于小规模实验阶段。

本文拟运用文本挖掘的基本方法，就我国台湾、香港及其他境外媒体华语版及上海本地媒体对上海世博会相关报道进行分析，研究的新闻文本量近29 000篇，通过属性抽取分析媒体报道的差异。

2 网络媒体文本挖掘方法分析

本次实验选取的新闻样本为境内外主流媒体网络版，主要包括上海本地的《解放日报》、《新民晚报》等，香港地区的《大公报》、《香港商报》、《香港文汇报》等，台湾地区包括《经济日报》、《联合报》、《中国时报》等，国外媒体中文版包括《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等，共计30家中文主流媒体。

作为一种文本信息，新闻报道的格式也相对一般文本文件更为规范，这样便于挖掘的实现。与传统的新闻分析强调事件（新闻主题）、人物、时间、地点不同，这里运用文本属性抽取和文本内容挖掘以获取新闻报道的关注点并分析不同地区媒体报道的差异，因此与传统的信息统计分析等情报学方法又有一定的区别，可作为特定信息集合的信息挖掘和特征提取的实践应用。

在进行文本挖掘工作前，我们需要对所操作的对象进行抽象化。如果将一篇新闻报道看做一个实体的话，那么新闻报道所反映的信息可以看做该实体的属性，我们可以将实体所关注的重点进行抽象。如：某篇新闻（实体）是关于世博会安全保障（属性）方面的报道，那么安全保障即为该实体的属性，是这篇报道的主要内容。本文关注的是在一个实体集合中哪些属性是他们的共同特征，并且与另外的实体集合有哪些差异，并进行比较。例如：对于上海世博会的报道，香港地区媒体和上海本地媒体就是不同的实体集合，在这两个实体集合中哪些属性是相同的，如报道的关注度主要集中在哪里，哪些又是不同的，如香港地区媒体主要侧重于哪些方面的报道等。我们希望通过文本挖掘的方式进行报道差异的分析。

为了便于实现计算机的文本挖掘，需要建立相应的实体—属性对应关系，这里我们引入了一级属性和二级属性的概念，如下图所示：

依据上文的解释，属性是用来描述某一实体的特征，对于新闻报道来说可以体现为具体内容的抽象，如世博会安全保障（属性）是某篇新闻（实体）的核心内容。然而，安全保障这个属性又是较为抽象的概念，需要将其进一步拆分，如安检、园区秩序等均可用来具体描述安全保障的内容。因此，在设计实体—属性关系时，一级属性用来描述实体的核心内容，而二级属性用来具体表述抽象的属性。

对于不同的实体，都有相应的属性描述，当一类实体组成一个实体集合（如上海本地媒体关于上海世博会报道的集合）时，属性就能反映出不同实体集的差异和不同的关注点。

3 网络版新闻媒体挖掘实现流程

网络版新闻报道是一种文本文件格式，相对于关系数据库中的信息来说属于非结构化信息，如今对非结构化信息挖掘的难点之一是自然语言的处理。为了降低自然语言处理的难度，我们首先将非结构化文本内容通过程序自动导入数据库，形成结构化数据，对结构化数据再进行简单的自然语言识别以实现属性抽取操作，并建立属性（内容）同实体（新闻）的关联关系，进而实现对新闻报道的文本挖掘。流程如图2所示：

我们使用检索策略从网上获取关于上海世博会新闻报道的专题集，在形成专题报道集的过程中，对文本信息进行相应规范化处理，运用自行开发的软件实现内容自动入库，并形成以地区为分类标准的不同实体集合。

对于入库的文本信息，提取新闻属性，首先要创建一个属性关系集合，在集合中包含一级属性和二级属性的关系。确定属性集合的方法分两步：①确定一级属性集合，我们采用的方法是人工对《胡锦涛考察世博会筹办要求确保安保万无一失》的讲话，以及俞正声《万众一心全力以赴办好世博会》的讲话进行内容整理，统计出9个一级属性，分别为：服务保障、安保工作、外事工作、新闻宣传、社会氛围、场馆建设、科技创新绿色生活、世博园场馆、世博相关等；②确定二级属性集合，我们的方法是采用第三方软件（WordSmith）对文本集进行词频统计，人工筛选出与世博有关的高频信息，通过筛选我们获得近200个高频信息，在人工的干预下实现一级属性和二级属性的映射关系。表1显示的是我们获取的部分属性：

这样一级属性和二级属性就可抽象为如下的逻辑关系：

{KNo，KName，KListk}， KListk = ，k=1，2，…，R；i=1，2，…，n。其中，KNo为属性编号，KName为一级属性名，R为一级属性分类数，KListk为类别K的二级属性，共有n个相应二级属性。

4 新闻媒体属性抽取模型

新闻媒体报道的语言具有自然语言的特点，在属性特征抽取时如果仅仅以建立的二级属性表进行简单的匹配处理将使得处理结果的准确性受到影响，因此我们在特征提取时考虑运用相似度的算法来匹配较为相近的内容，提高属性抽取的完整性。

基于文本挖掘的新闻媒体分析首先是确定信息抽取的方法，提取描述实体的属性信息。根据图1实体—属性关系，抽取的模板为：Template={TNo, TName, News, KSet}

其中，TNo为模板的编号，TName为实体集的名称，取值为所选取的媒体名称，如《解放日报》等；News为实体名称，取值为具体新闻名称，如《站在历史的连接点上——写在上海世博会开幕之际》；KSet为实体描述的属性集合，该属性集合是一个细分的属性描述，即二级属性，能够反映某一News的报道内容。

抽取过程中要对自然语言进行相应的判断，我们运用相似度的计算，公式如下所示：

这里的TigerKey为二级属性KListk的触发器{t1,t2,t3,……tn}，通过这些词汇的存在来进行信息的抽取，但考虑到自然语言的表述问题，需要对出现的词汇进行相似度判断。公式中，S表示为一个句子，在属性抽取过程中，计算句子和TigerKey触发器的相似度，当大于一个阀值时，确定为某一KSet的内容。通过相似度的算法，在属性抽取过程中，程序将“安全检测”和“安全检查”视为同一属性描述，并进行提取。这样可以保证由于自然语言表述不同所造成的属性抽取错误。

为了更好地挖掘新闻内容，需要对新闻实体所包含的各种描述属性进行挖掘。我们在对新闻报道进行浏览时，发现一篇新闻报道虽然有某一方面的报道侧重点，但不可避免地会涉及到多个主题，如报道世博服务为主题的新闻报道，还会涉及关于安全保障等方面的内容。因此，为了全面地反映相关内容，在属性提取时，我们考虑实体和属性一对多的关系，并设计了一对多的新闻实体模板，如表2所示。

在具体操作中，属性抽取的基本算法如下：

（1）选取新闻报道专集文本（如台湾媒体），从二级属性中获得属性集合{ KListk |=k=1,2,…,s}；

（2）k=1；

（3）获取新闻专集{TNj|j=1,2,……s}；

（4）j=1，GetNews（TNj）；

（5）在TNj的句子S中查找KListk，SearchKeyword（S，KListk）；

（6）如果找到，则将KListk置于缓冲区内，SetKeywork（KListk），结合相似度算法查找相似属性；

（7）如果一篇新闻查找结束，并且缓冲区不为空，则取出缓冲区的内容，按照一级属性和二级属性的关系模板标识相关新闻实体模板，填充新闻名称、属性集合、相似属性；

（8）如果j>s，则新闻专题集结束，否则j=j+1，转（4）；

（9）如果k>s，则属性集合结束，否则k=k+1，转（2）。

5 基于文本挖掘的媒体报道差异分析

我们选取了国内上海、香港、台湾及国外媒体华语版2010年4-11月关于世博报道的29 000篇新闻，这些报道来自于《解放日报》、《新民晚报》、《大公报》、《香港商报》、《香港文汇报》、《经济日报》、《联合报》、《中国时报》、《星洲日报》（马来西亚）、《明报》（加拿大）、《联合早报》（新加坡）等共计30家中文版主流媒体，具体分布如表3所示.

国外媒体华语版我们选取了亚洲媒体8家、北美媒体3家，总报道量为3 436篇。对这些新闻文本，我们也进行了字数统计，表4是各媒体报道的平均字数。

从统计的平均报道字数上来看，各地媒体对世博会的报道还是较为重视的，报道的篇幅也较长，报道较为全面。

根据文本挖掘、属性相似匹配以及属性的对照关系，我们对29 000篇来自香港、台湾、上海、国外媒体华语版的新闻报道进行处理，可以大致发现，这些报道更多地集中在对世博会社会氛围、安保工作、科技创新绿色生活方面，图3显示了相关的统计结果。

本次世博会突出绿色环保这一主题，并且参观人数超过7 300万，因此媒体对“科技创新绿色生活”和世博“安保工作”的关注度较高是可以理解的，同时世博会又产生了巨大的社会效应，如对志愿者的宣传等。然而，让我们感到有些意外的是关于具体场馆的关注度并不高，看来媒体更加关注世博会的宣传和安全运营。

我们对各地媒体报道关注度的差异进行了对比分析，发现不同地区对这三大主题的关注度有一定细微的差异。见图4。

从图4我们可以看到，在三大主要宣传主题中，上海媒体报道量较为平均，分别为24%、26%和29%，而香港、台湾、国外媒体华语版的报道则相对有其侧重点，其中香港和台湾媒体更关注世博会的主题，对科技创新绿色生活专题的报道较多，分别占报道总量的39%和41%，国外媒体华语版则更多地关注世博会的安保工作，共有34%的报道量反映这方面的问题。

图5从左至右，由上到下分别显示了上海媒体、台湾媒体、香港媒体、国外媒体华语版在2010年4-11月期间关于世博会三大主要内容报道的走势。

可以看出，各地媒体对世博会关注的热度基本保持稳定，对所关注的主题也基本保持平稳的走势。仅有国外媒体华语版在5月份以后，报道量有一定下降，但是降幅不大，仍然保持一定的关注热度。

此外，从二级属性来看，各地媒体所关注的细节也有所差异，我们选取了关注的前五项进行对比分析，见图10。

从表5中我们可以发现，各地媒体共同关注的内容主要集中在科技创新、绿色环保以及参观人数方面，说明世博主题和参观人数是各媒体的关注重点，然而各地媒体在报道中也有一些差异，如：上海媒体在志愿者（小白菜）这方面有较多的报道，但其他地区媒体则对此关注较少，说明对于世博的社会效应关注不够；另外国外媒体华语版对世博园区内人流、排队秩序方面关注较多，说明其对世博的安全运营较为关注。

6 结束语

随着网络和信息技术的不断发展，网络上的文本信息呈几何数增长，面对海量的信息，人工对其进行相关分析已变得不可能。因此，借助于文本挖掘技术发现潜在的有价值的信息是情报分析研究的一个重要应用。本文以上海世博会媒体网络报道为例，运用文本挖掘技术并辅以属性抽取、属性关系映射等方法，实现了对海量数据的聚类分析，并对差异进行了比较研究。在实际研究中，考虑到新闻报道中大量采用自然语言的特点，在属性抽取时结合了相似度的算法，使挖掘的准确率得到了提高。但是，对于属性之间的有向关系、属性的相关分析、以及如何保证属性构建的准确性等问题还需要进一步的探讨。

参考文献：

[1] Feldman R， Dagan I. Knowledge discovery in textual databases (KDT)// Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95) ,1995 :112-117.

[2] Mothe J , Chrisment C, Dkaki T. Information mining - use of the document dimensions to analyse interactively a document set// BCS - IRSG 23rd European Colloquium on Information retrieval research, GMD-IPSI, Darmstadt，2001:6-20.

[3] Ghanem M, Chortaras A, Guo Y, et al. A grid infrastructure for mixed bioinformatics data and text mining. Computer Systems and Applications ,2005, 34(1):116-130.

[4] Karanikas H, Tjortjis C, Theodoulidis B. An approach to text mining using information extraction// Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases. Lyon, France,2000:13-16.

[5] Montes-y-Gómez M, Gelbukh A, López-López A. Text mining at detail level using conceptual graphs// Proceedings of the International Conference on Conceptual Structures.New York: Springer,2002，32-40.

[6] Hu Q h, Yu D R, Duan Y F,et al. A novel weighting formula and feature selection for text classification based on rough set theory. Proceedings of Natural Language Processing and Knowledge Engineering ,2003: 638.

[7] Blake C, Pratt W. Better rules,few features :A semantic approach to selecting features from text// Proceedings of 2001 IEEE International Conference on Data Mining ,2001：59–66.

[8] Kawahara M, Kawano H. An application of text mining:Bibliographic navigator powered by extended association rules// Proceedings of 33rd Hawaii International Conference on System Sciences, 2000：2009-2018.

[9] Girju R, Moldovan D. Text mining for causal relations// Proceedings of the International Florida Artificial Intelligence Research Society (FLAIRS 2002) ,Pensacola ,Florida. May 2002：360-364.

[10] Lin D K, Pantel P. DIRT - Discovery of inference rules from text. Journal of Natural Language Engineering. Fall-Winter ,2001(12) :22-31.

[11] Bingham E. Topic identification in dynamical text by extracting minimum complexity time components// Proceedings of ICA,2001:546-551.

[12] Montes-y-Gómez M, Gelbukh A, López-López A. Discovering ephemeral associations among news topics// Proceedings of IJCAI—— 2001 Workshop on Adaptive Text Extraction and Mining, 2001:216-230.

[13] Lent B , Agrawal R, Srikant R. Discovering trends in text databases// Proceedings of the Third International Conference on Knowledge Discovery and Data Mining,1997： 227-230.

[14] 周茜,赵明生, 扈曼.中文文本分类中的特征选择研究.中文信息学报,2004 ,18(3) :17-23.

[15] 卢娇丽,郑家恒.基于粗糙集的文本分类方法研究.中文信息学报,2005 ,19(2) :66-70.

[16] 刘云峰,齐欢.基于潜在语义空间维度特性的多层文档聚类.清华大学学报(自然科学版) ,2005 ,45 (S1) :1783-1786.

[17] 丁堃,刘盛博,许侃. 基于文本挖掘机制的区域经济关系分析.情报学报,2006,27（3）:418-424

网络舆情观点的挖掘方法研究第3篇

舆情[1]是指在一定的社会空间内, 围绕中介性社会事项的发生、发展和变化, 作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。网络舆情[1]是由于各种事件的刺激而产生的通过网络传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情具有自由性、交互性、多元性、偏差性和突发性等特点。

数据挖掘[2]又称为数据库中的知识发现, 是从大量的、不完全的、有噪声的、模糊的、随机的数据集中, 提取有效的、新颖的、潜在有用的、以及最终可理解模式的过程。数据挖掘技术包括关联规则、分类、聚类和预测等。

网络舆情挖掘[3]是网络舆情与数据挖掘的融合。网络舆情挖掘在网络舆情的研究中处于核心地位, 是网络舆情处理的基础。网络舆情挖掘对于正确判断和掌控局势, 及时处理突发事件和应对复杂局面, 进而维护安全和稳定具有重要意义。

2 网络舆情转载评论阶段

网络舆情生命周期主要有三个发展阶段:初始产生阶段、访问阅览阶段和转载评论阶段。其中, 网络舆情转载评论阶段, 表现为用户的大量转载和评论, 转载和评论速度极快, 难以用传统的挖掘方法解决。因此, 网络舆情转载评论阶段的挖掘急需在挖掘方法上取得突破。

传统的网络舆情观点挖掘方法以传统的基于SVM的观点挖掘方法为代表, 集中在褒贬程度的粗略分析, 缺乏基于情感的细粒度分析。而通过对用户的评论信息进行细粒度的情感分析[4,5], 可以更为准确地分析出用户所持有的态度和观点倾向性, 可以有效地帮助了解用户意愿, 做出及时的反馈。因此, 在网络舆情转载评论阶段, 迫切需要提出新的网络舆情观点的挖掘方法。

3 网络舆情观点的挖掘方法 (MNPOS)

针对传统的网络舆情观点挖掘方法的不足, 论文提出网络舆情观点的挖掘方法 (MNPOS) 。该方法包括两个部分:即离线处理部分和在线处理部分。

离线处理部分:首先, 以知网How Net情感词集为基础, 选择两组具有明显正向和负向极性的词语作为基准词;然后, 计算知网How Net情感词集中的情感词与基准词的相似程度, 得出情感词的情感度权值;最后, 构建出情感词库, 包括情感词和情感度权值。

在线处理部分:首先, 抓取评论页面, 提取评论信息到评论数据库;然后, 进行分句、分词与标注;最后, 根据情感词库, 计算每条评论信息中词语的情感倾向度, 从而得到每条评论信息的情感倾向度, 整合后获得所有评论信息的综合情感倾向度。

网络舆情观点的挖掘方法 (MNPOS) 如图1所示。

网络舆情观点的挖掘方法 (MNPOS) , 采用离线处理和在线处理相结合, 对评论信息进行细粒度的情感分析, 能够更为准确地挖掘出用户对持有的态度和观点倾向性。

4 网络舆情观点的挖掘方法 (MNPOS) 实验

实验采用学校的图书评论作为实验材料, 共5348条图书评论。本文的实验采用中科院计算技术研究所的分词软件IC-TCLAS进行分词。以知网How Net情感词典为辅助。实验结果采用查准率 (Precision) , 查全率 (Recall) 两个指标进行评价。计算方式如下:

其中, #gold (opinion=Y) 是人工标注结果的观点句数目, #system_correct (polarity=POS, NEG, OTHER) 是实验结果中与人工标注相匹配的观点句数目, #system_proposed (opinion=Y) 是实验结果中观点句的数目。

对网络舆情观点的挖掘方法 (MNPOS) 、传统的基于SVM的观点挖掘方法进行情感分析对比实验, 实验结果如表1所示。

通过实验结果可以得出, 与传统的基于SVM的观点挖掘方法相比, 网络舆情观点的挖掘方法 (MN-POS) 在查准率 (Precision) , 查全率 (Recall) 有较为明显的优势。

5 结束语

论文提出网络舆情观点的挖掘方法 (MNPOS) 。MNPOS采用离线处理和在线处理相结合, 对评论信息进行细粒度的情感分析, 能够更为准确地挖掘出用户对持有的态度和观点倾向性。实验结果表明, MN-POS是准确和有效的。

参考文献

[1]王国华, 曾润喜, 方付建.解码网络舆情[M].武汉:华中科技大学出版社, 2011年.

[2]Jiawei Han, Micheline Kamber, Jian Pei.Data Mining:Concepts and Techniques, Third Edition[M].Massachusetts:Morgan Kaufmann Publishers, 2011.

[3]刘磊.网络舆情深入挖掘模式研究[J].情报探索, 2010, 24 (12) :9-11.

[4]魏韡, 向阳, 陈千.中文文本情感分析综述[J].计算机应用, 2011, 31 (12) :3321-3323.

文本挖掘的网络舆情第4篇

1 突发事件舆情与预警时所面临的困难

1.1 网络舆情与突发事件的关系进一步加深了预警难度的处理

突发事件在我国主要是事件的突然发生, 在一定的程度上很容易造成社会危机, 带来严重危害。突发事件与其他的事件是不同的, 突发事件最主要的特点是破坏性、突发性等, 在特殊的情况下就会转化成公共危机。

1.2 现有舆情系统对突发事件处理的能力不够

网络舆情分析的预警融汇了各种学科知识, 如数据挖掘、计算机网络等, 这里面涉及到了有关网络舆情的信息采集、对信息的分析、处理等全过程。在最近几年来, 国内外的学者也从各个角度中分析了网络舆情预警处理系统, 针对讨论的结果开发出了一些系统, 比如说方正、Review等。这些系统在一定的程度上都为网络舆情分析提供一定的条件与支持。但是从整体上来看这些软件的功能还没有达到网络舆情分析智能化的程度, 其中都存在着这样那样的不足, 目前还没有形成一个完整的系统。

第一, 舆情的信息资源整合程度不高。从现有的舆情系统来看信息源显然是不够的, 对各种各样的信息整合力度也不大, 这样就会导致不能够进行全网采集, 就会制约舆情预警的效果。另一方面, 当前的舆情系统一般都是借助搜索引擎等工具来搜索信息的, 算法简单, 导致很多信息在搜索出来的时候发生重复, 甚至会产生虚假信息, 降低信息的采集效率。

第二, 舆情分析的过程缺少智能化、信息分析的程度不够深。现在舆情预警系统在处理信息方面, 仅仅就是将收集到的信息经过简单的处理后交给工作人员进行分析或是借助统计学来分析, 导致信息仅仅停留在表面上, 就没有办法深入挖掘数据背后的深刻含义。

第三, 舆情预警的判断力偏弱。目前现有的舆情预警系统一般都是自动与人工相结合的方式, 几乎没有设置科学系统预警指标体系, 在一定程度上就会导致预警结果没有办法满足决策的需要。

2 基于Web挖掘突发事件的网络舆情预警分析

2.1 Web挖掘

Web挖掘主要是指数据挖掘在Web上的应用, 综合使用了数据挖掘、自然语言处理等智能技术来提取人们感兴趣的内容。根据不同的挖掘对象, Web挖掘可以分为三种形式:Web内容挖掘、结构挖掘、使用挖掘。与传统的网络舆情分析方法相比, Web挖掘的最大优点就是可以得到指定时间内的状况与热点。

2.1.1 Web内容挖掘

内容挖掘主要就是指从Web文档本身中的内容进行知识的抽取, 同时还可以针对大量的Web文本集合进行分析。

2.1.2 Web使用挖掘

主要就是通过挖掘Web的使用数据来进行浏览者行为模式的提取, 来获取有价值的信息。Web使用挖掘主要就是通过挖掘用户上网的信息等资源来更好的为用户提供智能化的服务。另外通过Web使用挖掘还可以分析与预测网民的行为。

2.1.3 Web结构挖掘

主要就是通过网页链接结构来挖掘有价值的信息的过程, 大量的链接信息是进行舆情分析的重要资源。

2.2 基于Web挖掘的突发事件网络舆情预警的过程