0 引言
网络舆情是指网络用户对社会各方面热点问题所发表的见解和建议的舆论,是社会舆情的一种体现,是公众对社会中各种热点事件和问题所表达的态度、想法、情绪等的集合。互联网的快速发展使得网络舆情的形成和传播速度不断提升,对社会的影响巨大。
文献[1]证明了网络舆情的发展具有混沌的特性,即表现为乱序、无规则、随机变化。在网络舆情传播的过程中,微博给网络舆情的形成、发酵和传播提供了一个强大的互联网平台,给其用户提供了一个向全世界分享信息、发表评论和表达诉求的平台,这些舆论内容在短时间内会大规模地扩散,甚至会影响事件的走向。
本文首先实现一个基于Scrapy框架的微博评论爬虫,将某热点事件的若干条微博评论进行爬取并存进数据库,然后进行文本分割和LDA(Latent Dirichlet Allocation)主题聚类,最后采用TFIDF-NB(Term Frequency Inverse Document Frequency-Navie Bayes)算法进行文本情感分类。
(1)爬虫
爬虫全称为网络爬虫,是一种可以对互联网上的信息进行自动化浏览的网络脚本或程序,可实现对海量互联网信息进行浏览、爬取等操作,并将抓取到的信息存储于本地中。
网络爬虫可以分为4种[2]:通用网络爬虫[3]、主题网络爬虫[4]、增量式网络爬虫[5]、深层网络爬虫[6-7]。
(2)情感分类
情感分析是指识别文本中潜在的想法、情感和态度的方法[8]。情感分类是情感分析的核心内容,情感分类的作用是识别文本数据中的观点,对情感的积极或消极情绪进行分类[9]。
目前情感分类主要有两种方法,一种是基于词典的方法[10-13],另一种是基于机器学习的方法[14-16]。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003464
作者信息:
杨 戈1,2,杨麓涛1
(1.北京师范大学珠海分校 智能多媒体技术重点实验室,广东 珠海519087;
2.北京大学深圳研究生院 深圳物联网智能感知技术工程实验室,广东 深圳518055)
凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。