基于爬虫和TFIDF-NB算法的微博情感分析

2021年电子技术应用第4期

杨戈1，2，杨麓涛1

1.北京师范大学珠海分校智能多媒体技术重点实验室，广东珠海519087； 2.北京大学深圳研究生院深圳物联网智能感知技术工程实验室，广东深圳518055

摘要： 针对微博网络舆情信息量大、无规则、随机变化的特点，提出TFIDF-NB(Term Frequency Inverse Document Frequency-Naive Bayes)用于微博情感分析，设计与实现了一个基于Scrapy框架的微博评论爬虫，将某热点事件的若干条微博评论进行爬取并存进数据库，然后进行文本分割、LDA(Latent Dirichlet Allocation)主题聚类，最后使用TFIDF-NB算法进行情感分类。实验结果表明，TFIDF-NB算法平均准确率高于线性支持向量机算法和K近邻算法，在精确率和召回率方面高于K近邻算法，具有较好的情感分类效果。

关键词： 微博舆情网络爬虫情感分类

中图分类号： TN011；TP391.41
文献标识码： A
DOI：10.16157/j.issn.0258-7998.200748
中文引用格式： 杨戈，杨麓涛. 基于爬虫和TFIDF-NB算法的微博情感分析[J].电子技术应用，2021，47(4)：59-62，66.
英文引用格式： Yang Ge，Yang Lutao. Sentiment analysis of Weibo based on TFIDF-NB algorithm[J]. Application of Electronic Technique，2021，47(4)：59-62，66.

Sentiment analysis of Weibo based on TFIDF-NB algorithm

Yang Ge1，2，Yang Lutao1

1.Key Laboratory of Intelligent Multimedia Technology，Beijing Normal University(Zhuhai Campus)，Zhuhai 519087，China； 2.Engineering Lab on Intelligent Perception for Internet of Things(ELIP)，Shenzhen Graduate School，Peking University， Shenzhen 518055，China

Abstract： In view of the large amount of public opinion information on Weibo, irregular and random changes, this paper proposes a Weibo sentiment analysis method based on TFIDF-NB(Term Frequency Inverse Document Frequency-Naive Bayes) algorithm. By coding a Weibo comment crawler based on the Scrapy framework, several Weibo comments on a hot event are crawled and stored in the database. Then text segmentation and LDA(Latent Dirichlet Allocation) topic clustering are performed. And finally the TFIDF-NB algorithm is used for sentiment classification. Experimental results show that the accuracy of the algorithm is higher than that of the standard linear Support Vector Machine algorithm and the K-Nearest Neighbor algorithm, and it is higher than the K-Nearest Neighbor algorithm in terms of accuracy and recall, and it has a better effect on sentiment classification.

Key words : Weibo public opinion；web crawler；sentiment classification

0 引言

网络舆情是指网络用户对社会各方面热点问题所发表的见解和建议的舆论，是社会舆情的一种体现，是公众对社会中各种热点事件和问题所表达的态度、想法、情绪等的集合。互联网的快速发展使得网络舆情的形成和传播速度不断提升，对社会的影响巨大。

文献[1]证明了网络舆情的发展具有混沌的特性，即表现为乱序、无规则、随机变化。在网络舆情传播的过程中，微博给网络舆情的形成、发酵和传播提供了一个强大的互联网平台，给其用户提供了一个向全世界分享信息、发表评论和表达诉求的平台，这些舆论内容在短时间内会大规模地扩散，甚至会影响事件的走向。

本文首先实现一个基于Scrapy框架的微博评论爬虫，将某热点事件的若干条微博评论进行爬取并存进数据库，然后进行文本分割和LDA(Latent Dirichlet Allocation)主题聚类，最后采用TFIDF-NB(Term Frequency Inverse Document Frequency-Navie Bayes)算法进行文本情感分类。

(1)爬虫

爬虫全称为网络爬虫，是一种可以对互联网上的信息进行自动化浏览的网络脚本或程序，可实现对海量互联网信息进行浏览、爬取等操作，并将抓取到的信息存储于本地中。

网络爬虫可以分为4种^[2]：通用网络爬虫^[3]、主题网络爬虫^[4]、增量式网络爬虫^[5]、深层网络爬虫^[6-7]。

(2)情感分类

情感分析是指识别文本中潜在的想法、情感和态度的方法^[8]。情感分类是情感分析的核心内容，情感分类的作用是识别文本数据中的观点，对情感的积极或消极情绪进行分类^[9]。

目前情感分类主要有两种方法，一种是基于词典的方法^[10-13]，另一种是基于机器学习的方法^[14-16]。

本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003464

作者信息:

杨戈1，2，杨麓涛1

(1.北京师范大学珠海分校智能多媒体技术重点实验室，广东珠海519087；

2.北京大学深圳研究生院深圳物联网智能感知技术工程实验室，广东深圳518055)

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部