摘 要:为了实现文档的情感化抓取,设计了一款应用于网页文档搜索的智能型爬虫软件,相对于一般搜索引擎,更专注于从智能化和情感化角度实现海量Web 文本数据的发现和呈现。文章对搜索关键字的智能化语义校正方法进行了研究,对于一些疏忽导致的语义错误,设计相关算法进行自动化校正;实现了搜索文本的情感化排序,搜索结果的返回不仅仅是关键字的匹配,还进行情感分类标注;利用文档的情感标签对一些网络暴力、虚假评论等文档进行文本甄别。
关键词:网络爬虫;搜索引擎;情感分析;主题模型
中图分类号:TP391.3 文献标识码:A 文章编号:2096-4706(2020)23-0097-03
Design and Implementation of Sentimental Intelligent Web Crawler
PENG Xinyue,FAN Yan,XU Haifeng
(School of Math and Computer Science,Jiangxi Science & Technology Normal University,Nanchang 330038,China)
Abstract:In order to achieve emotional crawling of documents,an intelligent crawler software for web document search is designed. Compared with general search engines,it focuses more on the discovery and presentation of massive Web text data from the perspective of intelligence and emotion. This paper studies the intelligent semantic correction method of search keywords,and designs relevant algorithms for automatic correction of semantic errors caused by negligence;realizes the emotional sorting of search text,and the return of search results is not only the matching of keywords,but also the emotional classification annotation;uses the emotional label of the document to distinguish some documents such as network violence and false comments.
Keywords:web crawler;search engine;sentiment analysis;topic model
基金项目:江西科技师范大学大学生创新创业训练计划项目(202011318015)
参考文献:
[1] LIU B. Sentiment analysis and opinion mining [M].SanRafael:Morgan & Claypool Publishers,2012.
[2] 郑秋生,夏敏捷.Python 项目案例开发从入门到实战 [M].北京:清华大学出版社,2018.
[3] 吴钰洁,朱福喜,周竞. 基于概率图模型的文本情感分析 [J]. 小型微型计算机系统,2015,36(7):1421-1425.
[4] 宋佳颖,黄旭,付国宏. 基于词语情感隶属度特征的情感极性分类 [J]. 北京大学学报(自然科学版),2016,52(1):171-177.
[5] BLEI D M,NG A Y,JORDAN M I. Latent DirichletAllocation [J].Journal of Machine Learning Research,2003,3:993-1022.
[6] 李卫疆,漆芳. 基于多通道双向长短期记忆网络的情感分析 [J]. 中文信息学报 2019,33(12),119-128.
[7] 赵容梅,熊熙,琚生根,等. 基于混合神经网络的中文隐式情感分析 [J]. 四川大学学报(自然科学版),2020,57(2):264-270.
作者简介:彭欣悦(2001—),女,汉族,江西宜春人,研究方向:数据挖掘。