摘 要:针对地震发生后新闻种类繁多,无法准确获取地震相关新闻的问题,该文提出了一种通过互联网获取地震信息并对地震信息进行文本信息识别的方法,可以识别文本信息是否为地震信息。采用 Python 爬虫技术对结构不同的新闻网站进行数据采集,并基于 fastText 的文本分类模型对数据进行分类训练,实验结果表明:该方法能够有效地对新闻进行分类,获取所需地震新闻。
关键词:深度学习;文本分类;数据采集;自然语言处理
DOI:10.19850/j.cnki.2096-4706.2021.03.002
基金项目:防灾科技学院 2020 大学生创新 创业项目(202011775092)
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2021)03-0005-04
Earthquake Information Text Classification Method Based on fastText
WANG Zhonghao,CUI Kewei,ZHANG Xin,YANG Zhenzhong,LIU Shuai
(Institute of Disaster Prevention,Sanhe 065201,China)
Abstract:In response to the problem that there are many kinds of news after an earthquake and it is impossible to obtain earthquake related news accurately,this paper proposes a method to obtain earthquake information through the internet and perform text information recognition on earthquake information,which can identify whether the text information is earthquake information or not. Python crawler technology is used to collect data from news websites with different structures,and carry out classification training on data based on fastText’text classification model. The experimental results show that the method can effectively classify the news and obtain the required earthquake news.
Keywords:deep learning;text classification;data collection;natural language processing
参考文献:
[1] 严石 . 基于改进 TF-IDF 和 fastText 算法的文本分类研 究 [D]. 淮南:安徽理工大学,2020.
[2] 陈子豪,谢从华,时敏,等 . 基于 fasttext 模型的中文专 利快速分类 [J]. 常熟理工学院学报,2020,34(5):47-50.
[3] KIM Y. Convolutional Neural Networks for Sentence Classification [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).Doha: Association for Computational Linguistics,2014:1746–1751.
[4] 林国祥,詹先银,薛醒思,等 . 基于 fastText 的股票咨询 案例中文短文本分类技术 [J]. 宝鸡文理学院学报(自然科学版), 2020,40(3):48-52.
[5] JOULIN A,GRAVE E,BOJANOWSKI P,et al. Bag of Tricks for Efficient Text Classification [C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics:Volume 2,Short Papers.Valencia: Association for Computational Linguistics,2017:427-431.
[6] 曾小芹 . 基于 Python 的中文结巴分词技术实现 [J]. 信息 与电脑(理论版),2019,31(18):38-39+42.
[7] 全国地震标准化技术委员会(SAC/TC 225). 地震行业 标准体系:DB/T 1-2008 [S]. 北京:地震出版社,2008.
[8] 王琳,姜立新,杨天青,等 . 地震应急信息自动分类方法 研究 [J]. 震灾防御技术,2019,14(4):907-916.
[9] 崔满丰,张晋辉 . 基于网站的地震应急信息发布技术 [J]. 地震地磁观测与研究,2020,41(4):232-238.
作者简介:王钟浩(1997—),男,汉族,内蒙古赤峰人,硕 士研究生在读,研究方向:自然语言处理;崔珂玮(2000—),男, 汉族,山东临沂人,本科在读,研究方向:计算机科学与技术;张 鑫(2000—),男,汉族,安徽芜湖人,本科在读,研究方向:计 算机科学与技术;杨振中(1999—),男,汉族,河北邯郸人,本 科在读,研究方向:计算机科学与技术;通讯作者:刘帅(1983—), 男,汉族,河北保定人,讲师,硕士,研究方向:软件工程和大数 据分析。