当前位置>主页 > 期刊在线 > 信息技术 >

信息技术23年3期

基于 Scrapy 的新浪微博数据爬虫研究
邓晓璐,姚松
(广东科学技术职业学院,广东 珠海 519090)

摘  要:为了快速获取到新浪微博中的数据,在学习和分析当前爬虫技术的原理、核心模块和运行过程的基础上,文章将探索实现一个基于Scrapy框架的网络爬虫工具,以完成数据捕获等目标。该工具可根据一个或多个微博关键词搜索相关微博信息,并将搜索结果写入本地文件。实验结果显示:该爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有一定的实时性和准确性。


关键词:Scrapy;新浪微博;数据抓取



DOI:10.19850/j.cnki.2096-4706.2023.03.010


基金项目:广东省教育厅科研项目 - 青年创新人才类项目(2020KQNCX157)


中图分类号:TP391.3                                     文献标识码:A                                  文章编号:2096-4706(2023)03-0044-04


Research on MicroBlog Data Crawler Based on Scrapy

DENG Xiaolu, YAO Song

(Guangdong Polytechnic of Science and Technology, Zhuhai 519090, China)

Abstract: In order to quickly obtain the data in MicroBlog, based on learning and analyzing the principle, core modules and operation process of current crawler technology, this paper will explore and implement cyber crawler tool based on the Scrapy framework to achieve data capture and other goals. This tool can search relevant MicroBlog information according to one or more MicroBlog keywords, and write the search results into local files. The experimental results show that the crawler has a better speedup ratio and can quickly obtain data, and the data have a certain degree of real-time and accuracy.

Keywords: Scrapy; MicroBlog; data capture


参考文献:

[1] 谢蓉蓉,徐慧,郑帅位,等 . 基于网络爬虫的网页大数据抓取方法仿真 [J]. 计算机仿真,2021,38(6):439-443.

[2] 李俊华 . 基于 Python 的网络爬虫研究 [J]. 现代信息科技,2019,3(20):26-27+30.

[3] 王锋,王伟,张璟,等 . 基于 Linux 的网络爬虫系统 [J].计算机工程,2010,36(1):280-282.

[4] SU F,LIN Z W,MA Y. Modeling and Analysis of Internet Worm Propagation [J].The Journal of China Universities of Posts and Telecommunications,2010,17(4):63-68.

[5] 杨宇,孙亚琴,闫志刚 . 网络爬虫的专题机构数据空间信息采集方法 [J]. 测绘科学,2019,44(7):122-127+140.

[6] 曾健荣,张仰森,郑佳,等 . 面向多数据源的网络爬虫实现技术及应用 [J]. 计算机科学,2019,46(5):304-309.

[7] 张宁蒙 . 基于 Python 的网络爬虫技术探析 [J]. 移动信息,2020(2):84-85.

[8] 汪岿,费晨杰,刘柏嵩 . 融合 LDA 的卷积神经网络主题爬虫研究 [J]. 计算机工程与应用,2019,55(11):123-128+178.

[9] 龙香妤 . 基于网络爬虫技术的数据抓取程序的设计 [J]. 技术与市场,2021,28(10):41-43.

[10] 张胜敏,王爱菊 . 基于 Python 的分布式多主题网络爬虫的研究与设计 [J]. 开封大学学报,2021,35(1):93-96.


作者简介:邓晓璐(1994.01—),女,汉族,江苏徐州人,助教,硕士研究生,研究方向:推荐系统;姚松(1997.11—),男,汉族,广东珠海人,助理研究员,硕士研究生,研究方向:数据挖掘。