摘 要:针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用 Scrapy 框架结合 Redis 技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于 MongoDB数据库内,实现对数据信息的实时、有效处理分析。经过实际应用测试,证明基于 Scrapy 框架的分布式非结构化网络爬虫系统相较于传统单机系统具有更高的效率。
关键词:分布式;Scrapy 框架;网络爬虫
DOI:10.19850/j.cnki.2096-4706.2021.19.011
课题项目: 国家电网有限公司科技项 目:提高技术创新能力及群众性创新课题研究 (2021YF-86)
中图分类号:TP311 文献标识码:A 文章编号:2096-4706(2021)19-0043-04
Design and Implementation of Distributed Web Crawler System Based On Scrapy Framework
ZHOU Yi, LI Wei, HE Jin, CHENG Lei, LIU Lu
(Information and Communication Branch of State Grid Liaoning Electric Power Supply Co., Ltd., Shenyang 110055, China)
Abstract:Aiming at the problems of low capture efficiency, poor stability and small amount of data on traditional single-machine web crawler, this paper uses Scrapy framework and Redis technology to improve and optimize the traditional web crawler framework, and designs a distributed and unstructured web crawler system, which enables the collected information to be stored in the MongoDB database in an unstructured form, so as to achieve real-time and effective processing and analysis of data information. After practical application test, it is proved that the distributed and unstructured web crawler system based on Scrapy framework has higher efficiency than the traditional single-machine system.
Keywords: distributed; Scripy framework; Web crawler
参考文献:
[1] 米切尔 .Python 网络数据采集 [M]. 南京:东南大学出版社,2018.
[2] YU J K,LI M R,ZHANG D Y. A Distributed Web Crawler Model based on Cloud Computing [C]//The 2nd Information Technology and Mechatronics Engineering Conference (ITOEC 2016).2016: 276-279.
[3] 刘顺程,岳思颖 . 大数据时代下基于 Python 的网络信息爬取技术 [J]. 电子技术与软件工程,2017(21):160.
[4] 施威,夏斌 . 基于 Scrapy 的商品评价获取系统设计 [J]. 微型机与应用,2017,36(19):12-15.
[5] 刘硕 . 精通 scrapy 网络爬虫 [M]. 北京:清华大学出版社,2017.
[6] 徐海啸,董飒,李翔,等 . 分布式网络爬虫框架 Crawlzilla [J]. 电子技术与软件工程,2017(18):25-26.
作者简介:周毅(1992—),男,汉族,辽宁鞍山人,中级工程师,硕士研究生,研究方向:信息通信;李威(1980—),男, 汉族,辽宁鞍山人,高级工程师,硕士研究生,研究方向:信息通信;何金(1983—),男,汉族,辽宁阜新人,高级工程师,本科,研究方向:信息通信;程蕾(1990—),女,汉族,辽宁凌源人,中 级工程师,硕士研究生,研究方向:信息通信;柳璐(1992—),女, 汉族,辽宁东港人,中级工程师,硕士研究生,研究方向:信息通信。