摘 要:在大数据时代下,网站的运行面临着越来越多的挑战,各类网络爬虫层出不穷,唯有合理有效地应用反爬虫技术,才能保证网站安全稳定运营,保障网站用户的访问体验。而对于网络爬虫技术而言,了解和掌握网站的反爬虫策略,能促进网络爬虫技术向成熟和稳定的方向发展。文章对基于Python 的网络爬虫和反爬虫技术进行了分析研究,在保证网站反爬虫技术的高质量应用的同时,对于提升网络爬虫抓取效率,具有十分重要的意义。
关键词:网络爬虫;反爬虫;Python
DOI:10.19850/j.cnki.2096-4706.2021.21.039
课题项目: 国家电网有限公司科技项目:提高技术创新能力及群众性创新课题研究(2021YF-86)
中图分类号:TP311 文献标识码:A 文章编号:2096-4706(2021)21-0149-03
Research on Web Crawler and Anti-Crawler Technology Based on Python
ZHOU Yi, NING Liang, WANG Ou, SUN Haibo, HE Jin
(Information and Communication Branch of State Grid Liaoning Electric Power Supply Co., Ltd., Shenyang 110055, China)
Abstract: In the era of big data, the operation of websites is facing more and more challenges, and various types of web crawlers emerge in an endless stream. Only using anti-crawler technology reasonably and effectively, can the security and stable websites’ operation be guaranteed, and ensure website users get normal access experience. For the web crawler technology, understanding and mastering anti-crawler strategies of websites can advance the development of web crawler technology towards a mature and stable direction. This paper analyzes and studies the web crawler and anti-crawler technology based on Python, which is of great significance to ensure the high-quality application of website anti-crawler technology and improve the crawling efficiency of web crawler.
Keywords: web crawler; anti-crawler; Python
参考文献:
[1] 望江龙,王晓红. 基于Python 爬虫技术实现 [J]. 电脑编程技巧与维护,2019(9):18-20+41.
[2] 伏康,杜振鹏. 网站反爬虫策略的分析与研究 [J]. 电脑知识与技术,2019,15(28):28-30.
[3] 谢克武. 大数据环境下基于python 的网络爬虫技术 [J].电子制作,2017(9):44-45.
[4] 胡松涛.Python 3网络爬虫实战 [M].北京:清华大学出版社.
[5] 刘同斌,陈晓湖,何晔文. 一种基于爬虫技术的多源配电网运行报表自动生成及管理工具设计与实现 [J]. 机电信息,2020(36):126-127.
[6] Python 3.x 网络爬虫从零基础到项目实战 [M]. 北京:北京大学出版社.
作者简介:周毅(1992—),男,汉族,辽宁鞍山人,中级工程师,硕士研究生,研究方向:信息通信;宁亮(1981—),女,汉族,辽宁海城人,高级工程师,硕士研究生,研究方向:信息通信;王鸥(1982—),女,汉族,辽宁鞍山人,高级工程师,硕士研究生,研究方向:信息通信;孙海波(1993—),男,汉族,山东安丘人,初级工程师,硕士研究生,研究方向:信息通信;何金(1983—),男,汉族,辽宁阜新人,高级工程师,本科,研究方向:信息通信。