当前位置>主页 > 期刊在线 > 信息技术 >

信息技术2020年1期

基于Python 爬虫技术的网页解析与数据获取研究
温娅娜,袁梓梁,何咏宸,黄猛
(防灾科技学院,河北 三河 065201)

摘  要:网络的发展,大数据、人工智能的崛起使数据变得尤为重要,各行各业的发展都需要数据的支持,任何一种深度学习以及算法中都需要大量的数据作为模型来训练才能得出较为准确的结论。文中讨论了网络爬虫实现过程中的主要问题:了解网页基本结构、使用直观的网页分析工具对网页进行抓包分析、如何使用正则表达式获取准确的字符串信息、利用Python 实现简单的页面数据获取。


关键词:网络爬虫;Python;正则表达式;抓包分析



中图分类号:TP391.3         文献标识码:A         文章编号:2096-4706(2020)01-0012-03


Research on Web Page Analysis and Data Acquisition Based on Python Crawler Technology

WEN Yana,YUAN Ziliang,HE Yongchen,HUANG Meng

(Institute of Disaster Prevention,Sanhe 065201,China)

Abstract:With the development of network,the rise of big data and artificial intelligence,data becomes more and more important. The development of all walks of life needs the support of data. Any kind of deep learning and algorithm needs a lot of data as a model for training to get a more accurate conclusion. This paper discusses the main problems in the implementation of web crawler:understanding the basic structure of web page,using the intuitive web page analysis tool to analyze the web page,how to use regular expression to obtain accurate string information,and using Python to achieve simple page data acquisition.

Keywords:web crawler;Python;regular expression;packet capturing analysis


基金项目:地震震害防御专项项目;中央高校基本科研业务费专项项目(ZY20180124)


参考文献:

[1] 郭二强,李博. 大数据环境下基于python 的网络爬虫技术 [J]. 计算机产品与流通,2017(12):82.

[2] 李培. 基于Python 的网络爬虫与反爬虫技术研究 [J]. 计算机与数字工程,2019,47(6):1415-1420+1496.

[3] 王朝阳. 基于Python 的图书信息系统的设计与实现 [D].长春:吉林大学,2016.

[4] 徐恒. 社会化网络数据获取技术研究与实现 [D]. 长春:吉林大学,2016.

[5] 孙建立,贾卓生. 基于Python 网络爬虫的实现及内容分析研究 [C]// 中国计算机用户协会网络应用分会2017 年第二十一届网络新技术与应用年会. 中国计算机用户协会网络应用分会2017 年第二十一届网络新技术与应用年会论文集. 河北雄安:《计算机科学》编辑部,2017:275-277+281.

[6] 陈琳,任芳. 基于Python 的新浪微博数据爬虫程序设计 [J]. 信息系统工程,2016(9):97-99.

[7] 陆树芬. 基于Python 对网络爬虫系统的设计与实现 [J].电脑编程技巧与维护,2019(2):26-27+51.

[8] 熊畅. 基于Python 爬虫技术的网页数据抓取与分析研究 [J]. 数字技术与应用,2017(9):35-36.

[9] 吴爽. 基于python 语言的web 数据挖掘与分析研究 [J].电脑知识与技术,2018,14(27):1-2.


作者简介:温娅娜(1999.03-),女,汉族,内蒙古包头人,本科,学士学位,研究方向:人工智能和软件开发应用。