摘 要:网络爬虫是当前较流行的网络搜索引擎工具,其设计需要不断优化,研究也需要不断深入。主题网络爬虫抓取目标明确、抓取结果的结构性较好,更便于进行分析。该文报告了网络爬虫技术的现状,从主题网络爬虫的基本结构入手,对当前主题网络爬虫主流系统的系统功能架构和主要功能模块进行了研究,并分析了当前主流系统的多线程管理模式,特别对基于Java开源框架的爬虫系统的多线程进行分析,为网络爬虫性能的提高提出更进一步的方法。
关键词:多线程;主题;网络爬虫
中图分类号:TP391.3 文献标识码:A 文章编号:2096-4706(2020)07-0083-04
Research on Multi-threaded Web Crawler System Based on Theme
SONG Tingting
(Minjiang University,Fuzhou 350108,China)
Abstract:Web crawlers are currently popular web search engine tools,and their design needs to be constantly optimized,and research needs to be constantly deepened. Topic crawlers have clear crawling targets and better structure of crawling results,which is easier to analyze. This article reports on the current status of web crawler technology. Starting from the basic structure of the theme web crawler,the system functional architecture and main functional modules of the current mainstream system of the theme web crawler are studied,and the multi-thread management mode of the current mainstream system is analyzed. In particular,the multithreading of the crawler system based on the Java open source framework is analyzed,and a further method for improving the performance of the web crawler is proposed.
Keywords:multi-thread;theme;web crawler
基金项目:福建省教育厅中青年教师教育科研项目(JT180402)
参考文献:
[1] 葛玲. 基于查询扩展的主题爬虫研究 [D]. 北京:北京工业大学,2009.
[2] 孙青云,王俊峰,赵宗渠,等. 一种基于模拟登录的微博数据采集方案 [J]. 计算机技术与发展,2014,24(3):6-10.
[3] 陈睿嘉,康志忠,张卫涛. 基于网络爬虫的导航深度服务信息自动采集 [J]. 测绘工程,2015,24(1):17-24.
[4] 段兵营. 捜索引擎中网络爬虫的研究与实现 [D]. 西安:西安电子科技大学,2014.
[5] 王洪威. 主题网络爬虫的分析与设计 [D]. 北京:北京邮电大学,2013.
[6] 陈千. 主题网络爬虫关键技术的研究与应用 [D]. 北京:北京理工大学,2015.
[7] 柴嘉斌,李广华,李长春. 主题爬虫搜索策略的研究 [J].科技信息,2011(12):234-235.
[8] 张晓雷. 面向Web 挖掘的主题网络爬虫的研究与实现 [D].西安:西安电子科技大学,2012.
作者简介:宋婷婷(1980—),女,汉族,福建福州人,讲师,硕士,研究方向:网络爬虫。