当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术2019年11期

分布式爬虫系统中URL 去重的设计与实现
陈宇伦,周奎
(湖北汽车工业学院 电气与信息工程学院,湖北 十堰 442002)

摘  要:目前全球URL 总数在350 亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web 中获取有价值的数据。基于Redis 数据库设计一种相关去重协议,实现URL 去重,有利于提高分布式系统的稳定性和高效性,以及保持整个系统对URL 去重的一致性。


关键词:分布式爬虫系统;URL 去重;URL 去重协议



中图分类号:TP319         文献标识码:A         文章编号:2096-4706(2019)11-0105-03


Design and Implementation of URL De-duplication in Distributed Crawler System

CHEN Yulun,ZHOU Kui

(School of Electrical and Information Engineering,Hubei University of Automotive Technology,Shiyan 442002,China)

Abstract:There are more than 35 billion URLs in the world nowadays. Under the premise of satisfying the timeliness,more andmore people choose to adopt distributed crawler technology,which can quickly and efficiently obtain valuable data from Web. Based onRedis database,this paper designs a kind of related de-reduplication protocol to realize URL de-reduplication,which is helpful to improvethe stability and efficiency of distributed system,and to maintain the consistency of the whole system to URL.

Keywords:distributed crawler system;URL de-duplication;URL de-duplication protocol


参考文献:

[1] 李婷. 分布式爬虫任务调度与AJAX 页面抓取研究 [D].成都:电子科技大学,2015.

[2] 吕阳. 分布式网络爬虫系统的设计与实现 [D]. 成都:电子科技大学,2013.

[3] 吴昊. 主题爬虫URL 分析模型与高度技术研究 [D]. 哈尔滨:哈尔滨工程大学,2011.

[4] 邱祝文. 基于redis 的分布式缓存系统架构研究 [J]. 网络安全技术与应用,2014(10):52+54.

[5] 陈亮,廖文和. 分布式结构在企业信息管理系统中的应用 [J]. 机械制造与自动化,2002(5):48-50.

[6] 程斌,金海,石柯. 一种自适应的分布式调度策略 [J]. 小型微型计算机系统,2005,26(10):1793-1798.

[7] 梁正友,张林才. 基于Rabin 指纹方法的URL 去重算法 [J]. 计算机应用,2008,28(S2):185-186+203.

[8] 袁志伟,杨鹏,刘旋. 双结构网络中URL 去重机制研究 [J]. 太原理工大学学报,2016,47(1):68-74.


作者简介:

陈宇伦(1995-),男,汉族,湖北孝感人,本科在读,研究方向:分布式爬虫系统、网络程序开发与设计。

周奎(1980-),汉族,男,湖北荆州人,讲师,硕士研究生,研究方向:智能汽车、图像处理、嵌入式系统。