当前位置>主页 > 期刊在线 > 信息技术 >

信息技术21年10期

基于回归分析的网络招聘信息爬取及可视化
冯洪熙,王林,魏嘉银,彭林艳,王恋
(贵州民族大学 数据科学与信息工程学院,贵州 贵阳 550025)

摘  要:就业是事关民生和社会稳定的一个重要因素。2020 年受新冠肺炎疫情影响,网络求职成了就业的主要渠道,但根据求职者条件和求职意向,从网上纷繁复杂的招聘信息中快速准确地找到适合的信息显得异常困难。因此,文章利用爬虫技术对招聘网站的海量数据进行收集、清洗整理,通过最小二乘法回归分析建立了学历、经验及薪资等因素的关系,并进行系列可视化加以印证。帮助毕业生能够更好地发现最适合的就业信息。


关键词:网络爬虫;回归分析;数据清洗;数据分析;可视化



DOI:10.19850/j.cnki.2096-4706.2021.10.001


基金项目:贵州省教育厅创新群体重大研究 项目(黔教合 KY 字〔2018〕018);贵州省教育 厅青年科技人才成长项目(黔教合 KY 字〔2017〕 137);贵州省科技计划项目(黔科合基础〔2018〕 1082);贵州省教育厅青年项目(黔教合 KY 字 〔2021〕104);贵州省教育厅自然科学研究项目(黔 教合 KY 字〔2018〕087)


中图分类号:TP311                                        文献标识码:A                                  文章编号:2096-4706(2021)10-0001-05


Crawling and Visualization of Online Recruitment Information Based on Regression Analysis

FENG Hongxi,WANG Lin,WEI Jiayin,PENG Linyan,WANG Lian

(School of Data Science and Information Engineering,Guizhou Minzu University,Guiyang 550025,China)

Abstract:Employment is an important factor affecting people’s livelihood and social stability. Under the influence of COVID-19 epidemic in 2020,online job hunting has become a major channel of employment. However,it is extremely difficult to quickly and accurately find suitable information from the numerous and complex online job recruitment information according to the conditions and job intentions of job seekers. Therefore,this paper uses the crawler technology to collect,clean and sort out the massive data of recruitment websites,and establishes the relationship among education,experience and salary through least square regression analysis,and verified by a series of visualization. It helps graduates better find the most suitable employment information.

Keywords:Web crawler;regression analysis;data cleaning;data analysis;visualization


参考文献:

[1] 杨月坤,蒋忠惠 . 大数据技术在人岗匹配中的实践与挑战 [J]. 领导科学,2016(27):53-54.

[2] 黄贵斌,孙柳,黄佳玲,等 . 基于爬虫技市的就业推荐系 统设计与实现 [J]. 内江科技,2018,39(1):59-61.

[3] 吴琼 . 基于改进 K-Means 聚类方法的高校就业推荐系统 研究 [D]. 大连:大连海事大学,2015.

[4] 尹传城 . 高校毕业生就业推荐问题与算法研究 [D]. 济南: 山东师范大学,2016.

[5] 陆树芬 . 基于 Python 对网络爬虫系统的设计与实现 [J]. 电脑编程技巧与维护,2019(2):26-27+51.

[6] ZHOU Z H,ZHANG H R,XIE J. Data crawler for Sina Weibo based on Python [J].Journal of Computer Applications,2014, 34(11):3131-3134.

[7] 李培 . 基于 Python 的网络爬虫与反爬虫技术研究 [J]. 计 算机与数字工程,2019,47(6):1415-1420+1496.

[8] 闫禹 . 数据挖掘技术在高校学生就业指导决策中的运用 [J]. 沈阳工业大学学报,2007(3):344-346.

[9] 乔非,葛彦昊 . 基于 BP 神经网络的就业招聘企业客户分 类问题研究 [J]. 计算机科学,2015,42(S2):1-4.

[10] 王芳 . 基于 Python 的招聘网站信息爬取与数据分析 [J]. 信息技术与网络安全,2019,38(8):42-46+57.

[11] 李琳,龚晨 . 多维邻近性对不同知识基础产业创新的影 响——基于 ANN 和 OLS 回归双重检验 [J]. 科学学研究,2017, 35(8):1273-1280.


作者简介:冯洪熙(1996.09—),男,汉族,贵州正安人, 硕士在读,研究方向:统计建模与模式识别、表情识别;通讯作 者:王林(1965.01—),男,苗族,贵州安顺人,教授,硕士生 导师,博士,研究方向:计算机数学图像处理、模式识别;魏嘉银 (1986.03—),男,汉族,福建三明人,副教授,硕士生导师, 博士,研究方向:算法设计与分析、大数分析及可视化;彭林艳 (1996.12—),女,黎族,贵州安顺人,硕士在读,研究方向: 非线性泛函分析及其应用;王恋(1974.08—),女,苗族,贵州 贵阳人,副教授,硕士,研究方向:统计建模与模式识别、苗族文 化传承。