当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术21年14期

基于 Anaconda 的婴儿用品数据爬取及可视化分析
谢美英
(湖南信息职业技术学院 软件学院,湖南 长沙 410200)

摘  要:随着国家对二胎、三胎政策的全面放开,新生儿出生数量有所增长,对婴儿用品的数量和质量需求也发生着改变。本文主要研究婴儿用品的商品评论相关信息的爬取,对目标网站的网页进行分析,采集数据。获取数据后,采用 Python 语言中的 Pandas、Numpy 等库进行数据预处理。然后,使用 Matplotlib、Nltk、Jieba 库对数据分析,去除重复评论,去除停用词,词频统计后制作词云图等可视化数据结果,挖掘出大数据背后的隐含信息。


关键词:Anaconda;婴儿用品;数据采集;数据分析;数据可视化



DOI:10.19850/j.cnki.2096-4706.2021.14.024


中图分类号:TP391                                           文献标识码:A                                    文章编号:2096-4706(2021)14-0090-04


Data Crawling and Visual Analysis of Baby Products Based on Anaconda

XIE Meiying

(School of Software, Hunan College of Information, Changsha 410200, China)

Abstract: With the full liberalization of the national policy on the second and third children, the number of newborns has increased, and the demand for the quantity and quality of baby products has also changed. This paper mainly studies the crawling of information related to commodity reviews of baby products, analyzes the web pages of the target website, and collects data. After obtaining the data, the paper uses pandas, numpy and other libraries in Python language to preproces data. Then, uses Matplotlib, Nltk and Jieba libraries to analyze the data, removes repeated comments, removes stop words, makes word cloud and other visual data results after word frequency statistics, and mines the hidden information behind the big data.

Keywords: Anaconda; baby care; data acquisition; data analysis; data visualization


参考文献:

[1] 吕云翔,李伊琳,王肇一,等 .Python 数据分析实战 [M]. 北京:清华大学出版社,2018.

[2] 陈红波,刘顺祥 . 数据分析从入门到进阶 [M]. 北京:机械工业出版社,2019.

[3] 李培 . 基于 Python 的网络爬虫与反爬虫技术研究 [J]. 计算机与数字工程,2019,47(6):1415-1420+1496.

[4] 章蓬伟,贾钰峰,邵小青,等 . 基于文本情感分析的电商产品评论数据研究 [J]. 微处理机,2020,41(6):58-62.

[5] 聂晶 .Python 在大数据挖掘和分析中的应用优势 [J]. 广西民族大学学报(自然科学版),2018,24(1):76-79.

[6] 郑晶晶 . 融入 Python 应用的学生考勤数据管理分析 [J]. 数字技术与应用,2021,39(2):83-84+89.

[7] 郝海妍,潘萍 .Python 技术在数据分析中的应用 [J]. 电子技术与软件工程,2020(12):179-181.


作者简介:谢美英(1984—),女,汉族,湖南涟源人,讲师,硕士研究生,研究方向:软件技术、数据挖掘。