当前位置>主页 > 期刊在线 > 信息技术 >

信息技术2020年24期

基于Python 的豆瓣影视短评的数据采集与分析
高雨菲,毛红霞
(四川大学锦城学院 计算机与软件学院,四川 成都 611731)

摘  要:豆瓣是一个通过提供书籍影视相关内容发展起来的网站,能够提供电影的各类信息。豆瓣用户的评论有时能引领一代新的风尚潮流。文章使用Python 语言结合有关爬虫的知识设计了有关豆瓣影视短评的爬取系统,采用了URL 管理器、网页结构分析、数据采集、数据清洗、数据分析、数据可视化等模块,将指定的电影影评内容保存,精准的获取不同电影的被喜爱程度以及电影上映后带来的反响。


关键词:Python;数据采集;数据清洗;数据可视化



中图分类号:TP391.1         文献标识码:A         文章编号:2096-4706(2020)24-0010-04


Data Collection and Analysis of Douban Film and Television Short Commentary Based on Python

GAO Yufei,MAO Hongxia

(School of Computer and Software,Jincheng College of Sichuan University,Chengdu 611731,China)

Abstract:Douban is website that is gradually developed through providing books,film and television related content,it can provide different kinds of information about film. Sometimes,Douban users’comments can lead a generation of new fashion trend. In this paper,using Python language and combining with the knowledge on crawlers to design a crawling system about Douban film and television short commentary,which adopts the following modules such as URL manager,webpage structure analysis,data collection,data cleaning,data analysis and data visualization etc to save the specified film review content,so as to accurately obtain the popularity extent of the different films and response produced after the films’showing.

Keywords:Python;data collection;data cleaning;data visualization


参考文献:

[1] 孙冰. 基于Python 的多线程网络爬虫的设计与实现 [J].网络安全技术与应用,2018(4):38-39.

[2] 成文莹,李秀敏. 基于Python 的电影数据爬取与数据可视化分析研究 [J]. 电脑知识与技术,2019,15(31):8-10+12.

[3] XIE D X,XIA W F. Design and implementation of the topicfocusedcrawler based on scrappy [J].Advanced Materials Research,2014(850-851):487-490.

[4] 孔钦,叶长青,孙赟. 大数据下数据预处理方法研究 [J].计算机技术与发展,2018,28(5):1-4.

[5] 祝永志,荆静. 基于Python 语言的中文分词技术的研究 [J]. 通信技术,2019,52(7):1612-1619.

[6] 涂小琴. 基于Python 爬虫的电影评论情感倾向性分析 [J].现代计算机(专业版),2017(35):52-55.


作者简介:高雨菲(1999.07—),女,汉族,四川内江人,本科在读,研究方向:数据科学与大数据技术。