摘 要:电影评分是电影质量的一个直观反映,对未上映的电影评分进行预测是非常重要的。文章在电影本身属性的基础上,定义所有特征量化方式,同时利用电影相似度新增相似电影评分属性,结果表明,加入该因子之后,模型的均方误差降低了35.3%。在此基础上,使用选择性随机森林优化算法对电影评分进行预测,模型的均方误差为 0.102 5,预测较准确。
关键词:相似电影评分;特征量化;随机森林;电影评分预测
DOI:10.19850/j.cnki.2096-4706.2021.16.021
基金项目:2021 年度黑龙江省省属本科高 校基本科研业务费项目:基于随机森林理论的机 械类企业运营效益分析与预测(27)
中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2021)16-0083-04
Prediction of Film Score Based on Random Forest Theory
LIU Linhui, WANG Hui
(College of Modern Manufacturing Engineering, Heilongjiang University of Technology, Jixi 158100, China)
Abstract: Film score is an intuitive reflection of film quality. It is very important to predict the score of unreleased films. Based on the attributes of the film itself, this paper defines all feature quantization methods, at the same time, the film similarity is used to add the scoring attribute of similar films. The results show that after adding this factor, the mean square error of the model is reduced by 35.3%. On this basis, the selective random forest optimization algorithm is used to predict the film score, the mean square error of the model is 0.102 5, which is more accurate.
Keywords: similar film score; feature quantification; random forest; prediction of film score
参考文献:
[1] 刘明昌 . 豆瓣网站电影在线评分的混合预测模型研究 [D]. 保定:河北大学,2017.
[2] 张红丽,刘济郢,杨斯楠,等 . 基于网络用户评论的评分预测模型研究 [J]. 数据分析与知识发现,2017,1(8):48-58.
[3] 豆瓣 . 豆瓣电影 [EB/OL].[2021-05-04].https://movie. douban.com/.
[4] 涂铭,刘祥,刘树春 .Python 自然语言处理实战:核心技术与算法 [M]. 北京:机械工业出版社,2018:88-91.
[5] BREIMAN. Random Forests [J].Machine Learning,2001,45(1):5-32.
[6] 周志华 . 机器学习 [M]. 北京:清华大学出版社,2016:171-181.
[7] 李航 . 统计学习方法 [M]. 北京:清华大学出版社,2012:67-72.
[8] ZHOU Z H,WU J X,TANG W. Ensembling neural networks:Many could be better than all [J].Artificial Intelligence, 2002,137 (1):239-263.
[9] 姚明煌 . 随机森林及其在遥感图像分类中的应用 [D]. 厦门:华侨大学,2014.
作者简介:刘林慧(1996.02—),女,汉族,黑龙江鸡东人,助教,硕士研究生,主要研究方向:数据分析;王慧(1985.10—), 女,汉族,黑龙江鸡西人,讲师,硕士研究生,主要研究方向: 数学机械化。