当前位置>主页 > 期刊在线 > 信息技术 >

信息技术23年1期

基于大数据平台的推荐系统研究与实现
谷广兵 ¹,顾佩佩²
(1. 嘉兴职业技术学院,浙江 嘉兴 314036;2. 丽水市农业农村局,浙江 丽水 323000)

摘  要:个性化推荐系统作为人工智能一个落地场景,在社交平台、电商、生活服务等领域有着广泛的应用。为了把优选的商品提供给有需要的客户,对用户行为进行数据采集、数据清洗与存储、用户物品推荐建模、模型评估等内容进行了研究。数据采集通过客户端页面埋点技术来记录用户浏览、点击、关注等行为以及页面停留时长等数据,通过 flume、kafka、hive、spark 等大数据相关组件与技术完成数据采集、ETL 相关操作,将用户评分表、物物余弦相似度等数据通过 ALS、item-based组合召回技术,以及 LR 排序技术生成 TOP-N 推荐列表,最终经过 AB 测试,完成最优迭代方案版本选取。


关键词:推荐系统;大数据技术;召回;排序;ALS



DOI:10.19850/j.cnki.2096-4706.2023.01.006


中图分类号:TP391.3;TP311.1                         文献标识码:A                                  文章编号:2096-4706(2023)01-0026-04


Research and Implementation of Recommendation System Based on Big Data Platform

GU Guangbing1, GU Peipei 2

(1.Jiaxing Vocational & Technical College, Jiaxing 314036, China; 2.Lishui Bureau of Agriculture and Rural Affairs, Lishui 323000, China)

Abstract: As a landing scenario of artificial intelligence, personalized recommendation system is widely used in social platforms, E-commerce, life services and other fields. In order to provide the preferred products to the customers in need, the data collection, data cleaning and storage, user item recommendation modeling, model evaluation and other contents of user behavior are studied. Data collection records user browsing, clicking, following and other behaviors, as well as page dwell time and other data through the embedded point technology on the client page. Data collection and ETL related operations are completed through flume, kafka, hive, spark and other big data related components and technologies. Data such as user scoring table and cosine similarity of objects are generated into TOP-N recommendation list through the combined recall technology of ALS and item-based, as well as LR sorting technology, and finally tested by AB, complete the selection of the optimal iteration scheme version.

Keywords: recommendation system; big data technology; recall; sort; ALS 


参考文献:

[1] 顾军林,刘玮玮,陈冠宇 . 基于 Hadoop 平台的岗位推荐系统设计 [J]. 现代电子技术,2019,42(20):123-127.

[2] 秦道祥,路阳,张荠月,等 . 基于 Spark 技术的日志分析平台设计与应用 [J]. 中国教育信息化,2021(19):50-54.

[3] 李柯 . 基于 Flume、Kafka 的日志采集系统分析研究 [J].电子技术与软件工程,2022(10):255-258.

[4] 程志强 . 关于大数据时代的数据仓库建设研究 [J]. 长江信息通信,2022,35(7):156-158.

[5] 李盼颖 . 基于协同过滤的个性化推荐算法 [D]. 张家口:河北建筑工程学院,2022.

[6] 崔丽莎 . 基于用户特征和项目类型兴趣的协同过滤推荐算法研究 [D]. 郑州:河南财经政法大学,2022.

[7] 文雅 . 基于大数据的用户个性化推荐策略研究 [D]. 北京:北京邮电大学,2021.

[8] 周晶,刘丹,李慧超,等 . 考虑用户兴趣的个性化协同过滤推荐方法 [J]. 微型电脑应用,2022,38(8):74-78.


作者简介:谷广兵(1986—),男,汉族,河南舞阳人,专任教师,讲师,硕士,研究方向:大数据技术与应用。