摘 要:本文主要研究了基于搜狗引擎用户浏览数据下的用户画像构建,我们具体地、标签化地、有针对性地描述了用户特征,并以此作为市场分析、商业决策、精准营销的依据。用户画像技术可以帮助搜索引擎更有针对性的服务用户。本文主要工作:一是对用户搜索数据集进行预处理,分词上我们选用了Jieba 分词工具;二是特征词的选取采用了基于TF-IDF 的向量空间模型;三是使用Word2vec 将特征词转变为词向量;最后使用不同的分类器构建用户画像,我们在这里使用了Stacking 模型。
关键词:用户画像;Word2vec;词向量;Stacking
中图分类号:TP391.1;TP391.4 文献标识码:A 文章编号:2096-4706(2019)06-0017-03
Research on User Portrait Construction
MA Penghui,WANG Xuening,LI Yong,SHAO Shuai
(Jilin University,Changchun 130012,China)
Abstract:This paper mainly studies user portrait construction based on user browsing data of Sogou engine. We describe user characteristics concretely,labeled and targeted,and use this as the basis of market analysis,business decision-making and precise marketing. User portrait technology can help search engines more targeted service users. The main work of this paper is as follows:Firstly,the data set of user search is preprocessed. In word segmentation,we choose Jieba word segmentation tool;secondly,we use TF-IDF-based vector space model to select feature words;thirdly,we use Word2vec to transform feature words into word vectors;finally,we use different classifiers to construct user portraits,we use Stacking model here.
Keywords:user portrait;Word2vec;word vector;Stacking
参考文献:
[1] 赵鑫,丁效. 浅析推荐系统中的用户画像构建与应用 [J].中国计算机学会通讯2017,13(11):45-51.
[2] 李雅坤. 基于搜索引擎的用户画像构建方法研究 [D]. 山西:山西财经大学,2018:1-3.
[3] 周志华. 机器学习 [M]. 北京:清华大学出版社,2016:183-185.
[4] Adomavicius G,Tuzhilin A. User profiling in personalization applications through rule discovery and validation [A]. Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining [C],DBLP,1999:377-381.
[5] 曾鸿,吴苏倪. 基于微博的大数据用户画像与精准营销 [J].现代经济信息,2016(16):306-308.
作者简介:
马朋辉(1999.08-),男,汉族,河南周口人,软件工程专业,本科,研究方向:机器学习、数据挖掘;
王雪宁(1997.08-),女,蒙古族,辽宁朝阳人,计算机科学与技术专业,本科,研究方向:网络与信息安全;
李勇(1998.07-),男,回族,宁夏吴忠人,本科,研究方向:数学统计;
邵帅(1998.06-),女,汉族,黑龙江哈尔滨人,网络与信息安全专业,本科在读,研究方向:网络与信息安全。