摘 要:人名消歧问题属于文本聚类范围,但有其自身的特殊性,即参与聚类的文本集采用向量空间模型表示以后具有较高的维度,导致数据在聚类过程中效率低下、计算内存开销过高。为了深入分析人名消歧研究中聚类算法的整体应用情况,从中国知网期刊数据库收集2006-2018 年10 月相关文献进行了统计和分析,介绍了利用聚类算法进行人名消歧研究的一般流程,阐述了聚类算法在人名消歧研究的应用、聚类评价指标和聚类结果评价,详细介绍相关研究成果及代表文献,为研究人员提供参考和借鉴。
关键词:聚类;人名消歧;研究综述
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2019)10-0088-04
A Summary:Research Name Disambiguation of Clustering
ZHAN Jinmei1,CHEN Juntao2
(1.Qiongtai Normal University,Haikou 571127,China;2.Hainan College of Economics and Business,Haikou 571127,China)
Abstract:Name disambiguation belongs to the scope of text clustering,but it has its own particularity:the set of text clustering represented by vector space model has a higher dimension,which leads to inefficiency and high computational memory in clustering process. In order to deeply analyze the overall application of clustering algorithm in the research of name disambiguation,the paper collected the related literature from the database of CNKI from October 2006 to October 2018 to statistics and analyze. Also,introduces the general process of using clustering algorithm in the researching name disambiguation,expounds the application of clustering evaluation in researching name disambiguation,clustering evaluation and evaluation of clustering result. Finally,the paper introduces in detail research results and representative literature,which provides reference for researchers of name disambiguation.
Keywords:clustering;name disambiguation;research summary
参考文献:
[1] 章顺瑞,游宏梁. 基于层次聚类算法的中文人名消歧 [J].现代图书情报技术,2010(11):64-68.
[2] 熊李艳,赵毅,黄卫春,等. 基于句义结构分析的中文人名消歧 [J]. 计算机应用研究,2016,33(10):2898-2901.
[3] 任景华. 利用优化的DBSCAN 算法进行文献著者人名消歧 [J]. 图书馆理论与实践,2014(12):61-65.
[4] 杨欣欣,李培峰,朱巧明,等. 一种基于改进的K-means算法的人名消歧系统的设计与实现 [J]. 计算机与数字工程,2010,38(8):10-12+17.
[5] 阳怡林,周杰,李弼程. 基于聚类集成的人名消歧算法 [J].计算机应用研究,2016,33(9):2716-2720.
[6] 林翠萍,吴扬扬. 采用改进最长公共子序列的人名消歧[J]. 华侨大学学报(自然科学版),2016,37(2):201-206.
[7] 朱翔,史晓东,陈毅东. 基于层次聚类的中文人名消歧方法研究 [J]. 心智与计算,2010,4(4):236-241.
[8] 张菲菲,李宗海,周晓辉,等. 基于层次聚类的跨文本中文人名消歧研究 [J]. 计算机工程与应用,2014,50(6):106-111.
[9] 李广一,王厚峰. 基于多步聚类的汉语命名实体识别和歧义消解 [J]. 中文信息学报,2013,27(5):29-34+42.
[10] 阳怡林,周杰,李弼程,等. 基于分步聚类的人名消歧算法 [J]. 数据采集与处理,2016,31(1):213-222.
作者简介:展金梅(1983-),女,汉族,甘肃靖远人,讲师,硕士,研究方向:计算机应用、自然算法研究。