当前位置>主页 > 期刊在线 > 信息技术 >

信息技术2018年11期

基于MapReduce 的聚类算法相似性度量分析研究
彭天昊,潘有顺,杨胜林
(茅台学院 酿酒工程自动化系,贵州 仁怀 564507)

摘  要:相似性度量在聚类算法设计中起关键作用,使用合适的距离度量函数能够反映数据对象间的相似性。本文对聚类算法中数据对象间相似性度量的特征进行了系统性归纳总结,通过MapReduce 编程模型实现对各种相似性度量聚类算法的实验比较分析,将为聚类分析研究者提供参考。


关键词:聚类;相似性度量;MapReduce



中图分类号:TP311.13;TP391.1         文献标识码:A         文章编号:2096-4706(2018)11-0010-03


Research on Similarity Measurement Analysis ofClustering Algorithm Based on MapReduce

PENG Tianhao,PAN Youshun,YANG Shenglin

(Moutai Institute,Department of Brewing Engineering Automation,Renhuai 564507,China)

Abstract:The similarity measure plays a key role in clustering algorithms. Using appropriate distance measure function can reflectthe similarity between data objects. This paper aims to conduct a systematic summary on data objects similarity measure in clusteringalgorithms. The paper will also implement comparative analysis on various similarity measure clustering algorithms by MapReduceprogramming model,which can provide references to researchers on clustering algorithms.

Keywords:clustering;similarity measure;MapReduce


参考文献:

[1] JiaWeiHan,MichelineKamber,Jian Pei. 范明,孟晓峰,译. 数据挖掘概念与技术 [M]. 北京:机械工业出版社,2012.

[2] 孙吉贵,刘杰,赵连宇. 聚类算法研究 [J]. 软件学报,2008(1):48-61.

[3] 蔡静颖. 模糊聚类算法及应用 [M]. 北京:冶金工业出版社,2015.

[4] 何晓群. 多元统计分析 [M]. 第4 版. 北京:中国人民大学出版社,2015.

[5] 邱宜宁. 相似性度量对聚类性能的影响 [J]. 信息与电脑(理论版),2012(12):116-119.

[6] 白雪. 聚类分析中的相似性度量及其应用研究 [D]. 北京:北京交通大学,2012.

[7] 代明,钟才明,庞永明,等. 基于数据集属性相似性的聚类算法推荐 [J]. 南京大学学报(自然科学),2016,52(5):908-917.

[8] 李涛,汪光阳. 标准相似性度量及其应用 [J]. 山西师范大学学报(自然科学版),2016,30(4):29-33.

[9] 蔡静颖,谢福鼎,张永. 基于马氏距离特征加权的模糊聚类新算法 [J]. 计算机工程与应用,2012,48(5):198-200.

[10] 王丽娟,关守义,王晓龙,等. 基于属性权重的FuzzyCMean 算法 [J]. 计算机学报,2006(10):1797-1803.

[11] 江小平,李成华,向文,等.k-means 聚类算法的MapReduce 并行化实现 [J]. 华中科技大学学报( 自然科学版),2011,39(S1):120-124.

[12] 覃雄派,王会举,杜小勇,等. 大数据分析——RDBMS与MapReduce 的竞争与共生 [J]. 软件学报,2012,23(1):32-45.


作者简介:

彭天昊(1982-),男,汉族,贵州桐梓人,副教授,硕士,主要研究方向:数据与知识工程。

潘有顺(1977-),男,汉族,江苏淮安人,高级工程师,硕士,主要研究方向:网络技术、物联网。

杨胜林(1985-),男,侗族,贵州石阡人,讲师,硕士,主要研究方向:机械结构设计与CAE。