摘 要:专利信息作为目前国际知识产权中科技含量最高的存在,是国家和企业获取竞争优势最全面的技术情报来源。使用专利数据网的数据信息作为测试数据,采用 K-means 算法,针对专利文本数据进行聚类分析,旨在找出隐含在专利数据信息中不容易被直观发现或直接统计得出的数据情报信息。通过深入挖掘专利信息,提高专利信息利用率,使之转换为具有实际价值的情报信息,有效解决了对专利信息利用不足的问题。
关键词:关键词:聚类分析;K-means;专利数据;数据挖掘
中图分类号:TP391.1;TP312 文献标识码:A 文章编号:2096-4706(2020)05-0085-03
Patent Data Analysis Based on K-means Algorithm
XUE Shuhui,WANG Li,WU Haitao
(Nanjing Institute of Technology,Nanjing 211167,China)
Abstract:Patent information is the most comprehensive source of technical information for countries and enterprises to obtain competitive advantages. In this paper,the data information of the patent data network is used as the test data,and K-means algorithm is adopted to conduct clustering analysis on the patent text data. The aim is to find out the data intelligence information which is hidden in the patent data information and not easy to be found directly. Through deep mining of patent information,improving the utilization rate of patent information,transforming it into information with practical value,the problem of insufficient utilization of patent information is effectively solved.
Keywords:cluster analysis;K-means;patent data;date mining
基金项目:江苏省高等学校大学生创新创业训练计划项目(201911276073Y)
参考文献:
[1] 齐丽花,张妮妮,秦晓梅 . 基于 K-means 的专利文本聚类分析 [J]. 电脑知识与技术,2018,14(22):206-207+214.
[2] 吴启明,易云飞 . 文本聚类综述 [J]. 河池学院学报,2008(2):86-91.
[3] 徐丹丹 . 专利文本聚类分析及可视化研究 [D]. 南京:南京理工大学,2009.
[4] 王彬宇,刘文芬,胡学先,等 . 基于余弦距离选取初始簇中心的文本聚类研究 [J]. 计算机工程与应用,2018,54(10):11-18.
[5] 霍纬纲,程震,程文莉 . 面向不等长多维时间序列的聚类改进算法 [J]. 计算机应用,2017,37(12):3477-3481.
[6] 叶梦竹 . 基于专利和论文互引的科学—技术关联研究 [D].武汉:华中师范大学,2017.
[7] SALTON G,BUCKLEY C. Term-weighting approaches in automatic text retrieval [J].Information Processing & Management,1988,24(5):513-523.
作者简介:薛淑晖(1997-),女,汉族,山东德州人,本科在读,研究方向:数据分析。