摘 要:通过语义相关度进行搜索引擎的设计是一种有效途径,现通过分析搜索时获得的页面数和各页面的关键词密度,提出一种基于核函数的语义相关度算法。同时,在标准测试集上进行数据实验,并与其它几种已有方法对比,结果显示该方法与专家打分值的Spearman 相关系数最高,进一步表明了该算法的有效性,由于新算法中使用的关键词没有词性、语法等限制,且算法简便,所以有利于实际应用和推广。
关键词:搜索引擎;语义相关度;核函数;关键词密度
中图分类号:TP391.41 文献标识码:A 文章编号:2096-4706(2018)09-0077-03
Research on Search Engine Based on Kernel Function
CHEN Qian,TANG Xuqing
(School of Science,Jiangnan University,Wuxi 214122,China)
Abstract:It is an effective way to design search engine through semantic relevancy. By analyzing the number of pages obtainedand the keyword density of each page,a semantic correlation algorithm based on kernel function is proposed. At the same time,the dataexperiment on the standard test set is carried out and compared with several other existing methods. The results show that the correlationcoefficient of the method and the Spearman of the expert score is the highest,which further indicates the effectiveness of the algorithm.Because the key words used in the new algorithm are not restricted by parts of speech and grammar,and the algorithm is simple,it isconducive to practical application and promotion.
Keywords:search engine;semantic relatedness;kernel function;keywords density
参考文献:
[1] 陈肖雨,郭雷,方俊. 应用搜索引擎计算语义相关度的实现 [J]. 计算机工程与应用,2010,46(30):128-130.
[2] 游博. 词语语义相关度计算研究 [D]. 武汉:华中师范大学,2013.
[3] Patwardhan S,Pedersen T. Using WordNet-based contextvectors to estimate the semantic relatedness of concepts [C]//Proceedingsof the EACL 2006 Workshop,Making Sense of Sense:BringingComputational Linguistics and Psycholinguistics Together,Trento,Italy,2006,17(6):1-8.
[4] Dumais S T,Landauer T K. A solution to Plato's problem:The latent semantic analysis theory of acquisition,induction andrepresentation of knowledge [J].Psychological Review,1997,104(2):211-240.
[5] Gabrilovich E,Markovitch S.Computing semantic relatednessusing Wikipedia-based explicit semantic analysis [C]//Proceedings of the20th international joint conference on artificial intelligence,2007,6:1606-1611.
[6] 李素建. 基于语义计算的语句相关度研究 [J]. 计算机工程与应用,2002(7):75-76+83.
[7] 陈海燕. 基于搜索引擎的词汇语义相似度计算方法 [J]. 计算机科学,2015,42(1):261-267.
[8] 刘胜久,李天瑞,贾真,等. 基于搜索引擎的相似度研究与应用 [J]. 计算机科学,2014,41(4):211-214.
[9] 李航. 统计学习方法 [M]. 北京:清华大学出版社,2012.
[10] Ajzerman M A,Braverman E M,Rozonoehr L I.Theoretical foundations of the potential function method in patternrecognition learning [J].Automation and Remote Control,1964,25:821-837.
[11] Boser B E,Guyon I M,Vapnik V N. A training algorithmfor optimal margin classifiers [C]//Proceedings of the Fifth AnnualWorkshop on Computational Learning Theory. New York:ACM
[12] 闫英杰,林鸿飞,杨志豪,等. 关键词密度分布法在偏重摘要中的应用研究 [J]. 计算机工程,2007(16):156-158.
[13] BudanitskyA,Hirst G. Evaluating WordNet-based Measuresof Lexical Semantic Relatedness [J].Computational Linguistics,2006,32(1):13-47.
[14] 汪祥. 基于中文维基百科的语义相关度计算的研究与实现 [D]. 长沙:国防科学技术大学,2011.
[15] 万富强,吴云芳. 基于中文维基百科的词语语义相关度计算 [J]. 中文信息学报,2013,27(6):31-37+109.
[16] 张波,陈宏朝,朱新华,等. 基于多重继承与信息内容的知网词语相似度计算 [J]. 计算机应用研究,2018(10):1-2.
[17] “必应搜索·全球PK 赛”中国正式启动 [OL].[2013-06-20].http://news.eastday.com/society/2013-06-20/346941.html.
[18] Spearman's rank correlation coefficient [OL].[2018-05-19].https://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient.
[19] 胡金滨,唐旭清. 人工神经网络的BP 算法及其应用 [J].信息技术,2004(4):1-4.
[20] 王文斌. 面向语义搜索的查询前置技术研究与实现 [D].上海:华东师范大学,2015.
[21] 王洋. 基于潜在语义分析的智能搜索技术研究 [D]. 哈尔滨:哈尔滨工程大学,2010.
[22] 黄昌宁,高剑峰,李沐. 对自动分词的反思 [C]// 全国计算语言学联合学术会议,2003:26-38.
作者简介:
陈倩(1997-),女,湖北黄石人,本科,研究方向:信息计算与处理。
通信作者:
唐旭清(1963-),男,教授,博士,研究方向:智能计算、生物信息学、生态系统建模与仿真。