当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术22年7期

基于数据词典的中文分词算法优化实现
鲍曙光
(武警海警学院 职业教育中心,浙江 宁波 315801)

摘  要:中文分词算法是中文自然语言理解的基础,文章运用 C# 语言实现了正向、逆向、最长词、最短词的分词算法,通过大量样本实例分析,对不同算法进行了比较,介绍了分词算法在新词发现、歧义发现中的应用,重点阐述了关系型数据库、文本文件等不同数据结构的数据词典对中文分词算法速度的影响,创新性地引入一种非常规的数据词典索引表,大大提升了分词算法的速度。


关键词:中文分词;算法优化;新词发现;歧义消除;自然语言识别



DOI:10.19850/j.cnki.2096-4706.2022.07.020


中图分类号:TP391                                         文献标识码:A                                   文章编号:2096-4706(2022)07-0080-05


Realization of Chinese Word Segmentation Algorithm Optimization Based on Data Dictionary

BAO Shuguang

(Vocational Education Center, China Coast Guard Academy, Ningbo 315801, China)

Abstract: Chinese word segmentation algorithm is the basis of Chinese natural language understanding. This paper uses C# language to realize the forward, reverse, longest and shortest word segmentation algorithms. Through the analysis of a large number of sample examples, this paper compares different algorithms, introduces the application of word segmentation algorithm in new word discovery and ambiguity discovery, and focuses on the impact of data dictionaries with different data structures such as relational databases and text files on the speed of Chinese word segmentation algorithm, an unconventional data dictionary index table is innovatively introduced, which greatly improves the speed of word segmentation algorithm.

Keywords: Chinese word segmentation; algorithm optimization; new word discovery; ambiguity elimination; natural language recognition


参考文献:

[1] 陈静雯,马福民,刘新,等 . 基于神经网络的预警领域分词仿真算法 [J]. 计算机仿真,2021,38(12):1-6+38.

[2] 杨文珍,徐豪杰,汪文妃,等 . 基于逆向最大匹配分词算法的汉盲翻译系统 [J]. 计算机应用与软件,2021,38(10):84-91.

[3] 周寅,龙广富 . 云计算平台上两种中文分词算法的实现对比研究 [J]. 电脑知识与技术,2021,17(9):191-192.

[4] 杨艺琛 . 基于多义词向量的句子相似度计算 [D]. 西安:长安大学,2021.

[5] 邓权亮 . 基于全文检索的敏感信息检测系统的设计与实现[D]. 北京:北京邮电大学,2021.

[6] 李文华 . 中文分词算法在搜索引擎应用中的运用 [J]. 电脑知识与技术,2021,17(6):181-182+185.

[7] 谷瑞 . 对中文分词歧义消除算法的研究 [J]. 苏州市职业大学学报,2015,26(4):25-27+48.


作者简介:鲍曙光(1979.03—),男,汉族,浙江宁波人,讲师,硕士研究生,研究方向:人工智能。