当前位置>主页 > 期刊在线 > 信息技术 >

信息技术21年6期

基于自然语言处理的发电设备知识库系统研究
沈铭科,程相杰,方超,丁刚,陈家颖
(上海发电设备成套设计研究院有限责任公司,上海 200240)

摘  要:文章设计了一种基于自然语言处理的发电设备知识库系统,包括知识抽取、语料和知识存储、知识问答排序和知识库前端问答等模块,构建过程为:首先进行发电设备领域自然语言处理基础模型训练,再针对领域语料进行知识抽取,最后利用排序模型实现知识问答。对比 4 种知识抽取方案可得:对于 Top1 和 Top3 准确率,知识抽取前处理增加 MRC 模型比后处理增加 MRC 校验回路准确率高;对于 Top5 准确率,后处理中增加 MRC 校验回路较前处理中增加 MRC 模型准确率高。


关键词:自然语言处理;发电设备;知识库系统;知识抽取;知识问答



DOI:10.19850/j.cnki.2096-4706.2021.06.004


基金项目:国家电力投资集团有限公司统筹 研发资助项目(TC2020HD01,TC2020FD05)


中图分类号:TP391.1                                     文献标识码:A                                   文章编号:2096-4706(2021)06-0013-05


Research on Knowledge Base System of Power Generation Equipment Based on Natural Language Processing

SHEN Mingke,CHENG Xiangjie,FANG Chao,DING Gang,CHEN Jiaying

(Shanghai Power Equipment Research Institute Co.,Ltd.,Shanghai 200240,China)

Abstract:This paper designs a knowledge base system for power generation equipment based on natural language processing, which includes knowledge extraction,corpus and knowledge storage,knowledge question and answer sorting,and front-end question and answer of knowledge base and other modules. The construction process is:firstly,performs natural language processing basic model training in the field of power generation equipment;then extracts knowledge from the domain corpus;finally,uses the sorting model to achieve knowledge question and answer. Comparing the four knowledge extraction schemes can be obtained that for the accuracy of Top1 and Top3,the accuracy of adding MRC model in the pre-processing of knowledge extraction is higher than that of adding the MRC verification loop in the post-processing. For Top5 accuracy,adding MRC verification loop in post-processing has a higher accuracy rate than adding MRC model in pre-processing.

Keywords:natural language processing;power generation equipment;knowledge base system;knowledge extraction; knowledge question and answer


参考文献:

[1] 李广伟,王永 . 火力发电机组日常性能检测的流程及结论 规范化研究 [J]. 锅炉制造,2020(3):21-23.

[2] 刘青,车鹏程 . 某电厂 2# 炉高再异种钢焊口裂纹原因分 析报告 [J]. 锅炉制造,2019(4):47-49+52.

[3] 任纪兵 . 基于 .NET 的兴隆电厂档案管理系统设计与实现 [D]. 成都:电子科技大学,2016.

[4] 刘欣,李怡 . 文档管理在发电厂信息化管理中的应用 [J]. 信息技术与信息化,2016(10):36-38.

[5] 李佳,杨婷婷,刘伟 . 数字多媒体旅游咨询信息智能问答 系统设计 [J]. 现代电子技术,2017,40(12):66-68+71.

[6] 汤伟,杨铖 . 智能检索技术在电网调度本体知识库中的应 用 [J]. 自动化与仪器仪表,2019(2):193-196.

[7] 佟佳弘,武志刚,管霖,等 . 电力调度文本的自然语言理 解与解析技术及应用 [J]. 电网技术,2020,44(11):4148-4156.

[8] 陆婕,李少波 . 基于知识库的智能客服机器人问答系统设 计 [J]. 计算机科学与应用,2019,9(11):7.

[9] 管棋,蔡荣杰,杨小燕,等 . 智能问答系统在乳腺疾病影像 领域的研究与应用 [J]. 实用放射学杂志,2019,35(7):1159-1163.

[10] 张琳,胡杰 .FAQ 问答系统句子相似度计算 [J]. 郑州大 学学报(理学版),2010,42(1):57-61.

[11] 梁敬东,崔丙剑,姜海燕,等 . 基于 word2vec 和 LSTM 的句子相似度计算及其在水稻 FAQ 问答系统中的应用 [J]. 南京农 业大学学报,2018,41(5):946-953.

[12] 周映,韩晓霞 .ElasticSearch 在电子商务系统中的应用实 例 [J]. 信息技术与标准化,2015(5):72-74.

[13] 张建中,黄艳飞,熊拥军 . 基于 ElasticSearch 的数字图 书馆检索系统 [J]. 计算机与现代化,2015(6):69-73.

[14] 王宇,王芳 . 基于 HNC 句类的社区问答系统问句检索模 型构建 [J]. 计算机应用研究,2020,37(6):1769-1773.

[15] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,Volume 1(Long and Short Papers).Minneapolis: Association for Computational Linguistics,2019:4171-4186.

[16] WANG W,BI B,YAN M,et al. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding [J/OL].arXiv:1908.04577v3 [cs.CL].(2019-08-13). https://arxiv.org/abs/1908.04577v3.

[17] DU X Y,SHAO J R,CARDIE C. Learning to Ask:Neural Question Generation for Reading Comprehension [C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Vancover:Association for Computational Linguistics,2017:1342-1352.

[18] 庞博,刘远超 . 融合 pointwise 及深度学习方法的篇章排 序 [J]. 山东大学学报(理学版),2018,53(3):30-35.

[19] 顾迎捷,桂小林,李德福,等 . 基于神经网络的机器阅 读理解综述 [J]. 软件学报,2020,31(7):2095-2126.

[20] 张超然,裘杭萍,孙毅,等 . 基于预训练模型的机器阅 读理解研究综述 [J]. 计算机工程与应用,2020,56(11):17-25.

[21] 曾俊 . 抽取式中文机器阅读理解研究 [D]. 武汉:华中师 范大学,2020. [

[22] WANG Z,LIU J C,XIAO X Y,et al. Joint Training of Candidate Extraction and Answer Selection for Reading Comprehension [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne: Association for Computational Linguistics,2018:1715-1724.


作者简介:沈铭科(1991.11—),男,汉族,浙江丽水人, 中级工程师,硕士,研究方向:智慧电站技术研究。