当前位置>主页 > 期刊在线 > 信息化应用 >

信息化应用23年5期

基于 BERT-BILSTM-CRF 的慢性支气管炎 中医医案实体识别
帅亚琦,李燕,陈月月,徐丽娜,钟昕妤
(甘肃中医药大学 信息工程学院,甘肃 兰州 730000)

摘  要:随着现代信息技术的飞速发展,人类社会开始进入大数据时代,如何高效快捷地从海量的中医医案文本数据中挖掘出我们所需要的信息,从而更好地应用于临床工作,是目前亟待解决的问题。通过实验对慢性支气管炎中医医案进行研究,分析 BERT、BILSTM、BILSTM-CRF 和 BERT-BILSTM-CRF 四种模型的实体识别效果,结果表明,相比于其他模型,采用BERT-BILSTM-CRF 模型可以更加准确有效地识别出慢性支气管炎中医医案的实体类别,其 F1、Precision 和 Recall 均优于其他模型。


关键词:数据挖掘;命名实体识别;中医医案;循环神经网络



DOI:10.19850/j.cnki.2096-4706.2023.05.035


中图分类号:TP391.1;R2-03                              文献标识码:A                                文章编号:2096-4706(2023)05-0145-05


Entity Recognition of Traditional Chinese Medical Cases of Chronic Bronchitis Based on BERT-BILSTM-CRF

SHUAI Yaqi, LI Yan, CHEN Yueyue, XU Lina, ZHONG Xinyu

(School of Information Engineering, Gansu University of Chinese Medicine, Lanzhou 730000, China)

Abstract: With the rapid development of modern information technology, human society has begun to enter the era of big data. How to efficiently and quickly mine the information we need from the massive text data of traditional Chinese medicalcases, so as to better apply them to clinical work, which is an urgent problem to be solved at present. Based on the experimental study of traditional Chinese medicalcases of chronic bronchitis, the entity recognition effects of four models, BERT, BILSTM, BILSTM-CRF and BERT-BILSTMCRF, are analyzed. The results show that compared with other models, the BERT-BILSTM-CRF model can more accurately and effectively identify the entity categories of traditional Chinese medicalcases of chronic bronchitis, and its F1, Precision and Recall are all better than that of other models.

Keywords: data mining; named entity recognition; traditional Chinese medical case; cyclic neural network


参考文献:

[1] 吴信东,李娇,周鹏,等 . 碎片化家谱数据的融合技术 [J].软件学报,2021,32(9):2816-2836.

[2] 钟华帅 . 基于深度学习的实体和关系联合抽取模型研究与应用 [D]. 广州:华南理工大学,2020.

[3] PETERS M E,NEUMANN M,IYYER M,etal. Deep  Contextualized Word Representations[J/OL].arXiv:1802.05365[cs.CL].  [2022-10-03].https://arxiv.org/abs/1802.05365v1. 

[4] DEVLIN J,CHANG M W,LEE K,et al. BERT:  Pre-training of Deep Bidirectional Transformers forLanguage  Understanding[J/OL].arXiv:1810.04805 [cs.CL].[2022-10-03].https://arxiv.org/abs/1810.04805.

[5] GAJENDRAN S,MANJULA D,SUGUMARAN V.  Character level and word level embedding with bidirectional LSTM–Dynamic recurrent neural network for biomedical named entity  recognition from literature[J/OL].Journal of Biomedical Informatics, 2020,112[2022-10-02].https://linkinghub.elsevier.com/retrieve/pii/S1532046420302367.

[6] 高佳奕,杨涛,董海艳,等 . 基于 LSTM-CRF 的中医医案症状命名实体抽取研究 [J]. 中国中医药信息杂志,2021,28(5):20-24.

[7] 李明浩,刘忠,姚远哲 . 基于 LSTM-CRF 的中医医案症状术语识别 [J]. 计算机应用,2018,38(S2):42-46.

[8] 肖瑞,胡冯菊,裴卫 . 基于 BiLSTM-CRF 的中医文本命名实体识别 [J]. 世界科学技术 - 中医药现代化,2020,22(7):2504-2510.

[9] 顾溢 . 基于 BiLSTM-CRF 的复杂中文命名实体识别研究[D]. 南京:南京大学,2019.

[10] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural computation,1997,9(8):1735-1780.

[11] 山梦娜 . 基于深度学习的遥测数据异常检测 [D]. 西安:西安工业大学,2020.

[12] GRAVES A,SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures [J].Neural Networks,2005,18(5-6):602-610.

[13] 杨云,宋清漪,云馨雨,等 . 基于 BiLSTM-CRF 的玻璃文物知识点抽取研究 [J]. 陕西科技大学学报,2022,40(3):179-184.

[14] 高经纬,马超,姚杰,等 . 基于机器学习的人体步态检测智能识别算法研究 [J]. 电子测量与仪器学报,2021,35(3):49-55.


作者简介:帅亚琦(1998—),男,汉族,山东潍坊人,硕士研究生在读,主要研究方向:知识图谱;通讯作者:李燕(1976—),女,汉族,甘肃兰州人,教授,硕士研究生,主要研究方向:中医药数据挖掘、中医药知识图谱;陈月月(1997—),女,汉族,山东滨州人,硕士研究生在读,主要研究方向:知识图谱;徐丽娜(1996—),女,汉族,甘肃定西人,硕士研究生在读,主要研究方向:数据挖掘;钟昕妤(1996—)女,汉族,浙江嘉兴人,硕士研究生在读,主要研究方向:数据挖掘。