当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术22年5期

面向高等教育领域的命名实体标注语料库构建方法
黄柯源,张浩军,李世龙,李大岭,王家慧
(河南工业大学 信息科学与工程学院,河南 郑州 450001)

摘  要:文章以高等教育政策文件为语料,在领域专家指导下结合高等教育政策文件文本特点,制定了一套标注体系和标注规范,开展了大规模的语料标注工作,构建了一个面向高等教育领域的标注语料库。该语料库共标注了 137 篇政策文件,包含5 102 个句子和 3 639 个实体。同时,通过使用模型对语料库进行实验,探讨了语料库的可信度及预标注策略的可行性。结果表明,该语料库的 F1 值达到 75.31%,为进一步的高等教育领域实体识别研究提供了基础。


关键词:高等教育;命名实体;标注规范;语料库构建



DOI:10.19850/j.cnki.2096-4706.2022.05.025


基金项目:国家第二批新工科研究与实践项目(E-CXCYYR20200937);国家自然科学基金面上项目(62073123);河南省科技攻关项目(212102210086);2020 年河南省新工科研究与实践项目(2020JGLX037)


中图分类号:TP18                                              文献标识码:A                                  文章编号:2096-4706(2022)05-0095-04


Construction Method of Named Entity Annotation Corpus for Higher Education Field

HUANG Keyuan, ZHANG Haojun, LI Shilong, LI Daling, WANG Jiahui

(College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)

Abstract: This paper takes higher education policy documents as the corpus, and under the guidance of experts in the field, combined with the text characteristics of higher education policy documents, formulates a set of labeling system and labeling specifications, and carries out large-scale corpus labeling work, constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents, and contains 5 102 sentences and 3 639 entities. At the same time, by using the model to conduct experiments on the corpus, the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%, which provides a basis for further research on entity recognition in the field of higher education.

Keywords: higher education; named entity; labeling specification corpus construction


参考文献:

[1] 杨锦锋,关毅,何彬,等 . 中文电子病历命名实体和实体关系语料库构建 [J]. 软件学报,2016,27(11):2725-2746.

[2] 曲春燕,关毅,杨锦锋,等 . 中文电子病历命名实体标注语料库构建 [J]. 高技术通讯,2015,25(2):143-150.

[3] 冯鸾鸾,李军辉,李培峰,等 . 面向国防科技领域的技术和术语语料库构建方法 [J]. 中文信息学报,2020,34(8):41-50.

[4] 曹若麟,杜渂 . 面向实体标注的公安警情领域语料库的构建 [J]. 电信快报,2021(3):20-24.

[5] 莫天金,李韧,杨建喜,等 . 公路桥梁定期检测领域命名实体识别语料库构建 [J]. 计算机应用,2020,40(S1):103-108.

[6] 李雁群,何云琪,钱龙华,等 . 中文嵌套命名实体识别语料库的构建 [J]. 中文信息学报,2018,32(8):19-26.

[7] LOWE R,POW N,SERBAN I V,et al. The Ubuntu dialogue corpus:A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv:1506.08909 [cs.CL] (2016-02-04). https: //arxiv.org/pdf/1506.08909v3.pdf.

[8] HU B T,CHEN Q C,ZHU F Z. LCSTS:A large scale Chinese short text summariazation dataset [J/OL].arXiv:1506.05865 [cs. CL].(2016-02-19). https: //arxiv.org/pdf/1506.05865.pdf.


作者简介:黄柯源(1997.05—),男,汉族,河南平顶山人,硕士研究生在读,研究方向:自然语言处理、知识图谱