摘 要:为对广东省投资项目在线审批监管平台积累的近 40 万个固定资产投资项目的产业类别进行分类,利于政府内部统计管理。在专家识别的人工打标签的方法基础上,进一步采用了线性支持向量机等分类算法,并基于反馈式文本分类机器学习原理再次识别了所有项目的标签类别,项目标签分类准确率由 82% 提升到 91%。结果表明,反馈式文本分类技术,显著提高了项目分类的准确性。
关键词:项目标签;文本分类、词向量;分类器;线性支持向量机;反馈学习
DOI:10.19850/j.cnki.2096-4706.2021.17.024
中图分类号:TP181 文献标识码:A 文章编号:2096-4706(2021)17-0100-04
Automatic Recognition of Item Labels Based on Feedback Text Classification Technology
XIE Bo, HE Feng
(1.Guangdong Investment and Credit Service Center Guangzhou 510030, China; 2.Guangdong Bid Winning Data Technology Co., Ltd., Guangzhou 510030, China)
Abstract: In order to classify the industry categories of the nearly 400,000 fixed assets investment projects accumulated by the online approval and supervision platform for investment projects in Guangdong Province, it is conducive to the government’s internal statistical management. Based on the manual labeling method recognized by experts, classification algorithms such as linear support vector machines are further adopted, based on the feedback text classification machine learning principle, the label categories of all items are recognized again, and the accuracy of project label classification has been improved by 82% to 91%. The results show that the feedback text classification technology significantly improves the accuracy of project labels classification.
Keywords: project label; text classification; word vector; classifier; linear support vector machine; feedback learning
参考文献:
[1] 苏金树,张博锋,徐昕 . 基于机器学习的文本分类技术 究进展 [J]. 软件学报,2006(9):1848-1859.
[2] 杨丽华,戴齐,杨占华 . 文本分类技术研究 [J]. 微计算机 信息,2006(15):209-211.
[3] 汪家成,薛涛 . 基于 FastText 和关键句提取的中文长文本分类 [J]. 计算机系统应用,2021,30(8):213-218.
[4] 于游,付钰,吴晓平 . 中文文本分类方法综述 [J]. 网络与信息安全学报,2019,5(5):1-8.
[5] 马思丹,刘东苏 . 基于加权 Word2vec 的文本分类方法研 究 [J]. 情报科学,2019,37(11):38-42.
[6] 孙桂煌 . 基于大数据技术的中文多标签文本分类方法研究[J]. 齐齐哈尔大学学报(自然科学版),2020,36(6):39-43.
[7] 高明霞,李经纬 . 基于 word2vec 词模型的中文短文本分类方法 [J]. 山东大学学报(工学版),2019,49(2):34-41.
[8] 方秋莲,王培锦,隋阳,等 . 朴素 Bayes 分类器文本特征向量的参数优化 [J]. 吉林大学学报(理学版),2019,57(6): 1479-1484.
[9] 潘忠英 . 朴素贝叶斯中文文本分类器的设计与实现 [J]. 电脑编程技巧与维护,2021(2):37-39+70.
[10] 刘硕,王庚润,李英乐,等 . 中文短文本分类技术研究综述 [J]. 信息工程大学学报,2021,22(3):304-312.
[11] 栗征征 . 中文文本分类概述 [J]. 电脑知识与技术, 2021,17(1):229-230.
[12] 孙晋文,肖建国 . 基于 SVM 的中文文本分类反馈学习技术的研究 [J]. 控制与决策,2004(8):927-930.
作者简介:谢波(1983—),男,汉族,湖南常德人,投资项目部部长,高级工程师,硕士,主要研究方向:电子政务建设、信 用体系建设、投资项目管理;何凤(1988—),女,汉族,湖南汨罗人,信息系统项目管理师,高级工程师,硕士,研究方向:信息 系统项目管理、数据分析和挖掘、数据治理、数据可视化。