摘 要:为了改进传统决策树算法存在的一些问题,文章结合粗糙集理论提出一种基于粒度决策熵的决策树算法DTGDE。DTGDE 算法采用粒度决策熵作为分裂属性的选择标准。在该信息熵模型中,粒度决策熵可以同时表示知识的完备性和知识的粒度大小,因此,利用粒度决策熵来选择分裂属性能够更加全面地考察每个属性对决策分类的贡献。实验结果表明,DTGDE 算法具有比现有决策树算法更好的入侵检测性能。
关键词:决策树;粗糙集;信息熵;粒度决策熵;属性重要性;入侵检测
中图分类号:TP309 文献标识码:A 文章编号:2096-4706(2020)23-0147-07
The Application of an Improved Decision Tree Algorithm in Intrusion Detection
ZHANG Minyu
(College of Information Science and Technology,Qingdao University of Science & Technology,Qingdao 266061,China)
Abstract:In order to improve the existing problems of traditional decision tree algorithm,a decision tree algorithm DTGDE based on granular decision entropy is proposed by combining with rough set theory. DTGDE algorithm uses granular decision entropy as the selection standard of splitting attributes. In the information entropy model,the granular decision entropy can represent both the completeness of knowledge and the granularity size of knowledge. Therefore,using granular decision entropy to select split attributes can more comprehensively investigate the contribution of each attribute to decision classification. Experimental results show that DTGDE algorithm has better intrusion detection performance than existing decision tree algorithms.
Keywords:decision tree;rough set;information entropy;granular decision entropy;significance of attribute;intrusion detection
参考文献:
[1] QUINLAN R J. Induction of decision trees [J].MachineLearning,1986,1(1):81-106.
[2] QUINLAN R J. C4.5:Programs for Machine Learning [M].San Francisco:Morgan Kaufmann Publishers Inc.,1993:1-131.
[3] PAWLAK Z. Rough sets [J].International Journal of Computer& Information Sciences,1982,11(5):341-356.
[4] PAWLAK Z. Rough Sets:Theoretical Aspects of Reasoningabout Data [M].Norwell:Kluwer Academic Publishing,1991:1-231.
[5] LEI Z J,WU L L. Construction of Decision Tree Based onRough Sets Theory [J].Advanced Materials Research,2012(433-440):5208-5213.
[6] 王蓉,刘遵仁,纪俊. 基于属性重要度的决策树算法 [J].计算机科学,2017,44(S2):129-132.
[7] 余建军,张琼之. 基于粗糙集的决策树ID3 算法 [J]. 计算机系统应用,2020,29(4):156-162.
[8] 林芷欣. 基于邻域粗糙集的属性约简算法研究及应用 [D].山东青岛:青岛大学,2020.
[9] 王靖,王兴伟,赵悦. 基于变精度粗糙集决策树垃圾邮件过滤 [J]. 系统仿真学报,2016,28(3):705-710.
[10] LIU D,LI T R,LIANG D C. Three-way GovernmentDecision Analysis With Decision-Theoretic Rough Sets [J].InternationalJournal of Uncertainty,Fuzziness and Knowledge-Based Systems,2012,20(supp1):119-132.
[11] 吴学辉. 基于粗糙集的决策树在产品缺陷检测中的应用 [J]. 太原师范学院学报(自然科学版),2015,14(3):37-41.
[12] 谭永奇,樊建聪,任延德,等. 改进的属性约简算法及其在肝癌微血管侵犯预测中的应用 [J]. 计算机应用,2019,39(11):3221-3226.
[13] 江峰,王春平,曾惠芬. 基于相对决策熵的决策树算法及其在入侵检测中的应用 [J]. 计算机科学,2012,39(4):223-226.
[14] 王希玲,江峰,张友强,等. 基于依赖决策熵的决策树分类算法 [J]. 青岛科技大学学报(自然科学版),2016,37(6):687-692.
[15] 陈波,于泠,吉根林. 基于条件信息熵的网络攻击特征选择技术 [J]. 小型微型计算机系统,2008,29(3):428-432.
[16] 刘帅. 基于决策树和信息熵的属性约简算法研究 [D]. 沈阳:东北大学,2010.
[17] 苗夺谦,范世栋. 知识粒度的计算及其应用 [J]. 系统工程理论与实践,2002,22(1):48-56.
[18] 徐章艳,刘作鹏,杨炳儒,等. 一个复杂度为max(O(|C||U|),O(|C|^2|U/C|))的快速属性约简算法 [J]. 计算机学报,2006,29(3):391-399.
[19] UCI. KDD Cup 1999 Dataset [DB/OL].(1999-10-28).http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.
[20] ESTABROOKS A,TAEHO J,JAPKOWICZ N. A MultipleResampling Method for Learning from Imbalanced Data Sets [J].Computational Intelligence,2004,20(1):18-36.
[21] Github. imblearn.combine.SMOTEENN [EB/OL].(2018-01-17).http://glemaitre.github.io/imbalanced-learn/generated/imblearn.combine.SMOTEENN.html.
[22] 曲朝阳,陈帅,杨帆,等. 基于云计算技术的电力大数据预处理属性约简方法 [J]. 电力系统自动化,2014,38(8):67-71.
[23] 刘金平,张五霞,唐朝晖,等. 基于模糊粗糙集属性约简与GMM-LDA 最优聚类簇特征学习的自适应网络入侵检测 [J].控制与决策,2019,34(2):243-251.
[24] 邵瑞. 基于粗糙集的高维数据高效属性约简研究与应用 [D]. 重庆:重庆邮电大学,2018.
[25] 余建航. 基于粗糙集的几类广义信息系统知识发现与决策方法研究 [D]. 哈尔滨:哈尔滨工业大学,2020.
[26] 杨传健,葛浩,汪志圣. 基于粗糙集的属性约简方法研究综述 [J]. 计算机应用研究,2012,29(1):16-20.
[27] WITTEN L H,FRANK E,HALL M A.Data Mining:Practical Machine Learning Tools andTechniques with Java Implementations [M].San Francisco:MorganKaufmann Publishers Inc.,2000:416.
[28] 陈仕涛,陈国龙,郭文忠,等. 基于粒子群优化和邻域约简的入侵检测日志数据特征选择 [J]. 计算机研究与发展,2010,47(7):1261-1267.
[29] Cambridge University Press. Evaluation of clustering [EB/OL].(2009-04-07).https://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html.
作者简介:张旻宇(1993—),男,汉族,江西永丰人,硕士研究生在读,研究方向:网络安全技术。