当前位置>主页 > 期刊在线 > 信息技术 >

信息技术2018 年3 期

基于工业物料系统的数据清洗流程
李俊达1,吴昊1,毛秋宇1,张复生2
(1. 吉林大学 计算机科学与技术学院,吉林 长春 130012;2. 陕西优百信息技术有限公司,陕西 西安 710065)

摘  要:数据质量问题会给数据分析和挖掘带来致命的影响,因此需要对存在质量问题的数据进行清洗。数据清洗的方法和策略与具体的数据质量问题有关,本文以工业物料系统中的数据为实验对象,提出了一套简易高效的数据清洗流程,将通用的数据清洗的方法和策略实现具体化并加以改进。实验结果表明,该流程具有良好的应用价值。


关键词:数据质量;数据清洗;工业物料系统



中图分类号:TP311.13         文献标识码:A         文章编号:2096-4706(2018)03-0022-03


The Process of the Data Cleaning Based on Industrial Material System
LI Junda1,WU Hao1,MAO Qiuyu1,ZHANG Fusheng2
(1.School of Computer Science and Technology,Jilin University,Changchun 130012,China;
2.Shanxi Youbai Information Technology Co.,Ltd.,Xi’an 710065,China)

Abstract:Data quality issues will result in lethal effects of the analysis and excavation of data,so it is needed to clean the datawith the problem of data quality. Data cleaning techniques are related to specific data quality issues,this study takes the data of indus trialmaterial system as the expe rimental object,put forward a simple and efficient data cleaning process,externalizes and improves the methods and policies of general data cleaning. The experimental results show that the process has good application value.

Keywords:data quality;data cleaning;industrial material system


参考文献:

[1] 叶欧,张璟,李军怀. 中文数据清洗研究综述 [J]. 计算机工程与应用,2012,48(14):121-129.

[2] 郭志懋,周傲英. 数据质量和数据清洗研究综述 [J]. 软件学报,2012,13(11):2076-2081.

[3] 陈孟婕. 数据质量管理与数据清洗技术的研究与应用 [D].北京邮电大学,2013.

[4] 王铭军,潘巧明,刘真,陈为. 可视数据清洗综述 [J]. 中国图象图形学报,2015,20(4):0468-0482.

[5] 黎玲利. 实体识别关键技术的研究 [D]. 哈尔滨工业大学,2015.

[6] 武小平,左春. 基于工作流程的数据清洗系统 [J]. 计算机工程与设计,2008,29(8):1878-1880.

[7] 包从剑,李星毅,施化吉. 可扩展和可交互的数据清洗系统 [J]. 计算机技术与发展,2007,17(7):84-90.

[8] 杨东华,李宁宁,王宏志,等. 基于任务合并的并行大数据清洗过程优化 [J]. 计算机学报,2016,39(1):97-108.

[9] 刘芳,何飞. 基于聚类分析技术的数据清洗研究 [J]. 计算机工程与科学,2005,27(6):71-77.

[10] 包从剑. 数据清洗的若干关键技术研究 [D]. 江苏大学,2007.[11] 王雪英. 离群点预处理及检测算法研究 [D]. 西南交通大学,2009.

[12] 邓莎莎,陈松乔. 基于异构数据抽取清洗模型的元数据的研究 [J]. 计算机工程与应用,2004(30):175-177.


作者简介:李俊达(1998.04-),男,汉族,山东临沂人,本科在读,研究方向:计算机科学与技术。