摘 要:大数据质量评估是大数据产业化道路上较为突出的挑战之一,故文章基于重庆工商大学2019 年研究生创新型科研项目和数理统计团队培养项目,对大数据质量评估方法进行深入研究。首先,通过对大数据质量评估的现有方法进行简要综述,选取数据生命周期分析研究视角;其次,分析大数据质量的影响因素,从原始质量、过程质量和结果质量3 个维度确定了15 个大数据质量度量指标;最后,运用层次分析法和专家打分法建立大数据质量评估模型。
关键词:大数据;数据质量;质量评估;综合评价
中图分类号:TP311.1 文献标识码:A 文章编号:2096-4706(2020)08-0086-04
Research on Data Quality Evaluation Method Based on Big Data
ZHOU Yanhong
(College of Mathematics and Statistics of Chongqing Technology and Business University,Chongqing 400067,China)
Abstract:Big data quality assessment is one of the more prominent challenges on the road to big data industrialization. Therefore,based on the 2019 graduate innovative scientific research project and mathematical statistics team training project of Chongqing Technology and Business University,in-depth research on big data quality assessment methods is carried out. First,through a brief review of the existing methods of big data quality assessment and selecting a data life-cycle analysis research perspective;secondly,the influencing factors of big data quality are analyzed,and 15 big data quality measurement indexes are determined from three dimensions of original quality,process quality and result quality. Finally,a big data quality evaluation model is established by using AHP and expert scoring method.
Keywords:big data;data quality;quality assessment;comprehensive evaluation
基金项目:重庆工商大学2019 年研究生创新型科研项目(yjscxx2019-101-56);重庆工商大学数理统计团队项目(ZDPTTD201906)
参考文献:
[1] 宗威,吴锋. 大数据时代下数据质量的挑战 [J]. 西安交通大学学报:社会科学版,2013,33(5):38-43.
[2] 李学龙,龚海刚. 大数据系统综述 [J]. 中国科学:信息科学,2015,45(1):1-44.
[3] 王宏志. 大数据质量管理:问题与研究进展 [J]. 科技导报,2014,32(34):78-84.
[4] Gartner. Information Technology-Gartner Glossary-BigData[EB/OL].[2020-04-12].http://www.gartner.com/en/informationtechnology/glossary/big-data.
[5] 彭宇,庞景月,刘大同,等. 大数据:内涵、技术体系与展望 [J]. 电子测量与仪器学报,2015,29(4):469-482.
[6] 刘洋. 基于计算机的大数据和云计算技术分析 [J]. 无线互联科技,2020,17(7):75-77.
[7] 李敬华,贾蓓,李倩茹. 传统统计数据和大数据内涵辨析 [J]. 电信快报,2016(9):40-43.
[8] IBM. 什么是大数据[EB/OL].(2013-02-26).https://www.ibm.com/products/software.
[9] CAPPS C,WRIGHT T. Toward a Vision:Official Statisticsand Big Data [J]. AMSTAT news,2013(434):9-13.
[10] 王力,周晓剑. 大数据质量评估的标准及过程研究 [J].经营与管理,2018(4):84-88.
[11] 刘金晶,曹文洁. 大数据环境下的数据质量管理策略 [J].软件导刊,2017,16(3):176-179.
[12] 丁小欧,王宏志,张笑影,等. 数据质量多种性质的关联关系研究 [J]. 软件学报,2016,27(7):1626-1644.
[13] 莫祖英. 大数据质量测度模型构建 [J]. 情报理论与实践,2018,41(3):11-15.
[14] 黄永鑫,郭彦辰. 大数据的数据使用质量评价研究 [J].电子技术与软件工程,2018(23):173-174.
[15] 李建中,王宏志,高宏. 大数据可用性的研究进展 [J].软件学报,2016,27(7):1605-1625.
[16] 黄莺,李建阳. 元数据质量评估方法及模型研究 [J]. 图书馆学研究,2013(12):52-56+51.
[17] 韩京宇,陈可佳. 基于事实抽取的Web 文档内容数据质量评估 [J]. 计算机科学,2014,41(11):247-251+255.
[18] 汤莉,何丽. 基于PAC-Bayes 理论的Web 文档数据质量评估方法 [J]. 计算机工程与科学,2017,39(3):572-579.
[19] 余芳东. 非传统数据质量评估的国际经验及借鉴 [J]. 统计研究,2017,34(12):15-23.
[20] 赵星,李石君,余伟,等. 大数据环境下Web 数据源质量评估方法研究 [J]. 计算机工程,2017,43(2):48-56.
[21] 唐继仲. 数据质量评估与提升方法及应用研究 [D]. 上海:上海交通大学,2015.
[22] LIN Y,WANG H,LI J,et al.Data Source Selection forInformation Integration in Big Data Era [J].Information Sciences,2018,479:197-213.
[23] 李红,牛成英,孙秋碧,等. 大数据时代数据融合质量的评价模型 [J]. 统计与决策,2018,34(21):10-14.
作者简介:周艳红(1996—),女,汉族,浙江台州人,硕士研究生在读,研究方向:统计理论与方法。