当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术23年1期

基于 Hadoop 搭建高可用数据仓库的研究和实现
刘晓莉,李满,熊超,秦黄,刘晓娟
(广州工商学院,广东 广州 510850)

摘  要:目前,网购交易的日益增加使得电商数据量呈现疯狂增长的态势,数据量的大增需要引入数据仓库,用以支持对大容量数据的分析和处理。在数据仓库的架构设计过程中,将 HDFS 作为底层文件存储系统,避免因某些原因而导致的系统崩溃。该文对高可用数据仓库的应用进行深入的研究,通过搭建高可用数据数仓平台,解决 Hadoop 单节点故障问题,提高数据采集和存储的效率,有效解决了传统数据分析的局限性,具有一定的应用推广价值。


关键词:数据仓库;高可用;大数据;Hadoop



DOI:10.19850/j.cnki.2096-4706.2023.01.027


基金项目:广州工商学院 2022 年国家级大学生创新创业训练计划立项项目(202213714006)


中图分类号:TP311                                       文献标识码:A                                   文章编号:2096-4706(2023)01-0099-03


Research and Implementation of Building High Availability Data Warehouse Based on Hadoop

LIU Xiaoli, LI Man, XIONG Chao, QIN Huang, LIU Xiaojuan

(Guangzhou College of Technology and Business, Guangzhou 510850, China)

Abstract: At present, the growing number of online shopping transactions has led to a crazy growth of E-commerce data volume, which requires the introduction of data warehouses to support the analysis and processing of large volume data. During the architecture design of the data warehouse, HDFS is used as the underlying file storage system to avoid system crash for some reasons. This paper conducts in-depth research on the application of high availability data warehouse. By building a high availability data warehouse platform, it solves the problem of Hadoop single node failure, improves the efficiency of data collection and storage, effectively solves the limitations of traditional data analysis, and has certain application promotion value.

Keywords: data warehouse; high availability; big data; Hadoop


参考文献:

[1] 邹群.一种基于Hadoop的数字图书存储系统设计方案 [J].黑龙江史志,2014(1):212.

[2] 翟永东 .Hadoop 分布式文件系统(HDFS)可靠性的研究与优化 [D]. 武汉:华中科技大学,2011.

[3] 李聪 .HDFS 元数据管理的高可用性优化技术研究 [D]. 哈尔滨:哈尔滨工业大学,2016.

[4] 宋继红,李梦楠,郝得智 . 基于 Hadoop 分布式文件系统的单点问题的研究 [J]. 软件工程师,2014,17(12):9-10+6.

[5] 杨帆 .Hadoop 平台高可用性方案的设计与实现 [D]. 北京:北京邮电大学,2012.

[6] 陈磊,吴晓晖 . 基于 Hadoop 的分布式集群大数据动态存储系统设计 [J]. 中国电子科学研究院学报,2019,14(6):593-598.


作者简介:刘晓莉(2001.04—),女,汉族,广东深圳人,本科在读,研究方向:大数据技术;李满(1966.12—),女,汉族,河南南阳人,副教授,硕士,研究方向:虚拟现实技术、人工智能;熊超(2001.02—),男,汉族,四川南部人,本科在读,研究方向:大数据开发;秦黄(2001.04—),男,汉族,广西桂林人,本科在读,研究方向:大数据存储、深度学习;刘晓娟(1990.07—),女,瑶族,广西贺州人,讲师,硕士,研究方向:大数据存储。