浅析云计算、物联网和大数据技术

点击排行

当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术

浅析云计算、物联网和大数据技术

许彧

（上海电信工程有限公司，上海 200011）

摘要点击次数：187

摘要：近年来，新一代互联网技术迅速发展，比如电子商务、智慧城市以及各种社交网络和在线视频等逐渐走进人们的生活。云计算、大数据和物联网代表了IT领域最新的技术发展趋势，三者相辅相成。基于Hadoop大数据技术，其位于底层的分布式文件系统可扩展性高，利用数据信息的冗余容错来保证数据信息的完整性，且能够提高运算效率，还能对多种类型的数据进行存储，实现了云计算、大数据和物联网的结合应用。

关键词：云计算；物联网；大数据；Hadoop

作者介绍：

许彧（1984.01-），男，汉族，江苏镇江人，经理助理，工程师，学士。研究方向：计算机。

中图分类号：TN929.5 文献标识码：A 文章编号：2096-4706（2018）03-0000-03

Analysis of Cloud Computing，Internet of Things andBig Data Technology

XU Yu

（ShanghaiTelecommunication Engineering Co.，Ltd.，Shanghai 200011，China）

Abstract：In recent years，the new generation of internet technology has developed rapidly，such as e-commerce，intelligent city andvarious social networks and online video gradually into the people's life. Cloudcomputing，big data and internet of things represent thelatest technology development trend in the field of IT. The three complementeach other. Based on Hadoop large data technology，thedistributed file system at the bottom has high scalability. It can make use ofredundant fault tolerance of data information to ensure the integrity of datainformation，and can improve operation efficiency. Itcan also store various types of data，and realize thecombined application of cloud computing，large data andInternet of things.

Keywords：cloud computing；internet of things；big data；Hadoop

0 引言

近年来，互联网以及信息技术迅速发展，电子商务、智慧城市以及各种社交网络和在线实时视频等逐步走进人们的生活。这些新技术的主要特点是需要存储的数据量大以及业务增长速度快，网络大数据的发展可以提高现代人的生活质量。为此，云计算的出现，为大数据提供了通信技术基础以及大量的数据存储空间，而大数据为云计算提供了发挥场地，并为物联网数据分析提供支持。

1 云计算

云计算是基于互联网的相关服务的增加、使用和交付模式。用户可以根据需要购买供应商的网络、服务器、存储等共享资源，用户能够快速获取资源，减少了硬件资源的投入，减少与服务商的交互。云计算使计算分布在大量的分布式计算机上，并使用各种应用软件系统按需要获取计算力、存储空间和信息服务，用户能按需进行无线扩展，随时根据自身需求进行定制、扩展和管理。

云计算在现在的科技需求中具有超大规模、虚拟化、高可靠性、通用性、高可扩展性等特点，并使大数据技术在物联网中得到了很好的应用。从技术上看，大数据与云计算有着互相依赖、不可分割的关系。由于数据量过大，单个计算机不能独立完成数据的处理任务，必须借助云计算中强大的并行计算和分布式计算能力。让云计算为大数据提供强大的平台，用大数据分析出的结论来实现云计算的价值。

云计算的5个固有特性，即根据实际需求自助服务、共享资源、网络访问量大、服务可度量以及可伸缩性快速。列举它的3种服务方式：（1）SaaS（软件即服务）；（2）PaaS（平台即服务）；（3）IaaS（基础设施即服务）。它的部署方式为私有云、社区云、公有云和混合云。为此，云计算慢慢将覆盖我们传统的IT工作，网络将依托云平台运行。

2 物联网

物联网就是“物物相连的互联网”。物联网将自动感知和智能识别技术与普通计算和泛在网络相融合。该技术被视作计算机和互联网之后，在世界信息科学技术产业发展历史上的第三次技术革命。物联网目前在通信方面起到了重要作用，它可以将各种信息传感设备，如射频识别（RFID）装置、红外感应器、全球定位系统、激光扫描器与互联网结合起来。经过接口与无线网络（也含固定网络），把物体和物体以及人和物体连接起来，实现物体与物体、人与物体之间的交流。

物联网的关键技术是传感器技术，大多数计算机只处理标准数字信号，这就需要通过各种标准的传感器把模拟信号转换成数字量。RFID射频标签读写器是一种新型的无需相互接触的传感识别技术，它是无线射频原理以及嵌入式技术相互结合的产物，开发、拓展更广阔的应用前景，目前主要用于超市物品的射频识别、包装物流检测以及车辆的进出检测等。

在物联网中，其嵌入式技术将计算机硬件以及软件、传感器自动识别技术以及集成电路系统等多种技术相结合。随着科学技术的发展，嵌入式系统逐渐应用于智能移动终端产品，比如生活中的空气净化器，甚至在航天卫星系统中也有各种应用。嵌入式技术不仅让人民的生活水平有了显著改善，也促进了工业生产的发展，甚至提高了国防军事能力。假如将物联网比作人体，传感器自动识别系统就是人的感知器官，网络就是神经传输系统，而嵌入式系统相当于人的大脑，负责分类处理从各个器官接收到的数据信息。现在的物联网产业由应用层、支撑层、感知层、平台层以及传输层这五个层次构成。

3 大数据

大数据是指数据量极大，且数据类型非常大的集合，而且该数据集合不可能使用传统的像SQL以及Acess之类的数据库工具工具来进行运算与处理和控制。

假设将大数据比喻成一个产业，则该产业则必须通过提高数据的加工处理能力以及利用对数据的加工来实现产业上的增值来进行盈利，那么大数据不光要具有超大容量，还要有数据管理、获取、分析等等功能效率，才能在海量数据中超出传统数据库软件工具能力范围的数据集合，做到快速的数据流转、超大容量的储存，从而利益做大

化。

4 Hadoop

经过开源社区无数贡献者的强大推动，Hadoop用其显著的低成本、高性能特性，得到了大量有大数据处理需求的用户的支持，并且在使用过程中不断地被补充和完善，形成了一个强大的生态系统。毫无疑问，Hadoop已经成为当下大数据处理领域的王者技术。

Hadoop主要有以下几个优点：

（1）高可靠性。人们可以完全信任Hadoop按Bit位进行存储以及数据处理运算的能力。

（2）高扩展性。Hadoop是通过在一个计算机的可用集簇之间进行分配数据继而完成运算任务的，而且该集簇能够比较方便的扩展到无数的节点中。

（3）高效性。Hadoop之所以其数据处理速度极快，其原因在于它可以自由的将数据在节点之间移动，且能够保证各个节点的相互平衡。

（4）高容错性。Hadoop既可以将多余的数据进行保存，又可以将未成功执行的任务进行再分配。

（5）低成本。传统的一体机以及数据库和YonghongZ-Suite以及QlikView等数据集的源码大多为闭源的，而Hadoop则是开源的，所以，利用Hadoop进行开发设计的软件成本就很低。

Hadoop是Apache（阿帕切）的一个开源项目，它是一个对大量数据采用分布式的软件结构，其核心的设计思想是：HDFS和MapReduce。HDFS主要任务是存储海量的数据，而MapReduce的主要任务是计算海量的数据。HDFS是一个分布式文件系统，其开发成本低、系统可靠性高、运算过程的吞吐量大。MapReduce是进行代码编程的一种模型和软件设计时的一种架构。

Hadoop的核心由HDFS和MapReduce组成。HDFS（Hadoop Distributed File System）由早期的NDFS演化而来，是一个分布式文件系统，开发成本低、系统可靠性高、运算过程的吞吐量大。MapReduce是进行代码编程的一种模型和软件设计时的一种架构，可以应用于计算机集合上并行程序的编写，且编写出的程序的主要任务是处理大数据。

4.1 Hadoop Distributed File System（HDFS）

HDFS是一个适合构建于廉价计算机集群之上的分布式文件系统，具有低成本、高可靠性、高吞吐量的特点，由早期的NDFS演化而来。

HDFS中主要包括一台NameNode及多台DataNode服务器。

NameNode：节点，主要负责存储元数据（能够快速查询到数据块，即对数据块进行映射）

HDFS存储：（块操作）主要是将某个文件在逻辑上分块（Block），该Block的存储容量是128M，将该Block按照顺序存储至不同的DataNode服务器上，而哪些Block存储在DataNode上则记录在NameNode上，读取块时首先访问NameNode（NameNode表示群的查询入口），利用NameNode查找相应的块文件，其中，NameNode实质上是将对应的关系元数据进行记录的结构体。

DataNode：即为数据节点，它是实质上存储的是真实的数据块。

假如将多台Seveice集合成一个HDFS集后，将会启动NameNode以及DataNode两个任务，而NameNode服务器则会启动相应的任务线程。

如果某个DataNode服务器无法启动，此时它不会对数据访问产生影响。例如，当全部DataNode服务器的存储空间溢出时，我们能够随意增加可用加服务器，并且相互之间互不影响，即所谓的分布式文件系统。

4.2 MapReduce

MapReduce是进行代码编程的一种模型和软件设计时的一种架构，可以应用于计算机集合上并行程序的编写，且编写出的程序的主要任务是处理大数据。MapReduce利用分级处理的原则以及精准效率，将对大规模数据的处理，分配至每个主节点控制下的每个分节点进行相互配合完成，并且将所有节点处理的中间结果进行综合，计算出最终结果。

在常用的分布式计算中，MapReduce架构主要解决并编程中诸如分布式存储数据信息、计算工作的管理调度、负载均衡、容错均衡、等等通信各种繁杂的问题，将执行过程进行高度概括，抽象成2个函数：即map和reduce。其中，map主要工作是将大任务的划分成许多小任务，而reduce主要工作是将划分后多个小任务执行的结果进行综合。

MapReduce是由Client、JobTracker、TaskTracker、Task组成的。

Client：用户编写的MapReduce程序通过Client提交到JobTracker。

JobTracker：主要负责资源监控和作业调度。JobTracker监控所有TaskTracker与作业的健康情况，一旦有失败情况后，其会将相应的任务给到其他节点上。

TaskTracker：它会周期的将本节点资源使用和任务进度汇报给jobtracker，方式叫做“心跳”；与此同时接受jobTracker发送过来的命令并执行操作。

Task：Task分为Map Task和Reduce Task两种，有TaskTracker启动。

5 结论

物联网和互联网产生海量的数据，通过云计算集中存储和处理，使用大数据对这些数据进行深入分析和挖掘，三者相辅相成，相得益彰。基于Hadoop的大数据处理技术，在高扩展性、成本效益低、高容错性等特点下，Hadoop发挥了独特的优势。

参考文献：

[1] 刘军.Hadoop大数据处理 [M].北京：人民邮电出版社，2013.

[2] 程学旗，靳小龙，王元卓，等.大数据系统和分析技术综述 [J].软件学报，2014，25（9）：1889-1908.

[3] 郝树魁.Hadoop HDFS和MapReduce架构浅析 [J].邮电设计技术2012（7）：37-42.

[4] 刘云浩.物联网导论[M].北京：科学出版社，2010.

[5] 杨正洪，周发武.云计算和物联网 [M].北京：清华大学出版社，2011（9）.

[6] 黄仁根.物联网技术在各领域的应用探析 [J].现代信息科技，2017（6）.

[7] 王星尧.物联网在建设智慧校园中的应用 [J].电子技术与软件工程，2018（2）.

[8] 廖娜，马军红，苏培华.物联网时代下西安智慧城市建设对策研究[J].时代农机，2017（11）.

上一篇：视频会议技术的挑战及解决方法分析

下一篇：浅谈计算机应用现状及其未来发展方向