Apache Hadoop官方版是一个处理大规模数据集存储处理的开源大数据分布式计算工具。Apache Hadoop官方版基于分布式计算框架,拥有高可扩展性和容错性,允许用户有效地管理和分析海量数据。Apache Hadoop官方版件包括Hadoop Distributed File System(HDFS)用于数据存储,以及MapReduce编程模型用于分布式数据处理并且还支持各种工具和生态系统,如Hive、Pig、Spark等,用于数据查询、ETL、实时处理等任务。
-
5.11 中文版查看
-
0.1.9 电脑版查看
-
官方版查看
-
20.03 电脑版查看
-
1.48.0 官方版查看
Apache Hadoop软件简介
Apache Hadoop是针对大数据分布式计算的开源解决方案包含以下整个概念数据挖掘从搜索引擎、通过积分卡跟踪的杂货店购买模式等来源。在现代世界中,互联网有如此多的数据源,以至于如果不进行处理,其规模往往会使其无法使用,并且任何一台服务器的处理都将花费令人难以置信的大量时间。进入Apache Hadoop
Apache Hadoop软件特色
减少数据处理时间
通过利用Hadoop架构来分发跨网络上的多台机器处理任务,处理时间大大减少,并且可以在合理的时间内确定答案。Apache Hadoop分为两个不同的组件:存储组件和处理组件。用最简单的话来说,Hapood制造多台物理机中的一台虚拟服务器。实际上,Hadoop管理多台机器之间的通信,使得它们足够紧密地协同工作,就好像只有一台机器在进行计算一样。数据分布在多台机器上被储存和处理任务由Hadoop架构分配和协调。这种类型的系统是将原始数据转换为大数据输入规模的有用信息的要求。想想谷歌每秒钟从输入搜索请求的用户那里收到的数据量。作为一大堆数据,您不知道从哪里开始,但Hadoop会自动将数据集缩减为更小的、有组织的数据子集,并将这些可管理的子集分配给特定的资源。所有的结果然后被报告回来汇集成有用的信息。
易于设置的服务器
尽管这个系统听起来很复杂,但是大部分活动的部分都隐藏在抽象的背后。设置Hadoop服务器相当简单,只需在满足系统要求的硬件上安装服务器组件。更难的部分是规划计算机网络Hadoop服务器将利用它来分配存储和处理角色。这可能包括建立局域网或将多个网络通过互联网连接在一起。您还可以利用现有的云服务,并在微软Azure和亚马逊EC2等流行的云平台上购买Hadoop集群。这些甚至更容易配置,因为您可以临时启动它们,然后在不再需要它们时停用集群。这些类型的集群非常适合测试,因为您只需为Hadoop集群的活动时间付费。
Apache Hadoop软件优势
1. 高可靠性。
Hadoop按位存储和处理数据的能力值得人们信赖。
2. 高扩展性。
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3. 高效性。
Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4. 高容错性。
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5. 低成本。
与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Apache Hadoop安装教程
Hadoop2.7.1的部署
机器环境:
操作系统:CentOS 6.4 64位系统
Hadoop版本:hadoop-2.7.1,在CentOS下自行编译后的64位版本。
Apache Hadoop更新日志
1.对部分功能进行了优化
2.解了好多不能忍的bug