Hadoop-华尔子博-奥夏网-第3页

下面是在Ubuntu上使用Docker搭建Hadoop集群环境的详细方法：安装Docker和Docker Compose 在Ubuntu上安装Docker和Docker Compose。可以执行以下命令来完成安装： #安装Docker sudo apt-get upda...

天山雪莲3年前

01027

Spark是什么？Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。 Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。 Spark...

子博兄2年前

09811

与 RDD 类似，DStream 也提供了自己的一系列操作方法，这些操作可以分成 3 类：普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo ...

2年前

09313

MLlib 是 Spark 的机器学习库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优...

子博网2年前

0896

本节首先简单介绍大数据批处理概念，然后介绍典型的批处理模式 MapReduce，最后对 Map 函数和 Reduce 函数进行描述。批处理模式批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...

王麻子2年前

0775

本节将介绍如何实际动手进行 RDD 的转换与操作，以及如何编写、编译、打包和运行 Spark 应用程序。启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径，也是分析数据集交互的有力...

南宫世家2年前

0525