大数据共66篇 第3页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Hadoop MapReduce工作流程介绍

Hadoop MapReduce工作流程介绍-华尔子博-奥夏网
MapReduce 就是将输入进行分片,交给不同的 Map 任务进行处理,然后由 Reduce 任务合并成最终的解。 MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Outpu...
天山雪莲的头像-华尔子博-奥夏网天山雪莲3年前
08411

MapReduce实例分析:单词计数

MapReduce实例分析:单词计数-华尔子博-奥夏网
单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
05811

MapReduce编程实例:单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。 任务准备 单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大...
子博兄的头像-华尔子博-奥夏网子博兄2年前
06911

Spark总体架构和运行流程

Spark总体架构和运行流程-华尔子博-奥夏网
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster ...
王麻子的头像-华尔子博-奥夏网王麻子2年前
05711

回归分析预测技术简介

回归分析预测技术简介-华尔子博-奥夏网
回归分析的基本概念是用一群变量预测另一个变量的方法。通俗点来讲,就是根据几件事情的相关程度来预测另一件事情发生的概率。回归分析的目的是找到一个联系输入变量和输出变量的最优模型。 回...
王麻子的头像-华尔子博-奥夏网王麻子4个月前
03111

数据挖掘之分类和预测简介

数据挖掘之分类和预测简介-华尔子博-奥夏网
分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。 分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。 预测则是用于预测数据对象的连续取值的,需要预测...
子博兄的头像-华尔子博-奥夏网4个月前
05711

HDFS架构和实现机制简介 HDFS 是什么?

HDFS架构和实现机制简介 HDFS 是什么?-华尔子博-奥夏网
HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节客户端对文件的访问。一个 HDFS 集群还包...
子博网的头像-华尔子博-奥夏网子博网4年前
05910

Spark RDD是什么?

Spark RDD是什么?-华尔子博-奥夏网
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节...
子博兄的头像-华尔子博-奥夏网2年前
03910

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
王麻子的头像-华尔子博-奥夏网王麻子2年前
05310

大数据可以应用在哪些行业?

大数据可以应用在哪些行业?-华尔子博-奥夏网
经过近几年的发展,大数据技术已经慢慢地渗透到各个行业。不同行业的大数据应用进程的速度,与行业的信息化水平、行业与消费者的距离、行业的数据拥有程度有着密切的关系。总体看来,应用大数据...
子博兄的头像-华尔子博-奥夏网子博兄3个月前
02910