大数据共66篇 第5页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

HBase列式数据模型简介

HBase列式数据模型简介-华尔子博-奥夏网
数据模型是理解一个数据库的关键,本节介绍 HBase 的列式数据模型,与数据模型相关的基本概念,并描述 HBase 数据库的概念视图和物理视图。 数据模型概述 HBase 是一个稀疏、多维度、有序的映射...
子博兄的头像-华尔子博-奥夏网3年前
0285

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博-奥夏网王麻子2年前
0475

MapReduce执行流程和Shuffle过程

MapReduce执行流程和Shuffle过程-华尔子博-奥夏网
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduc...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
0525

k-means聚类算法简介

k-means聚类算法简介-华尔子博-奥夏网
k-means 算法是一种基于划分的聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。 1. 基本思想 k-means 算法是根据给定的 n 个数据对象的数...
王麻子的头像-华尔子博-奥夏网王麻子4个月前
0495

Spark开发实例(编程实践)

Spark开发实例(编程实践)-华尔子博-奥夏网
本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。 启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
0385