k-means聚类算法简介

k-means聚类算法简介-华尔子博-奥夏网
k-means 算法是一种基于划分的聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。 1. 基本思想 k-means 算法是根据给定的 n 个数据对象的数...
23小时前
0455

回归分析预测技术简介

回归分析预测技术简介-华尔子博-奥夏网
回归分析的基本概念是用一群变量预测另一个变量的方法。通俗点来讲,就是根据几件事情的相关程度来预测另一件事情发生的概率。回归分析的目的是找到一个联系输入变量和输出变量的最优模型。 回...
3天前
02711

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
1年前
04110

Spark总体架构和运行流程

Spark总体架构和运行流程-华尔子博-奥夏网
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster ...
1年前
04811

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
1年前
0475

HBase常用Java API

HBase常用Java API-华尔子博-奥夏网
本节介绍与 HBase 数据存储管理相关的 Java API(基于 HBase 版本 1.2.3)。 HBase 的常用Java API HBase 主要包括 5 大类操作:HBase 的配置、HBase 表的管理、列族的管理、列的管理、数据操作...
1年前
04013

HBase Shell常用命令和基本操作(附带实例)

HBase Shell常用命令和基本操作(附带实例)-华尔子博-奥夏网
HBase 为用户提供了一个非常方便的命令行使用方式——HBase Shell。 HBase Shell 提供了大多数的 HBase 命令,通过 HBase Shell,用户可以方便地创建、删除及修改表,还可以向表中添加数据,列...
1年前
04813

HDFS两种操作方式:命令行和Java API

HDFS两种操作方式:命令行和Java API-华尔子博-奥夏网
HDFS 文件操作有两种方式:一种是命令行方式,Hadoop 提供了一套与 Linux 文件命令类似的命令行工具;另一种是 Java API,即利用 Hadoop 的 Java 库,采用编程的方式操作 HDFS 的文件。 本节将...
2年前
06912

HDFS基本原理和设计理念,HDFS 的局限性有哪些

HDFS基本原理和设计理念,HDFS 的局限性有哪些-华尔子博-奥夏网
本节将对 HDFS 的基本原理进行讲解。 文件系统的问题 文件系统是操作系统提供的磁盘空间管理服务,该服务只需要用户指定文件的存储位置及文件读取路径,而不需要用户了解文件在磁盘上是如何存放...
3年前
05190

大数据预处理之数据集成需要注意的问题

大数据预处理之数据集成需要注意的问题-华尔子博-奥夏网
数据处理常常涉及数据集成操作,即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。 在数据集...
4年前
03590