大数据共66篇 第4页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Apriori算法和FP-Tree算法简介

Apriori算法和FP-Tree算法简介-华尔子博-奥夏网
基于 Apriori 算法的关联分析方法。为了克服 Apriori 算法在复杂度和效率方面的缺陷,进一步的介绍了基于 FP-Tree 的频繁模式挖掘方法。 Apriori关联分析算法 Apriori 算法是挖掘产生关联规则所...
子博网的头像-华尔子博-奥夏网子博网4个月前
05913

MapReduce实例分析:单词计数

MapReduce实例分析:单词计数-华尔子博-奥夏网
单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
05811

数据挖掘之分类和预测简介

数据挖掘之分类和预测简介-华尔子博-奥夏网
分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。 分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。 预测则是用于预测数据对象的连续取值的,需要预测...
子博兄的头像-华尔子博-奥夏网4个月前
05711

Spark总体架构和运行流程

Spark总体架构和运行流程-华尔子博-奥夏网
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster ...
王麻子的头像-华尔子博-奥夏网王麻子2年前
05711

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
王麻子的头像-华尔子博-奥夏网王麻子2年前
05310

MapReduce执行流程和Shuffle过程

MapReduce执行流程和Shuffle过程-华尔子博-奥夏网
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduc...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
0525

HBase Shell常用命令和基本操作(附带实例)

HBase Shell常用命令和基本操作(附带实例)-华尔子博-奥夏网
HBase 为用户提供了一个非常方便的命令行使用方式——HBase Shell。 HBase Shell 提供了大多数的 HBase 命令,通过 HBase Shell,用户可以方便地创建、删除及修改表,还可以向表中添加数据,列...
王麻子的头像-华尔子博-奥夏网王麻子2年前
05213

大数据在金融行业的应用

大数据在金融行业的应用-华尔子博-奥夏网
金融行业是典型的数据驱动行业,每天都会产生大量的数据,包括交易、报价、业绩报告、消费者研究报告、各类统计数据、各种指数等。所以,金融行业拥有丰富的数据,数据维度比较广泛,数据质量也...
子博兄的头像-华尔子博-奥夏网3个月前
05213

决策树和朴素贝叶斯算法简介

决策树和朴素贝叶斯算法简介-华尔子博-奥夏网
本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。 决策树算法 决策树(Decision Tree,DT)分类法是一个简单且广泛使用的分类技术。 决策树是一个树状预测模型,它是由结点和有向...
子博兄的头像-华尔子博-奥夏网4个月前
05110

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
05113