大数据共64篇 第4页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

数据挖掘之分类和预测简介

数据挖掘之分类和预测简介-华尔子博-奥夏网
分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。 分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。 预测则是用于预测数据对象的连续取值的,需要预测...
子博兄的头像-华尔子博-奥夏网41天前
05411

Spark总体架构和运行流程

Spark总体架构和运行流程-华尔子博-奥夏网
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster ...
王麻子的头像-华尔子博-奥夏网王麻子1年前
04911

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家1年前
04913

决策树和朴素贝叶斯算法简介

决策树和朴素贝叶斯算法简介-华尔子博-奥夏网
本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。 决策树算法 决策树(Decision Tree,DT)分类法是一个简单且广泛使用的分类技术。 决策树是一个树状预测模型,它是由结点和有向...
子博兄的头像-华尔子博-奥夏网41天前
04910

HBase Shell常用命令和基本操作(附带实例)

HBase Shell常用命令和基本操作(附带实例)-华尔子博-奥夏网
HBase 为用户提供了一个非常方便的命令行使用方式——HBase Shell。 HBase Shell 提供了大多数的 HBase 命令,通过 HBase Shell,用户可以方便地创建、删除及修改表,还可以向表中添加数据,列...
王麻子的头像-华尔子博-奥夏网王麻子1年前
04813

大数据在金融行业的应用

大数据在金融行业的应用-华尔子博-奥夏网
金融行业是典型的数据驱动行业,每天都会产生大量的数据,包括交易、报价、业绩报告、消费者研究报告、各类统计数据、各种指数等。所以,金融行业拥有丰富的数据,数据维度比较广泛,数据质量也...
子博兄的头像-华尔子博-奥夏网昨天
04813

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博-奥夏网王麻子1年前
0475

NoSQL数据库类型简介

NoSQL数据库类型简介-华尔子博-奥夏网
近些年来,NoSQL 数据库的发展势头很快。据统计,目前已经产生了 50 到 150 个 NoSQL 数据库系统。但是,归结起来,可以将典型的 NoSQL 划分为 4 种类型,分别是键值数据库、列式数据库、文档数...
子博兄的头像-华尔子博-奥夏网子博兄2年前
0459

k-means聚类算法简介

k-means聚类算法简介-华尔子博-奥夏网
k-means 算法是一种基于划分的聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。 1. 基本思想 k-means 算法是根据给定的 n 个数据对象的数...
王麻子的头像-华尔子博-奥夏网王麻子34天前
0455

Spark生态圈简介

Spark生态圈简介-华尔子博-奥夏网
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、...
王麻子的头像-华尔子博-奥夏网王麻子1年前
04510