大数据共66篇 第5页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优...
子博网的头像-华尔子博-奥夏网子博网2年前
0646

Spark DStream相关操作

Spark DStream相关操作-华尔子博-奥夏网
与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。 普通的转换操作 普通的转换操作如表 1 所示 表 1 普通的转换操作 Suo ...
子博兄的头像-华尔子博-奥夏网2年前
06413

数据挖掘之分类和预测简介

数据挖掘之分类和预测简介-华尔子博-奥夏网
分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。 分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。 预测则是用于预测数据对象的连续取值的,需要预测...
子博兄的头像-华尔子博-奥夏网6个月前
06311

HBase Java API编程实例

HBase Java API编程实例-华尔子博-奥夏网
本节通过一个具体的编程实例来学习如何使用 HBase Java API 解决实际问题。在本实例中,首先创建一个学生成绩表 scores,用来存储学生各门课程的考试成绩,然后向 scores 添加数据。 表 scores ...
天山雪莲的头像-华尔子博-奥夏网天山雪莲2年前
06012

Spark Streaming简介

Spark Streaming简介-华尔子博-奥夏网
Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kin...
天山雪莲的头像-华尔子博-奥夏网天山雪莲2年前
06014

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
05813

k-means聚类算法简介

k-means聚类算法简介-华尔子博-奥夏网
k-means 算法是一种基于划分的聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。 1. 基本思想 k-means 算法是根据给定的 n 个数据对象的数...
王麻子的头像-华尔子博-奥夏网王麻子6个月前
0575

数据挖掘之关联规则分析简介

关联分析是指从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。在大数据时代,关联分析是最常见的数据挖掘任务之一。 概述 关联分析是一种简单、实用的分析...
王麻子的头像-华尔子博-奥夏网王麻子6个月前
0569

Spark RDD是什么?

Spark RDD是什么?-华尔子博-奥夏网
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节...
子博兄的头像-华尔子博-奥夏网2年前
05410

基于大数据的精准营销

在大数据时代到来之前,企业营销只能利用传统的营销数据,包括客户关系管理系统中的客户信息、广告效果、展览等一些线下活动的效果。数据的来源仅限于消费者某一方面的有限信息,不能提供充分的...
天山雪莲的头像-华尔子博-奥夏网天山雪莲6个月前
0539