大数据共50篇 第2页
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Scrapy是什么,Scrapy网络爬虫简介

Scrapy是什么,Scrapy网络爬虫简介-华尔子博-奥夏网
Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。 1. Scrapy 架构 Scrapy 的整体架构由 Scrapy 引擎(Scra...
子博兄的头像-华尔子博-奥夏网子博兄4年前
02130

Hadoop大数据处理框架简介,什么是Hadoop 生态圈?

Hadoop大数据处理框架简介,什么是Hadoop 生态圈?-华尔子博-奥夏网
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来,Hadoop 被贡献给了 Apache 基金会,...
天山雪莲的头像-华尔子博-奥夏网天山雪莲4年前
02030

大数据处理的基本流程:数据抽取与集成+数据分析+数据解释

大数据的数据来源广泛,应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。 整个大数据的处理流程可以定义为,在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照...
子博兄的头像-华尔子博-奥夏网4年前
02010

大数据预处理,大数据数据清洗

大数据预处理,大数据数据清洗-华尔子博-奥夏网
现实世界的数据常常是不完全的、有噪声的、不一致的。数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。本节介绍数据清洗的主要处理方法。 遗漏数据处理 假设在分析一个商场销...
子博网的头像-华尔子博-奥夏网子博网4年前
01930

大数据预处理架构和方法简介

大数据预处理架构和方法简介-华尔子博-奥夏网
数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(Data Transformation)和数据消减(Data Reduction)。本节在介绍大数据预处理基本概念的基础上对数据...
子博网的头像-华尔子博-奥夏网子博网4年前
01850

通过网络爬虫采集大数据的方法

通过网络爬虫采集大数据的方法-华尔子博-奥夏网
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音...
子博网的头像-华尔子博-奥夏网子博网4年前
01770

大数据的产生和作用,大数据的产生过程

大数据的产生和作用,大数据的产生过程-华尔子博-奥夏网
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不...
天山雪莲的头像-华尔子博-奥夏网天山雪莲4年前
01690

大数据预处理之数据转换的注意事项

数据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。 1)平滑处理 帮助除去数据中的噪声,主要技术方法有 Bin 方法、聚类方法和回归方法。 2)...
南宫世家的头像-华尔子博-奥夏网南宫世家4年前
01650

大数据预处理之数据消减

大数据预处理之数据消减-华尔子博-奥夏网
我们都知道对大规模数据进行复杂的数据分析通常需要耗费大量的时间,这时就需要我们的数据消减技术了。 数据消减技术的主要目的就是从原有巨大数据集中获得一个精简的数据集,并使这一精简数据...
南宫世家的头像-华尔子博-奥夏网南宫世家4年前
01550

HDFS读取和写入数据简介 HDFS的文件访问机制

HDFS读取和写入数据简介 HDFS的文件访问机制-华尔子博-奥夏网
HDFS的文件访问机制为流式访问机制,即通过 API 打开文件的某个数据块之后,可以顺序读取或者写入某个文件。由于 HDFS 中存在多个角色,且对应的应用场景主要为一次写入、多次读取的场景,因此...
子博兄的头像-华尔子博-奥夏网子博兄3年前
014811