HDFS共12篇

HDFS基本原理和设计理念,HDFS 的局限性有哪些

HDFS基本原理和设计理念,HDFS 的局限性有哪些-华尔子博
HDFS基本原理和设计理念,HDFS 的局限性有哪些。为了解决存储结点负载不均衡的问题,HDFS 首先把一个文件分割成多个块,然后再把这些文件块存储在不同服务器上。这种方式的优势就是不怕文件太大...
王麻子的头像-华尔子博王麻子2年前
05110

Hadoop HDFS分布式文件系统简介及特性

Hadoop HDFS分布式文件系统简介及特性-华尔子博
Hadoop HDFS分布式文件系统简介及特性。大数据时代,需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力,因此需要将数据集进行分区并存储到若干台独立的计算机中。
天山雪莲的头像-华尔子博天山雪莲3年前
02510

分布式SQL大数据查询引擎的发展,什么是分布式查询引擎

分布式SQL大数据查询引擎的发展,什么是分布式查询引擎-华尔子博
分布式SQL大数据查询引擎的发展,什么是分布式查询引擎。简而言之,它由各种集成过程组成,可将所有数据加载到一个中央位置,这是即将到来的数据建模和分析用例的唯一事实来源。 虽然在较早的日...
南宫世家的头像-华尔子博南宫世家3年前
02250

通过系统日志采集大数据的实现方法

通过系统日志采集大数据的实现方法-华尔子博
通过系统日志采集大数据的实现方法。目前使用最广泛的、用于系统日志采集的海量数据采集工具有 Hadoop 的 Chukwa、ApacheFlumeAFacebook 的 Scribe 和 LinkedIn 的 Kafka 等
天山雪莲的头像-华尔子博天山雪莲3年前
02220

Hadoop大数据处理框架简介,什么是Hadoop 生态圈?

Hadoop大数据处理框架简介,什么是Hadoop 生态圈?-华尔子博
Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。
天山雪莲的头像-华尔子博天山雪莲3年前
02030

大数据预处理架构和方法简介

大数据预处理架构和方法简介-华尔子博
大数据预处理架构和方法简介。数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(Data Transformation)和数据消减(Data Reduction)
子博网的头像-华尔子博子博网3年前
01850

HDFS读取和写入数据简介 HDFS的文件访问机制

HDFS读取和写入数据简介 HDFS的文件访问机制-华尔子博
HDFS的文件访问机制为流式访问机制,即通过 API 打开文件的某个数据块之后,可以顺序读取或者写入某个文件。由于 HDFS 中存在多个角色,且对应的应用场景主要为一次写入、多次读取的场景,因此...
子博兄的头像-华尔子博子博兄2年前
014811

大数据处理技术有哪些?大数据处理系统核心技术

大数据处理技术有哪些?大数据处理系统核心技术大数据技术的基本概念进行简单介绍,包括分布式计算、服务器集群和 Google 的 3 个大数据技术。
子博兄的头像-华尔子博3年前
01420

HDFS两种操作方式:命令行和Java API

HDFS两种操作方式:命令行和Java API-华尔子博
HDFS 文件操作有两种方式:一种是命令行方式,Hadoop 提供了一套与 Linux 文件命令类似的命令行工具;另一种是 Java API,即利用 Hadoop 的 Java 库,采用编程的方式操作 HDFS 的文件。 本节将...
王麻子的头像-华尔子博王麻子1年前
06712

Hadoop MapReduce工作流程介绍

Hadoop MapReduce工作流程介绍-华尔子博
MapReduce 就是将输入进行分片,交给不同的 Map 任务进行处理,然后由 Reduce 任务合并成最终的解。 MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Outpu...
天山雪莲的头像-华尔子博天山雪莲12个月前
06311