HDFS共25篇 第3页
HDFS(Hadoop Distributed File System)‌是Hadoop生态系统中的一个核心组件,旨在运行在分布式环境中,特别适合存储和处理大规模数据集。HDFS是一个高度容错和高度可用的分布式文件系统,设计用于在廉价的硬件上运行,并提供高吞吐量的数据访问能力‌。

Spark Streaming的系统架构

Spark Streaming的系统架构-华尔子博-奥夏网
本节首先分析传统流处理系统架构存在的问题,然后介绍 Spark Streaming 的系统架构及其工作原理和优势。 传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收...
南宫世家的头像-华尔子博-奥夏网南宫世家2年前
05813

Hadoop MapReduce简介

Hadoop MapReduce简介-华尔子博-奥夏网
本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式 批处理模式是一种最早进行大规模数据处理的模式。批处理主要操...
王麻子的头像-华尔子博-奥夏网王麻子2年前
0475

Spark RDD是什么?

Spark RDD是什么?-华尔子博-奥夏网
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节...
子博兄的头像-华尔子博-奥夏网2年前
04710

阿里云服务器搭建hadoop集群补充

阿里云服务器搭建hadoop集群补充-华尔子博-奥夏网
1 阿里云服务器选配 首先附上官网链接:阿里云官网 点击上边链接,注册后登陆官网,选择产品选项,然后选择云服务器ECS,就进入云服务器ECS购买界面。 进入云服务ECS购买界面,点击立即购买,在...
子博兄的头像-华尔子博-奥夏网子博兄4个月前
0398

HBase主要运行机制(物理存储和逻辑架构)

HBase主要运行机制(物理存储和逻辑架构)-华尔子博-奥夏网
本节将对 HBase 的主要运行机制进行简单介绍。 HBase 的物理存储 HBase 表中的所有行都是按照行键的字典序排列的。因为一张表中包含的行的数量非常多,有时候会高达几亿行,所以需要分布存储到...
子博网的头像-华尔子博-奥夏网子博网2年前
0378