Hadoop - HDFS Überblick

Eigenschaften von HDFS

Es ist geeignet für die verteilte Speicherung und Verarbeitung.
Hadoop bietet eine Befehlsschnittstelle, mit HDFS interagieren.
Die eingebauten Servern auf Namen Knoten und Daten knoten Hilfe Benutzer zu einfache überprüfen den Status der Cluster.
Streaming-Zugriff auf Dateisystemdaten.
HDFS bietet Dateiberechtigungen und Authentifizierung.

HDFS Architektur

Da unten ist die Architektur eines Hadoop-Dateisystem.

HDFS folgt der Master-Slave-Architektur und es folgenden Elemente hat.

Namen Knoten

Die Namen Knoten ist die Wirtschaftsgut-Hardware, die das GNU / Linux Betriebssystem und die Namen Knoten Software enthält. Es ist eine Software, die auf Standard-Hardware ausgeführt werden kann. Das System mit dem Namen Knoten fungiert als Master-Server und es macht die folgenden Aufgaben:

Verwaltet die Dateisystem-Namespace.
Reguliert Clients Zugang von zum Dateien.
Es ausführt auch Datei system operationen wie Umbenennen, Schließen und Öffnen Dateien und Verzeichnissen.

DatenKnoten

Die DatenKnoten ist eine wirtschaftsgut-Hardware, haben die GNU / Linux-Betriebssystem und DatenKnoten Software. Für jeden Knoten (wirtschaftsgut-Hardware / System) in einem Cluster, da wird sein eine DatenKnoten. Diese Knoten Verwaltung der Datenspeicherung von ihr System.

DatenKnoten führen Lese- Schreiboperationen auf den Dateisystemen, wie pro Client-Anfrage.
Sie führen auch Operationen wie Block Schaffung, Löschen und Replikation gemäß den Anweisungen des Namen Knoten.

Block

Generell werden die Benutzerdaten in den Dateien des HDFS gespeichert. Die Datei in einem Dateisystem werden sein unterteilt in ein oder mehrere Segmente,und / oder in einzelnen Datenknoten gespeichert werden. Diese Dateisegmente werden als Blöcke bezeichnet. In anderen Worten, die minimale Menge an Daten, die HDFS lesen oder schreiben kann als Block bezeichnet. Die Standard-Blockgröße ist 64 MB, kann aber nach der Notwendigkeit, in HDFS Konfiguration ändern erhöht werden.

Ziele des HDFS

Fehlererkennung und Wiederherstellung: Seit HDFS umfasst eine große Anzahl von wirtschaftsgut-Hardware, ist häufige Versagen von Bauteilen. Daher, HDFS sollten haben Mechanismen für eine schnelle und automatische Fehlererkennung und Wiederherstellung.
Riesige Datensätze: HDFS sollte haben Hunderte von Knoten pro Cluster für die Verwaltung der Anwendungen mit Riesig Datensätze.
Hardware auf Daten: Die angeforderte Aufgabe effizient durchgeführt werden, wenn die Berechnung erfolgt in der Nähe von den Daten. Besonders dort, wo große Datenmengen betroffen sind, reduziert sie den Netzwerkverkehr und erhöht den Durchsatz.

Vorherige Seite

Drucke

Nächste Seite