대답 1:

먼저 하둡과 생태계를 배우면 자동으로 하둡과 생태계가 무엇인지 알 수 있습니다.

Hadoop은 Java로 작성된 오픈 소스, 확장 가능 및 내결함성 프레임 워크입니다. 상용 하드웨어 클러스터에서 대량의 데이터를 효율적으로 처리합니다. 하둡은 스토리지 시스템 일뿐만 아니라 처리뿐만 아니라 대용량 데이터 스토리지를위한 플랫폼입니다.

  • 하둡이란?

Hadoop은 ASF – Apache Software Foundation의 오픈 소스 도구입니다. 오픈 소스 프로젝트는 무료로 사용할 수 있으며 요구 사항에 따라 소스 코드를 변경할 수도 있습니다. 특정 기능이 귀하의 요구를 충족시키지 못하면 필요에 따라 변경할 수 있습니다. 대부분의 하둡 코드는 Yahoo, IBM, Facebook, Cloudera에서 작성합니다.

여러 클러스터 노드에서 작업을 실행하기위한 효율적인 프레임 워크를 제공합니다. 클러스터는 LAN을 통해 연결된 시스템 그룹을 의미합니다. Apache Hadoop은 여러 시스템에서 동시에 작동하므로 데이터의 병렬 처리를 제공합니다.

Hadoop 소개에 대한 비디오를 아래에서보십시오.

하둡은 세 가지 주요 부분으로 구성됩니다.

  • HDFS (Hadoop Distributed File System) – Hadoop.Map-Reduce의 스토리지 계층 – Hadoop.YARN의 데이터 처리 계층 – Hadoop의 자원 관리 계층입니다.

이제 Hadoop Ecosystems에 대해 알아 보겠습니다.

  • 하둡 생태계 구성 요소

위의 Hadoop Ecosystem 그림에서 다른 Hadoop 구성 요소를 볼 수 있습니다.

1. 하둡 분산 파일 시스템

하둡 에코 시스템의 가장 중요한 구성 요소입니다. HDFS는 Hadoop의 기본 스토리지 시스템입니다. HDFS (Hadoop Distributed File System)는 빅 데이터를위한 확장 가능, 내결함성, 신뢰성 있고 비용 효율적인 데이터 스토리지를 제공하는 Java 기반 파일 시스템입니다. HDFS는 상용 하드웨어에서 실행되는 분산 파일 시스템입니다. HDFS는 많은 설치에 기본 구성으로 이미 구성되어 있습니다. 대규모 클러스터 구성에는 대부분의 시간이 필요합니다. 하둡은 쉘과 같은 명령으로 HDFS와 직접 상호 작용합니다.

HDFS 구성 요소

  • 네임 노드

2. MapReduce

Hadoop MapReduce는 데이터 처리를 제공하는 Hadoop의 핵심 구성 요소입니다. MapReduce는 Hadoop 분산 파일 시스템에 저장된 방대한 양의 정형 및 비정형 데이터를 처리하는 응용 프로그램을 쉽게 작성할 수있는 소프트웨어 프레임 워크입니다.

MapReduce 프로그램은 본질적으로 병렬이므로 클러스터의 여러 시스템을 사용하여 대규모 데이터 분석을 수행하는 데 매우 유용합니다. 따라서이 병렬 처리에서 클러스터의 속도와 안정성이 향상됩니다.

3. 원사

Hadoop YARN (Yet Another Resource Negotiator)은 자원 관리를 제공합니다. YARN은 워크로드 관리 및 모니터링을 담당하는 Hadoop 운영 체제라고합니다. 실시간 스트리밍 및 배치 처리와 같은 여러 데이터 처리 엔진이 단일 플랫폼에 저장된 데이터를 처리 할 수 ​​있습니다.

자세한 내용은 이것을 참조하십시오

4. 하이브

Apache Hive는 Hadoop 파일에 저장된 대규모 데이터 세트를 쿼리하고 분석하기위한 오픈 소스 데이터웨어 하우스 시스템입니다. Hive는 데이터 요약, 쿼리 및 분석의 세 가지 주요 기능을 수행합니다.

HiveQL (HQL)이라는 언어를 사용하며 SQL과 유사합니다. HiveQL은 SQL과 유사한 쿼리를 Hadoop에서 실행될 MapReduce 작업으로 자동 변환합니다.

Hive에 대해서는 아래 링크를 참조하십시오.

초보자를위한 Hive 자습서

5. 돼지

Apache Pig는 HDFS에 저장된 대규모 데이터 세트를 분석하고 쿼리하기위한 고급 언어 플랫폼입니다. 돼지는 PigLatin 언어를 사용합니다. SQL과 매우 유사합니다. 데이터를로드하고 필요한 필터를 적용한 후 필요한 형식으로 데이터를 덤프합니다. 프로그램 실행의 경우 pig에는 Java 런타임 환경이 필요합니다.

PIG에 대한 자세한 내용은 아래 링크를 참조하십시오.

초보자를위한 PIG 튜토리얼

6. HBase

Apache HBase는 수십억 개의 행과 수백만 개의 열을 가질 수있는 테이블에 구조화 된 데이터를 저장하도록 설계된 분산 데이터베이스입니다. HBase는 HDFS 위에 구축 된 확장 가능하고 분산 된 Nosql 데이터베이스입니다. HBase는 HDFS에서 데이터를 읽거나 쓸 수있는 실시간 액세스를 제공합니다.

HBase에 대한 자세한 내용은 아래 링크를 참조하십시오.

깊이있는 HBase

7. HCatalog

Hadoop의 테이블 및 스토리지 관리 계층입니다. HCatalog는 MapReduce, Hive 및 Pig와 같이 Hadoop에서 사용 가능한 여러 구성 요소를 지원하여 클러스터에서 데이터를 쉽게 읽고 쓸 수 있습니다. HCatalog는 Hive의 핵심 구성 요소로, 사용자는 모든 형식과 구조로 데이터를 저장할 수 있습니다.

8. 아브로

가장 널리 사용되는 데이터 직렬화 시스템입니다. Avro는 Hadoop에 대한 데이터 직렬화 및 데이터 교환 서비스를 제공하는 오픈 소스 프로젝트입니다. 이러한 서비스는 함께 또는 독립적으로 사용할 수 있습니다. 빅 데이터는 Avro를 사용하여 다른 언어로 작성된 프로그램을 교환 할 수 있습니다.


대답 2:

Hadoop The Definitive Guide, 1 장,

Hadoop은 MapReduce와 그 분산 파일 시스템 (HDFS, NDFS에서 이름이 바 for)으로 가장 잘 알려져 있지만,이 용어는 분산 컴퓨팅 및 대규모 데이터 처리를위한 인프라의 우산에 속하는 관련 프로젝트 제품군에도 사용됩니다.

대부분의 핵심 프로젝트는 Apache Software Foundation에서 호스팅하며, Apache Software Foundation은 이름을 얻은 원래 HTTP 서버를 포함하여 오픈 소스 소프트웨어 프로젝트 커뮤니티를 지원합니다. 하둡 생태계가 성장함에 따라, 더 많은 프로젝트가 나타나고 있지만 아파치에서 호스팅되지 않아도 하둡에 보완 서비스를 제공하거나 핵심을 기반으로하여 더 높은 수준의 추상화를 추가 할 수 있습니다.

자세한 내용은 Hadoop The Definitive Guide를 참조하십시오.


대답 3:

좋은 질문!

Hadoop은 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 전체의 분산 환경에서 빅 데이터를 저장하고 처리 할 수있는 오픈 소스 프레임 워크입니다. 단일 서버에서 수천 대의 컴퓨터로 확장 할 수 있도록 설계되었으며 각 컴퓨터는 로컬 계산 및 스토리지를 제공합니다.

Hadoop 에코 시스템은 Apache Hadoop 소프트웨어 라이브러리의 다양한 구성 요소뿐만 아니라 이러한 유형의 소프트웨어 프로젝트를 위해 Apache Software Foundation에서 제공하는 액세서리 및 도구와 함께 작동하는 방식을 나타냅니다.

나는 지금 당신이 그 개념을 분명히 이해하기를 바랍니다.

답변이 도움이 되었으면 UPVOTE하여 Harshali Patel을 팔로우하여 Big Data 및 Hadoop에 대한 추가 답변을 얻으십시오.