Hadoop에 대해 더 깊이 공부해보고자 한다.
톰 화이트, 「하둡 완벽 가이드(4판)」의 내용을 바탕으로 공부하고 기록할 예정이다.
1. 하둡이란?
- HDFS + 맵리듀스로 시작되었고, 하나의 고성능 컴퓨터를 이용해 데이터를 처리하는 대신 적당한 성능의 여러 대의 컴퓨터를 이용하여 큰 크기의 데이터를 병렬로 동시에 처리하여 속도를 높이는 것을 목적으로 하는 오픈소스 프레임워크
- 현재는 HDFS, 맵리듀스 뿐만 아니라 다양한 하둡 에코시스템을 지칭하는 말로 사용하기도 하며, 하둡 에코시스템이란 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설을 의미한다. -> 기본적인 일괄 처리를 위한 목적과 일맥상통해 보인다.
2. RDBMS와 비교
RDBMS | 맵리듀스 | |
데이터크기 | GB | PB |
접근 방식 | 대화형, 일괄 처리 방식 | 일괄 처리 방식 |
변경 | 여러 번 읽고 쓰기 | 한 번 쓰고 여러 번 읽기 |
트랜잭션 | ACID | 없음 |
구조 | 쓰기 기준 스키마(형식이 정의된 항목으로 구조화) | 읽기 기준 스키마(처리 시점 데이터 해석) |
무결성 | 높음 | 낮음 |
확장성 | 비선형 | 선형 |
3. 그리드 컴퓨팅
- 하둡의 경우 가능하면 계산 노드에 데이터를 함께 배치한다. 이러한 특성은 '데이터 지역성'이라고 불리며, 하둡에서 데이터 처리의 핵심으로 볼 수 있다.
- 맵리듀스와 같은 분산 처리 프레임워크는 실패한 태스크를 자동으로 감지하여 장애가 없는 머신에 다시 배치하도록 구현 → 사용자가 실패에 대해 큰 신경을 쏟지 않아도 된다. / 태스크 간의 상호 의존성이 없는 비공유 아키택쳐이기 때문에 가능
반응형