본문 바로가기

Hadoop

(2)
CentOS 다중서버 생성 Hadoop 에코 시스템을 구축하는 것을 CentOS에서 진행하고자 합니다. 김강원 저, 「실무로 배우는 빅데이터 기술」 책과 인터넷을 하여 설치 진행 방법을 작성합니다. VirtualBox 설치법은 아래 글을 참고하시면 되겠습니다. https://minhyeok-kimm.tistory.com/8 VirtualBox + Ubuntu 22.04.3 LTS 설치프로그래밍이나 개발 등을 할 때 Linux 환경의 서버가 대다수인데, Windows 환경에서는 이를 경험해보고 구현해 보기 어렵습니다. 이를 간단하게 가상환경 구축으로 해결할 수 있는데, 이 방법에 대minhyeok-kimm.tistory.com 1. Java 및 VirtualBox 설치 - 자세한 설치법은 위의 링크를 참고해주세요. 2. CentOS..
Hadoop 기초 (1) Hadoop에 대해 더 깊이 공부해보고자 한다. 톰 화이트, 「하둡 완벽 가이드(4판)」의 내용을 바탕으로 공부하고 기록할 예정이다. 1. 하둡이란?- HDFS + 맵리듀스로 시작되었고, 하나의 고성능 컴퓨터를 이용해 데이터를 처리하는 대신 적당한 성능의 여러 대의 컴퓨터를 이용하여 큰 크기의 데이터를 병렬로 동시에 처리하여 속도를 높이는 것을 목적으로 하는 오픈소스 프레임워크- 현재는 HDFS, 맵리듀스 뿐만 아니라 다양한 하둡 에코시스템을 지칭하는 말로 사용하기도 하며, 하둡 에코시스템이란 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설을 의미한다. -> 기본적인 일괄 처리를 위한 목적과 일맥상통해 보인다. 2. RDBMS와 비교 RDBMS맵리듀스데이터크기GBPB접근 방식대화형, 일괄 처리 방식일..