전체 글 (8) 썸네일형 리스트형 Hadoop 기초 (1) Hadoop에 대해 더 깊이 공부해보고자 한다. 톰 화이트, 「하둡 완벽 가이드(4판)」의 내용을 바탕으로 공부하고 기록할 예정이다. 1. 하둡이란?- HDFS + 맵리듀스로 시작되었고, 하나의 고성능 컴퓨터를 이용해 데이터를 처리하는 대신 적당한 성능의 여러 대의 컴퓨터를 이용하여 큰 크기의 데이터를 병렬로 동시에 처리하여 속도를 높이는 것을 목적으로 하는 오픈소스 프레임워크- 현재는 HDFS, 맵리듀스 뿐만 아니라 다양한 하둡 에코시스템을 지칭하는 말로 사용하기도 하며, 하둡 에코시스템이란 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설을 의미한다. -> 기본적인 일괄 처리를 위한 목적과 일맥상통해 보인다. 2. RDBMS와 비교 RDBMS맵리듀스데이터크기GBPB접근 방식대화형, 일괄 처리 방식일.. VirtualBox Ubuntu - Windows 공유폴더 설정 이번 포스팅은 공유 폴더를 생성하는 작업을 진행하겠습니다. 리눅스에도 다운로드 받을 수 있지만 이미 있는 파일들을 쉽게 옮기기 위해서는 공유폴더를 설정하는 것이 더 좋습니다. 아래 링크들을 참고하여 진행하였습니다. https://velog.io/@osk3856/VirtualBoxSetting VirtualBox Ubuntu 설정 및 공유 폴더 지정 버츄얼박스 우분투 세팅으로 하루 고생한 것을 되풀이하지 않기 위해 기록해 놓는다 velog.io https://gobawi.tistory.com/140 버추얼박스 6.1 우분투 16.04 공유폴더 설정 회사에서 개발중인 프로그램의 이중화 테스트를 위해 버추얼박스에 우분투를 설치하였다. 버추얼박스는 처음 사용하는거라 공유폴더 설정하는 부분을 좀 헤맸는데 다음에 .. Hadoop 3.3.6 / Spark 3.4.1 설치 이전 글에서 구축한 가상환경에 Hadoop과 Spark를 설치하려고 합니다. Hadoop / Spark는 분산 처리 시스템으로, 대용량의 데이터를 병렬적으로 처리해 데이터를 빠른 시간 내에 처리할 수 있도록 하는 시스템입니다. 해당 링크 및 책(Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee (2022). 러닝 스파크 (2판). (박종영, 이성수 역). 제이펍.)을 참고하여 설치를 진행했습니다. https://velog.io/@e_sin528/Hadoop-Hadoop-3.3.0-standalone-%EC%84%9C%EB%B2%84-%EA%B5%AC%EC%B6%95-%EC%82%BD%EC%A7%88%EA%B8%B0 [Hadoop] Hadoop 3.3.0 s.. VirtualBox SSH 연결하기 VirtualBox에 환경설정을 다 했지만 직접 접속해서 여러 가지 작업을 하는 것보다 외부에서 접속하는 것이 편합니다. 그렇기에 VSCode에 Remote - SSH 확장 프로그램을 이용해 연결하고자 합니다. 해당 링크를 참고하여 작업을 진행했습니다. https://uni.rejoice-it.com/entry/virtualbox-ubuntu-%EC%9A%B0%EB%B6%84%ED%88%AC-ssh%ED%84%B0%EB%AF%B8%EB%84%90-%EC%A0%91%EC%86%8D-%EC%84%A4%EC%A0%95-putty-%EC%97%B0%EA%B2%B0-%ED%95%98%EA%B8%B0 virtualbox ubuntu 우분투 ssh터미널 접속 설정 putty 연결 하기 먼저 root 계정으로 접속한다.. VirtualBox + Ubuntu 22.04.3 LTS 설치 프로그래밍이나 개발 등을 할 때 Linux 환경의 서버가 대다수인데, Windows 환경에서는 이를 경험해보고 구현해 보기 어렵습니다. 이를 간단하게 가상환경 구축으로 해결할 수 있는데, 이 방법에 대해 소개해드리고자 합니다. 저의 PC 환경은 다음과 같습니다. OS: Windows 11 x64 RAM: 16GB CPU: i5-1235U 1. VirtualBox 설치 & Ubuntu iso 다운로드 먼저 가상환경 구축에 필요한 VirtualBox와 Ubuntu 파일을 다운로드 받고, VirtualBox를 설치합니다. 아래 링크에 들어가면 쉽게 다운로드 받을 수 있습니다. https://www.virtualbox.org/ Oracle VM VirtualBox Welcome to VirtualBox.org!.. SQL의 함수 SQL을 다루면서 기본적인 문법을 사용하지만, 함수를 많이 사용합니다. 이번 글에서는 SQL의 함수에 대해 알아보겠습니다. 혹시 함수에 대해서만 찾아볼 분들을 위해 아래 해당 부분으로 넘어갈 수 있도록 링크를 걸어두도록 하겠습니다. 문자열 관련 함수 수치 관련 함수 날짜 관련 함수 데이터 타입 변환 함수 NULL 관련 함수 CASE 구문, DECODE 함수 그룹함수-집계함수 그룹함수-소계함수 윈도우 함수 함수 함수는 특정 기능을 처리하기 위해 사용합니다. 하나의 함수만 사용할 수 있고, 두 개 이상의 함수를 중첩해서 사용이 가능합니다. 또한, DBMS마다 의존적인 함수가 존재하기 때문에 여러 DBMS에서 사용이 가능한 함수가 있는 반면 그렇지 못한 함수도 있습니다. SQL에서 함수는 크게 단일행 함수, .. SQL이란? (SQL 기초) 데이터 분석에 관해서는 대부분 R, Python을 사용합니다. 그렇지만 방대한 데이터를 저장하기 위해서는 DBMS를 사용하는 것이 좋은데, 이를 다루기 위해서는 SQL을 알아야 합니다. 국비지원교육에서 수업을 들은 내용, 거기에 제가 SQLD를 취득하면서 공부했던 내용들을 하나씩 풀어나가려고 합니다. 앞으로 서술할 SQL문은 Oracle을 기준으로 작성된다는 점 DB vs DBMS 둘을 구분하지 않고 사용하는 경우가 많지만, 엄연히 다른 의미를 가지고 있습니다. DB(DataBase): 데이터들의 집합 DBMS(DataBase Management System): DB를 관리하는 소프트웨어를 의미 SQL이란? SQL이란 Structured Query Language(구조적 질의 언어)의 줄임말이며, 관계형.. 기술 블로그 시작 티스토리를 이용해 기술 블로그를 시작하고자 한다. 1. 시작하는 계기 현재 국비지원사업을 들으면서 네이버 블로그에 하루하루 TIL(Today I Learned)를 간단하게 정리하면서 작성하고 있다. 깃허브로 TIL을 꾸준히 올리고 있지만 글로 정리하며 한 번 더 공부하는 습관을 가지고 있어 예전에 사용했던 네이버 블로그를 이용해 작성했다. 하지만 코드를 작성하는데에는 아무래도 불편한 점이 크게 느껴졌고, 제대로 된 기술 블로그를 꾸준히 작성하면서 내 포트폴리오를 조금이나마 쌓아 올리고 싶은 생각이 들었다. 많은 블로그 플랫폼이 있어 찾아보다가 티스토리로 시작해보려고 한다. 2. 티스토리를 선택한 이유 많은 블로그 플랫폼이 있지만 티스토리를 선택한 이유는 다음과 같다. 구글 노출 가능 마크다운(Markdo.. 이전 1 다음