bigdata
5 posts
📚 [Data Engineering] 빅데이터를 지탱하는 기술 - CH2 2-1 크로스 집계, 2-2 열 지향 스토리지에 의한 고속화

데이터 엔지니어로 살아남기 - 빅데이터에 관리와 처리를 위한 전반적인 기술 데이터 엔지니어로서 필요한 기술에 대해 차근차근, 진득하게 공부해보려 합니다. 정리된 내용은 빅데이터를 지탱하는 기술 도서를 기반으로 합니다. 2-1. 크로스 집계의 기본 1. 크로스 집계의 개념 1. 크로스 테이블(Cross Table) 행과 열이 교차하는 부분(cross)에 숫자 데이터가 들어가는 테이블 주로 엑셀 등의 스프레드시트에서 테이블을 표현하는 형태 사람이 해석하기는 편하나, 데이터베이스에서 다루기 어려움 데이터베이스는 데이터가 추가될 때 행이 추가됨. 컬럼을 추가하려면 테이블 정의 자체를 변경해야 하므로 상대적으로 어려움. 2. …

March 19, 2023
bigdata
data-engineering
📚 [Data Engineering] 빅데이터를 지탱하는 기술 - CH1 3, 4 데이터 프레임, BI 도구와 모니터링

데이터 엔지니어로 살아남기 - 빅데이터에 관리와 처리를 위한 전반적인 기술 데이터 엔지니어로서 필요한 기술에 대해 차근차근, 진득하게 공부해보려 합니다. 정리된 내용은 빅데이터를 지탱하는 기술 도서를 기반으로 합니다. 1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임 데이터 처리와 스크립트 언어 원천 데이터는 파일 서버, API 등 다양한 방법으로 수집하게됨. 이러한 다양한 전처리, ETL 과정을 처리하기 위해 스크립트 언어를 사용함. 대표적인 데이터 처리 스크립트 언어로는 R, Python 등이 있음. Python의 우수한 특징 다양한 라이브러리 지원 : API 호출, 문자열 처리 다양한 프레임워크 지원 : …

March 10, 2023
bigdata
data-engineering
📚 [Data Engineering] 빅데이터를 지탱하는 기술 - CH1 1_빅데이터의 정착, 2_빅데이터 시대의 데이터 분석 기반

데이터 엔지니어로 살아남기 - 빅데이터에 관리와 처리를 위한 전반적인 기술 데이터 엔지니어로서 필요한 기술에 대해 차근차근, 진득하게 공부해보려 합니다. 정리된 내용은 빅데이터를 지탱하는 기술 도서를 기반으로 합니다. 이 책에서 다루는 내용 자동화된 데이터 처리(데이터 처리를 시스템화) 데이터 처리 과정에서 사용되는 SW, DB, 프로그래밍 언어, 시각화 도구 특징, 데이터 처리를 자동화하는 기술(워크플로우 관리, 스트림 처리 등) *빅데이터 취급이 어려운 이유 데이터의 분석 방법을 모른다 (데이터 분석가의 역할) 데이터 처리에 수고와 시간이 걸린다 (데이터 엔지니어의 역할) 1-1. 배경빅데이터의 정착 분산 시스템에…

February 19, 2023
bigdata
data-engineering
🐧 [Hadoop] 하둡 맵리듀스 wordcount 예제

하둡 맵리듀스 wordcount 예제 Hadoop 설치 및 MapReduce 알고리즘 실습 환경 설정 VMWare 설치 Ubuntu Linux CD image 다운로드 VmWare 가상머신을 생성한 뒤 운영체제 이미지로 Ubuntu 이미지 설정하여 가상 리눅스 환경을 구축 콘솔에서 Hadoop 설치 콘솔에서 Hadoop 환경 설정 Linux, HDFS 디렉토리 구조 Linux 디렉토리 HDFS 디렉토리 wordcount 예제 실행 Project/src/Wordcount.java 구현 Project/src/Driver.java 수정하기 각 인자 : 실행할 alias, 파일, 멘트 맵리듀스 코드 컴파일 Project 디…

February 24, 2022
bigdata
hadoop
🐧 [Hadoop] 하둡 맵리듀스 프레임워크

하둡 맵리듀스 프레임워크 맵리듀스 프레임워크(MapReduce Framework) 맵리듀스 프레임워크란? 데이터 중심 프로세싱(빅데이터 처리)은 비싸고 복잡한 연산들이 요구된다. 복잡한 연산을 위해 컴퓨터의 성능을 향상시키는 scale-up(수직적 성능 향상) 방법과 scale-out(수평적 성능 향상) 방법이 있는데, scale-out한 방법이 비용 측면에서 더욱 유리하다. 맵리듀스 프레임워크란 저렴한 컴퓨터를 모아 클러스터를 만들고 이를 통해 빅데이터를 처리하도록 scalable한 병렬 소프트웨어를 구현하기 위한 프로그래밍 모델이다. 구글 맵리듀스(MapReduce), 아파치 하둡(Hadoop) 오픈 소스는 맵리…

February 21, 2022
bigdata
hadoop