hadoop
5 posts
✨ [Seoul Emergency Proj.] 하둡과 몽고DB 연결하고 맵리듀스 결과 몽고DB에 적재하기

하둡과 몽고DB 연결하고 맵리듀스 결과 몽고DB에 적재하기 ~일간~ 두더지 탈출기 (부제. 삽질 멈춰!…) Seoul Emergency 프로젝트를 진행하며 발생한 에러를 정리합니다. 의존성 설정(이 99%) 아래 블로그 설명 따라 2가지 라이브러리를 추가한다. [Hadoop] 하둡과 MongoDB 연동하는 코드 hadoop 연결에 대한 mongoDB 공식 문서 MapReduce Usage · mongodb/mongo-hadoop Wiki 문제의 시작..(벌써?) 일반적으로 maven 이나 gradle로 빌드하면 위에서 요구하는 2가지 라이브러리를 쉽게 추가할 수 있는데,,,(pom.xml에 태그로 설정하거나 buil…

March 16, 2022
project
seoul_emergency
hadoop
mongodb
✨ [Seoul Emergency Proj.] 재난 뉴스 형태소 분석해서 Map Reduce WordCount 해보기

재난 뉴스 형태소 분석해서 Map Reduce WordCount 해보기 ~일간~ 두더지 탈출기 (부제. 삽질 멈춰!…) Seoul Emergency 프로젝트를 진행하며 발생한 에러를 정리합니다. 재난뉴스 형태소 분석하기 파이썬 형태소 분석기 라이브러리 설치 그냥 기사 원문 긁어와서 txt 파일로 만들고 맵리듀스 돌리니 띄어쓰기로만 구분이 되어서… 어구과 명사로 구분할 수 있는 파이썬 형태소 분석기 라이브러리를 사용했다. Open Korean Text 형태소 분석기를 사용했으며 문장을 정규화하거나, 어구, 형태소, 명사 등을 파싱할 수 있다. 형태소 분석기, Okt(Open Korean Text) (구)트위터 형태소분석…

March 14, 2022
project
seoul_emergency
hadoop
✨ [Seoul Emergency Proj.] 서울시 지진 해일 데이터로 Hadoop MapReduce 해보기

서울시 지진 해일 데이터로 Hadoop MapReduce 해보기 ~일간~ 두더지 탈출기 (부제. 삽질 멈춰!…) Seoul Emergency 프로젝트를 진행하며 발생한 에러를 정리합니다. 데이터 준비하기 우분투에서 한글사용하기 요거 따라하기 Ubuntu 20.04 키보드 한글 입력 설정 하기 중요!!! 중간에 install 하다가 인터넷 커넥션 에러 뜰 경우 cmd 창에서 apt 명령어로 업데이트해주기 상단바에서 한글 꼭 설정해줘야함 서울시 열린데이터 광장에서 데이터 다운로드 파이어폭스에서 서울시 열린데이터 광장 접속한 뒤 csv 파일 다운로드 파일명 한글+띄어쓰기 있으면 나중에 귀찮아지므로 적절한 영어로 바꿔주기 …

March 10, 2022
project
seoul_emergency
hadoop
🐧 [Hadoop] 하둡 맵리듀스 wordcount 예제

하둡 맵리듀스 wordcount 예제 Hadoop 설치 및 MapReduce 알고리즘 실습 환경 설정 VMWare 설치 Ubuntu Linux CD image 다운로드 VmWare 가상머신을 생성한 뒤 운영체제 이미지로 Ubuntu 이미지 설정하여 가상 리눅스 환경을 구축 콘솔에서 Hadoop 설치 콘솔에서 Hadoop 환경 설정 Linux, HDFS 디렉토리 구조 Linux 디렉토리 HDFS 디렉토리 wordcount 예제 실행 Project/src/Wordcount.java 구현 Project/src/Driver.java 수정하기 각 인자 : 실행할 alias, 파일, 멘트 맵리듀스 코드 컴파일 Project 디…

February 24, 2022
bigdata
hadoop
🐧 [Hadoop] 하둡 맵리듀스 프레임워크

하둡 맵리듀스 프레임워크 맵리듀스 프레임워크(MapReduce Framework) 맵리듀스 프레임워크란? 데이터 중심 프로세싱(빅데이터 처리)은 비싸고 복잡한 연산들이 요구된다. 복잡한 연산을 위해 컴퓨터의 성능을 향상시키는 scale-up(수직적 성능 향상) 방법과 scale-out(수평적 성능 향상) 방법이 있는데, scale-out한 방법이 비용 측면에서 더욱 유리하다. 맵리듀스 프레임워크란 저렴한 컴퓨터를 모아 클러스터를 만들고 이를 통해 빅데이터를 처리하도록 scalable한 병렬 소프트웨어를 구현하기 위한 프로그래밍 모델이다. 구글 맵리듀스(MapReduce), 아파치 하둡(Hadoop) 오픈 소스는 맵리…

February 21, 2022
bigdata
hadoop