Skip to content

hadoop 총정리 3편 #

Find similar titles

3회 업데이트 됨.

Edit
  • 최초 작성자
    ihcho
  • 최근 업데이트
    ihcho

Structured data

Category
Programming

서론. 소개 #

하둡 다운로드 페이지에 들어가면 하둡 소스를 손쉽게 구할 수 있다. 하지만 이 소스는 Linux 환경에 맞춰져 있다. 때문에 윈도우에서 하둡을 설치하고 실행할 경우, 반드시 빌드 작업을 진행해야 한다. 본 편에서는 하둡 위키를 참고하여 윈도우10 환경에서 하둡 2.2 버전 이상을 설치하고 실행하는 방법에 대해 다루고자 한다.

tip. 비공식적으로 빌드된 버전을 공유하는 곳도 있다. 따라서 직접 빌드하기 어려울 경우(귀찮음, 시간촉박, 바로사용) 빌드된 버전을 다운받아서 진행하면 빌드과정을 패스할 수 있다.

본론. 하둡 설치 #

직접 빌드하기 위해 필요한 사항만 간단히 소개하고 본 편에서는 이미 빌드된 비공식적인 배포본을 통해 하둡을 설치할 것이다.

기본 요구 사항 (BUILDING.txt 참고) #

Requirements:
* Windows System
* JDK 1.6+
* Maven 3.0 or later
* Findbugs 1.3.9 (if running findbugs)
* ProtocolBuffer 2.5.0
* CMake 2.6 or newer
* Windows SDK or Visual Studio 2010 Professional
* Unix command-line tools from GnuWin32 or Cygwin: sh, mkdir, rm, cp, tar, gzip
* zlib headers (if building native code bindings for zlib)
* Internet connection for first build (to fetch all Maven and Hadoop dependencies)

Windows System #

하둡 2.2버전 이상에서는 윈도우에 대한 기본 지원이 포함된다. 본 편에서는 윈도우 10 환경에서 설치를 진행한다.

JDK 1.6+ #

Java를 설치하고 JAVA_HOME 을 설정하는 방법은 생략한다. 현재 시스템에 JAVA가 설치되어 있다면 "Javac -version"을 사용하여 확인이 가능하다.

Image

그림1 자바 버전 확인

Maven 3.0 or later #

빌드 툴이자 프로젝트를 관리해주는 툴이다. 역시 자세한 설치 방법은 생략한다. 윈도우 메이븐 설치

기타 #

Findbugs 1.3.9 : 정적 분석툴 (필요할 경우 설치)
ProtocolBuffer : 직렬화 라이브러리
CMake 2.6 : 지정한 운영체제에 맞는 Make파일 생성
Windows SDK or Visual Studio 2010 Professional : 소프트웨어 개발 키트
Unix command-line tools from GnuWin32 or Cygwin : 유닉스 커맨드 라인 툴
zlib headers : 데이터 압축 라이브러리
Internet connection for first build : 메이븐과 하둡 의존성을 모두 설치하기 위함

하둡 바이너리 및 소스 다운로드 #

Titus Barik, 블로그에서 hadoop-2.6.0.tar.gz를 다운받는다. 받은 파일의 압축을 풀면 설치가 끝난다. 참 쉽다.

Image

그림2 hadoop 파일

하둡 환경 설정 #

하지만 어느 프로그램이든 초기 설정이 필요하다. 하둡에는 haddop-env.cmd와 core-site.xml을 수정하여 초기 설정을 할 수 있다. 두 파일만 수정해도 기초 예제를 수행하는 데는 큰 무리가 없다. 두 파일은 모두 /etx/hadoop 에 있는데 이곳에서 하둡과 관련한 환경설정을 가지고 있다.

hadoop-env.cmd #

'-env'는 보통 환경변수를 다루는 파일을 명시할 때 사용한다. 'cmd'확장자는 배치파일이다.

이 배치 파일이 JAVA_HOME을 읽을 수 있도록 경로를 추가해두자.

set JAVA_HOME=C:\Progra~1\Java\jdk1.8.0_131

여기서 HADOOP_PREFIX는 하둡이 설치되어 있는 경로이다.

set HADOOP_PREFIX=D:\hadoop-2.6.0
set HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

core-site.xml #

로그파일, 네트워크 튜닝, I/O튜닝, 파일 시스템 튜닝, 압축 등과 같이 기본적인 하부 시스템 설정한다. 맵리듀스에서도 공통으로 사용한다.

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

파일시스템 포맷 #

파일이 정상적으로 작동할 수 있도록 namenode를 포맷하자.

실행 및 테스트 #

실행 #

하둡 경로의 sbin아래의 start-all.cml를 실행시키면 hdfs와 yarn이 모두 실행된다.

Image

그림3 하둡 실행

테스트 #

hdfs dfs -put d:\test.txt /
hdfs dfs -ls /

첫번째 행은 윈도우즈에 있는 파일을 복사하여 hdfs에 붙여넣는다. 두번째 행을 통해 하둡에 들어간 파일을 확인 할 수 있다. 결과는 다음과 같다.

Image

그림4 윈도우, 하둡 간 파일 복사

앞으로 다룰 내용 #

하둡이 어떻게 활용되며 실제 배치는 보통 어떻게 이루어지는지 언급할 계획이다.

참고출처 #

SF:Software Factory, tistory 블로그

Kamang's IT Blog, tistory 블로그

MuhammadBilalYar/Hadoop-On-Window, github

하둡 위키

Titus Barik, 블로그

관련 키워드 #

하둡 설치, windows 10

Suggested Pages #

0.0.1_20230725_7_v68