본문 바로가기
Biz/Data

Apache NiFi 사용기

by 조병희 2016. 3. 26.

간단하게 NiFi를 사용해보자

바이너리를 받아도 되지만 어떤게 있는지 보기 위해 git 에서 소스를 받아서 빌드 해보자.

git clone https://github.com/apache/nifi.git

mvn install -Dmaven.test.skip=true

빌드를 했다면 아래 위치에 있고 바이너리를 받았다면 bin 아래에 있다.

nifi/nifi-assembly/target/nifi-0.6.0-SNAPSHOT-bin/nifi-0.6.0-SNAPSHOT/bin/run-nifi.bat

기본적으로 8080 포트를 사용하기 떄문에 확인하고 수정이 필요할 수 있다. 웹서버가 실행되는데 몇 초 정도 시간이 걸리니 웹브라우저에서 바로 나타나지 않을 수 있다. 잠시 기다렸다가 접속해보면 아래와 같이 보인다.

주로 프로세스를 통해서 진행할텐데 드래그해서 넣어보면 어지간한 것들은 기본적으로 다 있어보인다.

극히 개인적인 의견이지만 몇 번 그리다 보면 기존 ETL 툴에서 사용하던 가로 방식보다 세로가 더 편함을 알 수 있는데, 가운데 큐 내용이 가로로 했을 때는 프로세스를 가리저나 자리를 많이 차지한다. 성공여부에 상관없이 처리하는 경우처럼 자기자신에게 보내는 경우 외에는 Visio 나 기타 툴 처럼 꺽은 선으로 자동 변경 이런 건 아직까지 없으니 Fail 같은 예외처리나 주된 패스외에 데이터를 보낼 때 가로로 표현하는 것이 좋다.

만약 설정 상의 문제가 있다면 노란 삼각형으로 친절하게 설명을 해준다. 대부분 필수 값을 넣지 않았거나 성공여부 혹은 종료여부를 넣지 않은 경우인데 Spark 같이 외부의 설정의 문제라면 처리하는데 애를 먹을 수 있다.

실행을 하면 실시간으로 처리 현황을 볼 수 있는데 처리량 뿐만 아니라 텍스트 형태의 데이터라면 실제 내용까지 확인 할 수 있다.

조금 불편한 것은 클러스터 묶었을 때 UI 상으로 확인이 어렵다는 것과 권한 관리가 용이하지 않다는 것이다. 하둡 클러스터를 사용하게 되면 많은 유저들과 권한이 관리되는데, 이들을 설정하기가 쉽지 않다.

'Biz > Data' 카테고리의 다른 글

데이터 가치 평가  (0) 2022.02.08
지능적인 데이터 관리 6가지 원칙  (0) 2016.05.13
Apache NiFi 둘러보기  (0) 2016.03.26
Apache NiFi 시작하기  (0) 2016.03.26
Stream Processing: NiFi and Spark  (0) 2016.03.26

댓글