본문 바로가기

Biz51

Hortonworks Sandbox - Pig(피그)를 활용한 데이터 처리 - 2부 피그는 아파치 Hadoop을 사용하는 높은 수준의 스크립트 언어이다. 데이터 흐름 같은 데이터 분석 문제를 설명하는데 유용하다. 또한 데이터 조작에 관련된 많은 일들을 할수 있다. 게다가 사용자정의함수(User Defined Functions(UDF)를 사용할 수 있는데 이때 JRuby, 자이 썬과 자바 등 다양한 언어로 된 코드를 호출 할 수 있다. 피그 함수를 다른 언어에 넣을수도 있는데 이런 방식은​​실제 비즈니스 문제를 해결 크고 더 복잡한 어플리케이션을 구축 할 구성 요소로 피그를 사용할 수 있다는 것이다. 피그 응용 프로그램의 좋은 예는 프로세스가 소스에서 데이터를 추출하고 룰에 따라 변환하고 데이터 셋으로의 로드를 어떻게 처리하는지를 설명하는 ETL 트랜잭션 모델입니다. 피그는 파일, 스트림.. 2013. 3. 26.
Hortonworks Sandbox(Bigdata 배포판, Hortonworks Data Platform, HDP) - 1부 그 어느 배포판보다 가장 빠르게 빅데이터 분석에 대한 체험을 할수 있는 Sandbox에 대해 알아본다. Hortonworks Sandbox(이하 샌드박스)는 Hortonworks Data Platform (HDP)의 단일 노드에서 구현 한 것이다. HDP를 쉽게 사용해 볼수 있도록 가상 머신으로 패키징되어 있다. 샌드박스에 있는 자습서를 활용하면 HDP가 빅데이터의 문제를 어떻게 해결해 나가는지를 방법을 모색하는데 도움이 될것이다. 샌드박스 튜토리얼은 HDP에서 몇 가지 샘플을 통해 HDP에 내장 된 도구를 사용할수 있다. 다시 말해 튜토리얼에서 HDP를 시작하는 방법과 작업수행 방법을 보여준다. Hadoop 의 Hadiio Distributd File System(HDFS)나 MapReduce 얘기는 .. 2013. 3. 26.
R – Twitter 내용을 검색해서 wordcloud 로 표현하기 출처: http://dev.kthcorp.com/2013/02/06/r-quickstart-guide-1-twitter-wordcloud/ 김정은님께서 포스팅해주신 내용을 기반으로 진행하였습니다. 제가 진행한 것은 윈도우이기에 사용된 명령어에서 일부 수정된 내용이 있습니다. 역시 R의 장점은 플러그인인 것 같습니다. # 관련 패키지 설치 install.packages('KoNLP') install.packages('wordcloud') install.packages('plyr') install.packages('twitteR') install.packages('tm') install.packages('Unicode') # 설치하지 않으면 한글로된 내용을 다룰때에는 'utf8towcs'에 잘못된 입력 이라.. 2013. 2. 28.