본문 바로가기

Biz54

컬럼별 데이터 프로파일링 DW 마트나 데이터를 분석하기 위해서는 테이블 내 컬럼별 데이터의 정보가 중요하다. 하지만 모르기도 하고 귀찮기도 해서 살펴보지 않고 사용하며 심지어 PK 컬럼이 스페이스가 들어가 있거나 DW 테이블임에도 불구하고 null 있는 컬럼이 많이 존재하거나 도메인이 맞지 않는 데이터가 있음을 쉽게 볼수 있다. 특이한 점은 많은 프로젝트를 수햄해 왔지만 최근 데이터베이스의 접근이 통제되면서 더욱 데이터에 대한 품질은 떨어지는 듯 하다. 별도의 데이터 품질을 관리하는 솔루션이 없는 프로젝트에서 수행하다가 필요성에 의해 간단하게나마 쿼리를 작성하여 사용하고 있다. 샘플값과 데이터 패턴도 추가하여 쓰고 있으나 간단한 부분이고 별도의 테이블로 생성하여 관리하는 터리 제외했다. ## 컬럼별 데이터 프로파일링 WITH C.. 2016. 4. 30.

배치로 Hive 로 보내기 배치로 Hdfs 로 옮기는 방법은 여러 가지가 있고 최근 들어 나오는 컴포넌트들을 사용하면 쉽게 할 수 있다. 하지만 보안 등의 이슈로 인해 이러한 컴포넌트들을 사용할 수 없을 때 그리고 텍스트 파일 경우 사용할 간단한 방법을 알아보자. 많은 종류의 Sql on Hadoop 이 있지만 아직까지 비교적 느리지만 Hive 가 여러 방면으로 유용하게 사용되고 있다. 조회를 해보기 위해 Hive에서 특정 디렉토리를 external 로 잡은 테이블로 생성한다. 올릴 파일들의 크기가 너무 작은 파일들이 많다면 묶어서 올리는 것이 좋다. cat / | hadoop fs –put - / 그러데 배치인 경우에는 매일 올리거나 하는 경우가 많은데 roll back 이나 관리가 어려울 수 있다. 다행히 Hive 에서는 파티.. 2016. 4. 3.

Shiny에서 SparkR 실행하기 Shiny와 SparkR을 통해서 웹으로 분석결과 보여주기 server.R에서는 glm 을 통해서 회귀 모델을 구해서 웹에서 변수값에 따른 결과를 보여준다. server.R # First install shiny library library(shiny) library(ggfortify)# Set the system environment variables Sys.setenv(SPARK_HOME = "C:/app/gitProjects/spark") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))#load the Sparkr library library(SparkR)# Create a spark context and a SQ.. 2016. 3. 28.

RStudio 에서 Spark 사용하기 로컬모드로 Spark 를 띄우기 위해 먼저 Spark 부터 받자 http://spark.apache.org 혹은 새로 빌드를 하거나 [INFO] Reactor Summary: [INFO] [INFO] Spark Project Parent POM ........................... SUCCESS [ 13.980 s] [INFO] Spark Project Test Tags ............................ SUCCESS [01:04 min] [INFO] Spark Project Sketch ............................... SUCCESS [ 20.141 s] [INFO] Spark Project Networking ....................... 2016. 3. 26.

이전 1 ··· 5 6 7 8 9 10 11 ··· 14 다음

티스토리툴바