본문 바로가기

Biz/Etc15

a loading into HDFS - Part1 Data loading into HDFS - Part1 By Alexey Filanovskiy-Oracle on Jan 07, 2016 Today I'm going to start first article that will be devoted by very important topic in Hadoop world – data loading into HDFS. Before all, let me explain different approaches of loading and processing data in different IT systems. Schema on Read vs Schema on Write So, when we talking about data loading, usually we do this.. 2016. 5. 18.
배치로 Hive 로 보내기 배치로 Hdfs 로 옮기는 방법은 여러 가지가 있고 최근 들어 나오는 컴포넌트들을 사용하면 쉽게 할 수 있다. 하지만 보안 등의 이슈로 인해 이러한 컴포넌트들을 사용할 수 없을 때 그리고 텍스트 파일 경우 사용할 간단한 방법을 알아보자. 많은 종류의 Sql on Hadoop 이 있지만 아직까지 비교적 느리지만 Hive 가 여러 방면으로 유용하게 사용되고 있다. 조회를 해보기 위해 Hive에서 특정 디렉토리를 external 로 잡은 테이블로 생성한다. 올릴 파일들의 크기가 너무 작은 파일들이 많다면 묶어서 올리는 것이 좋다. cat / | hadoop fs –put - / 그러데 배치인 경우에는 매일 올리거나 하는 경우가 많은데 roll back 이나 관리가 어려울 수 있다. 다행히 Hive 에서는 파티.. 2016. 4. 3.
Loading RCFile Format Data into Oracle Database Loading RCFile Format Data into Oracle DatabaseSetting the EnvironmentCreating a Hive Table Stored as RCFileRCFile StructureLoading Hive Table Data into Oracle DatabaseRCFile or Record Columnar File format is a flat file data placement structure consisting of binary key/value pairs. Record Columnar implies that columns of a table are stored in a record columnar format. For comparison, in a relat.. 2016. 3. 25.
Bringing ORC Support into Apache Spark By Zhan Zhang on July 16th, 2015 In version 1.2.0, Apache Spark introduced a Data Source API (SPARK-3247) to enable deep platform integration with a larger number of data sources and sinks. We are proud to announce that support for the Apache Optimized Row Columnar (ORC) file format is included in Spark 1.4 as a new data source. This support was added through a collaboration between Hortonworks .. 2016. 3. 25.