본문 바로가기
Biz/Data

지능적인 데이터 관리 6가지 원칙

by 조병희 2016. 5. 13.

출처: Informatica

 

고급 분석을 제공하기 위한 필수 사항 차세대 분석 성공의 핵심이 우수한 데이터라면, 기업의 데이터 관리 접근 방식이 올바른 결과를 산출할 것이라고 어떻게 확신할 수 있을까요? 지능적인 데이터 관리는 다음 6가지 원칙으로 요약할 수 있습니다.
1. 반복
2. 분리
3. 정렬
4. 협업
5. 자동화
6. 거버넌스
이 원칙들이 의미하는 바를 설명하고, 이를 실행으로 옮기기 위한 방법을 소개하겠습니다. 이 6가지 필수 사항을 적용함으로써 차세대 분석을 준비할 수 있습니다.

 

1 반복
핸드 코딩된 데이터 통합과 수동 데이터 정제를 통해 한 번은 문제를 해결할 수 있습니다. 문제는 이것이 반복적으로 발생할 것이라는 점입니다. 모든 새로운 데이터 세트에는 마지막 것과 같은 동일한 상세 정제가 필요합니다. 그리고 모든 새로운 데이터 소스는 추출하고 변환하고 로드해야 합니다. 차세대 분석의 효율성과 확장성이 중요하다면 반복은 필수 목표입니다. 이는 자신이 생성한 로직을 편리하게 재사용하여 데이터를 정제, 통합, 변환하는 방법을 찾으면, 이를 처음부터 다시 계속해서 만들 필요가 없다는 의미입니다.
실천 지침
1. 매번 발생하는 핵심 단계의 현재 프로세스를 문서화하는 것으로 시작합니다. 데이터 정제와 데이터 통합 등의 작업이 여기에 해당합니다.
2. 프로세스를 분석하여 시간이 얼마나 걸리는지, 팀이 매번 동일한 단계를 따르는지 확인합니다.
3. 이러한 단계를 표준화하고 팀이 따를 공통의 로드맵과 로직을 생성하기 위한 기회를 식별합니다.
4. 상세 내용을 파악한 후에는 이 단계를 효율적이고 확장 가능한 방식으로 표준화할 수 있는 툴을 찾아 봅니다(자세한 설명은 원칙 5 참조).

중요한 이유

정보 관리 성공의 3대 장애물은 데이터의 접근성, 통합, 정제입니다. 이 단계를 반복 가능하게 하고 기반 로직을 재사용할 수 있게 만들면 성공적인 분석의 가장 중요한 장애물을 극복할 수 있습니다. 분석 프로젝트의 진정한 가치는 의사 결정자가 계획을 수정할 시간이 아직 있을 때 통찰을 제공하는 기능에 있기 때문입니다. 데이터 관리에 소모되는 시간이 줄어들수록 통찰을 얻는 데 필요한 시간을 줄일 수 있습니다. 

 

2 분리
분석은 긴 여행과 같습니다. 데이터 마트에서 출발하여 데이터 웨어하우스를 추가하고 실시간 스트림을 추가하고 나서 마지막으로 데이터 레이크(Data Lake)로 이동하게 됩니다. 따라서 모든 유형의 데이터, 스토리지 기술, BI 툴에 적용되는 데이터 관리 아키텍처를 구축해야 합니다. 특히 어떤 유형의 스토리지에서도 실행되어야 합니다. 하둡 또는 NoSQL을 도입하면 완전히 새로운 데이터 관리 툴이 필요하며 단절된 '데이터 사일로' 생성의 심각한 위험에 처하게 됩니다. 통합 모듈과 데이터 관리 프로세스를 이러한 시스템(공장)과 분리하면 데이터(원자재)의 미래를 보증할 수 있습니다. 다계층 아키텍처는 새로운 데이터 소스와 타겟 애플리케이션을 쉽게 추가할 수 있는 유연성을 제공합니다.
실천 지침
1. 기본 스토리지 기술에 데이터가 종속되지 않도록 하는 데이터 관리 툴을 선택합니다.
2. 통합 및 정제 프로세스가 애플리케이션이 아닌 데이터 관리 계층에서 이루어지도록 합니다.

중요한 이유

분명한 것은 분석에서 데이터 저장에 사용되는 기술이 빠르게 변화하고 있다는 점입니다. 하지만 데이터 관리 플랫폼이 그러한 변화에 영향을 받지 않도록 설계된 경우, 팀과 프로세스가 어떤 상황에서도 Decision-Ready를 실현하도록 하는 데 필요한 유연성을 부여받습니다.  

 

3 정렬
용어는 모든 분석 프로젝트에서 특히 논쟁을 초래하는 부분입니다. 어떤 팀의 '클라이언트'가 다른 팀에게는 ' 클라이언트 회사'를 의미할 수 있습니다. '솔루션' 또는 '거래'와 같이 훨씬 광범위한 의미를 가진 용어를 자세히 들여다 보았을 때, 이러한 불일치는 심각한 문제를 유발할 수 있습니다. 성공적인 분석 프로젝트는 현업 종사자의 전문 지식과 IT 인력의 숙련된 기술을 조합합니다. 즉 Decision-Ready 데이터의 핵심 측면은 IT의 실행과 현업 부서의 기대치를 잘 맞추는 공통의 비즈니스 용어를 기반으로 한다는 것입니다. 정렬은 누군가 데이터의 실제 의미를 잘못 전달받아도 통합과 구축이 제공되도록 하는 역할을 합니다.
실천 지침
1. 쉽게 공유하고 작업할 수 있는 비즈니스 글로서리를 작성합니다.
2. 현업 및 IT를 아우르는 용어, 정의 , 용어 소유자, 규정을 적극적으로 관리하고 공유합니다. 예를 들어, 수익을 분석할 때 이것이 총수익, 순수익, 현지 수익, 글로벌 수익 중 어느 것과 관련된 것인지 명확히 합니다.
3. 비즈니스 용어가 실제 데이터와 연결되는지 확인합니다. 두 가지를 실제로 연결함으로써 현업(용어)과 IT(데이터의 실제 위치) 사이에 모호성이 생길 여지가 없는 환경을 만들 수 있습니다.

중요한 이유

한 의료 기관이 보고서 충돌을 경험했습니다. 문제는 '청구액 지급일' 이라는 용어의 의미 해석 때문인 것으로 드러났습니다. 다른 분석가가 이 용어를 청구가 승인된 날짜, 수표를 사용한 날짜, 수표를 교환한 날짜를 의미하는 것으로 해석했습니다. 그 결과, 오해로 수백만 달러에 해당하는 손실이 발생했습니다. 단순하게 들릴 수도 있겠지만, IT와 현업 부서 정렬의 첫 단계는 양측이 같은 언어를 사용하게 하는 일입니다.  

 

4 협업
IT의 소비화는 기업이 기술과 상호 작용하는 방식에 변화를 불러 왔습니다. 좋건 나쁘건, 비즈니스 분석가 및 비즈니스 전문가와 같은 비기술직 직원은 분석 툴의 주요 사용자입니다. 따라서 비기술직 사용자에게 권한을 부여하여 IT 및 데이터 모두에 대해 셀프서비스로 더 자연스럽게 작업할 수 있도록 접근하는 것이 중요합니다. IT 병목 현상은 동기 부여에 부정적인 영향을 미치고 분석 툴에서 항상 ROI를 도출하는 관련 분야 전문가의 이니셔티브에 악영향을 미칩니다.
실천 지침
1. 특정 사용자 유형의 요구 사항을 경청하여 이들이 스스로 사용할 수 있는 툴에 대한 액세스를 부여합니다.
2. 워크플로우에서 용어에 이르기까지 IT 분야의 규칙, 용어, 요건을 지정합니다.
3. 의사 소통 경로를 만들어 IT 사용자와 현업 부서 사용자가 직접 협업할 수 있도록 합니다.

중요한 이유

고급 분석 기능의 3대 사용자는 비즈니스 분석가, 통계 전문가, 현업 부서 사용자입니다. 수많은 비기술적 전문지식이 상당히 복잡한 기술을 향하고 있는 것입니다. 어려움에도 불구하고 데이터 분석의 민주화가 이루어지고 있습니다. 전진을 위한 가장 타당한 방법은 기술 전문가가 관련 분야 전문가와 간편한 방식으로 긴밀하게 협조할 수 있도록 하는 것입니다. 

 

5 자동화
첫 번째 원칙에서 반복적으로 언급했듯이, 분석 업무의 효율성과 확장성은 장기적 성공에 필수입니다. 그러나 데이터 관리 작업에서 데이터 통합 및 정제를 핸드 코딩으로 수행하는 한 분석 프로젝트의 지속 가능성은 현저히 떨어지게 됩니다. 취할 수 있는 실용적인 조치는 가장 많은 시간을 할애하고 최소한의 수동적 개입이 필요한 프로세스에서 이러한 부분을 자동화하는 것입니다. 이는 비싼 빅 데이터 인재가 데이터와 씨름하며 상당한 시간을 허비하지 않을 것임을 의미할 뿐 아니라, 이들이 더 많은 분석을 수행하여 더 많은 혁신을 이룰 수 있을 것임을 의미하기도 합니다.
실천 지침
1. 시간이 가장 많이 소모되는 데이터 관리 프로세스를 식별하여 이를 자동화하는 비즈니스 사례를 만듭니다.
2. 조직에서 정의한 데이터 관리 프로세스를 자동화할 수 있는 툴을 찾아 봅니다. 이러한 프로세스에는 주소 수정, 관계 매핑, 데이터 형식 수정 등이 있습니다.

중요한 이유

Southwest Power Pool사는 자동화를 도입하여 적지 않은 이점을 얻었습니다. 데이터 통합, 복제, 전달 절차를 자동화하여 이전에 하루가 걸리던 분석 시간을 20분으로 줄였습니다.
이러한 향상은 수백 개의 시나리오를 테스트하고 복잡한 모델에 기초하여 해답을 도출하려고 할 때 중요합니다. 하지만 분석 작업의 범위에 관계없이 효과를 위해 효율성을 희생시켜서는 안 됩니다. 

 

6 거버넌스
지능적인 데이터 관리가 전사적으로 이루어지도록 하기 위해, 데이터 거버넌스는 필수적인 프로세스입니다. 이는 데이터가 중요한 비즈니스 자산으로 관리되어야 한다는 의미일 뿐 아니라 분석 프로젝트에 관여한 모든 사람이 필요한 지원을 받고 관점을 공유할 수 있어야 한다는 의미이기도 합니다. 조직의 목표에 따라 데이터 품질 감독, 보안 및 규정 준수 관리, 프로세스 및 기술의 표준화를 위해 넓거나 좁은 범위의 데이터 거버넌스 프로그램을 사용할 수 있습니다.
실천 지침
1. 데이터 관리에 필요한 데이터 리스크 및 정책을 식별합니다.

2. 팀이 따라야 하는 정책, 표준, 규칙을 간략하게 정리합니다.
3. 차세대 분석으로부터 이득을 얻을 가장 중요한 이해관계자를 식별하여 잠재적인 데이터 거버넌스 전략에 대한 토론 프로세스를 시작합니다.
4. 상충 지점 및 책임 부족과 관련된 문제를 찾아 봅니다. 이는 효과적인 데이터 거버넌스 전략이 도움이 될 수 있는 문제 지점입니다.

중요한 이유

효과적인 데이터 거버넌스 프로그램은 그 초점이 넓든 좁든 다양한 요구 사항을 가진 기업의 상황을 고려하여 충돌을 해결하고, 의사 결정권을 정의하며, 분석 프로젝트의 틀을 만듭니다. 이는 프로세스에서 필수적인 부분으로, 다양한 팀의 업무, 기술 구매, 규정 준수 제어가 중복되지 않도록 보장합니다. 즉 효과적인 데이터 거버넌스 전략은 예측 가능하고 지속 가능한 분석 성공을 위한 해결 방법입니다.    

'Biz > Data' 카테고리의 다른 글

광고플랫폼 테이블 설계 예시  (0) 2023.06.15
데이터 가치 평가  (0) 2022.02.08
Apache NiFi 사용기  (0) 2016.03.26
Apache NiFi 둘러보기  (0) 2016.03.26
Apache NiFi 시작하기  (0) 2016.03.26

댓글