본문 바로가기
Biz/거버넌스

Data Mesh 와 Data Fabric 적용 구

by 조병희 2023. 3. 31.

다음은 데이터 메시(Data Mesh), 데이터 패브릭(Data Fabric) 및 데이터 가상화(Data Virtualization)의 차이를 표로 정리한 것입니다.

구분 데이터 메시(Data Mesh) 데이터 패브릭(Data Fabric) 데이터 가상화(Data Virtualization)
정의 조직 내 분산된 데이터 인프라 및 운영 모델 데이터 통합 및 품질 보증을 위한 프레임워크 여러 소스에서 데이터를 통합하여 가상 테이블 생성
특징 독립적인 도메인 팀이 데이터 소유 및 운영 분산된 데이터에 대한 일관된 접근 및 제어 물리적인 데이터 스키마와 독립적인 가상 스키마
데이터 소유 및 운영 도메인 팀이 데이터를 소유하고 운영 중앙 집중식 데이터 관리 및 운영 중앙 집중식 데이터 관리 및 운영
데이터 통합 방식 분산 데이터 마이크로서비스로 통합 데이터 통합 레이어로 통합 가상 테이블로 데이터를 통합
데이터 품질 보증 도메인 팀이 데이터 품질을 보증 중앙 집중식 데이터 품질 관리 및 보증 중앙 집중식 데이터 품질 관리 및 보증
비즈니스 가치 빠른 혁신과 개선, 도메인 지식 보존 비즈니스 프로세스 향상, 새로운 가치 창출 데이터 접근성 향상, IT 코스트 감소

 

조직 구성

데이터 메시

기존의 중앙집중식 데이터 관리 및 운영 방식과는 달리 독립적인 도메인 팀이 데이터를 소유하고 운영합니다. 이에 따라 조직 구성과 역할이 다음과 같이 변화될 수 있습니다.

  1. 데이터 팀(Data Team): 각 도메인 팀에 대응되는 데이터 팀이 구성됩니다. 데이터 팀은 데이터의 소유와 운영, 품질 보증 등을 책임집니다.
  2. 도메인 팀(Domain Team): 각 도메인 팀은 해당 도메인의 비즈니스 요구사항에 따라 데이터를 수집하고 가공합니다. 데이터 팀과 협력하여 데이터의 품질과 보안을 보장합니다.
  3. 인프라 팀(Infrastructure Team): 데이터 메시를 구현하기 위한 인프라와 도구를 관리하고 유지보수하는 팀입니다. 데이터 팀과 도메인 팀이 데이터를 수집하고 가공하는 데 필요한 인프라를 제공합니다.
  4. 데이터 가치 창출 팀(Value Creation Team): 도메인 팀이 수집하고 가공한 데이터를 기반으로 비즈니스 가치를 창출하는 팀입니다. 데이터 메시를 통해 도메인 팀과 데이터 팀이 협력하여 빠르게 데이터 기반 서비스를 개발하고 출시할 수 있습니다.

데이터 메시를 적용할 경우, 각 팀은 독립적인 역할과 책임을 갖게 되며, 데이터 소유와 운영 측면에서 더욱 책임을 지게 됩니다. 따라서 팀 간의 협력과 커뮤니케이션 능력이 중요해지며, 데이터의 품질과 보안을 보장하기 위한 체계가 필요합니다.

데이터 패브릭

기존의 중앙집중식 데이터 관리 및 운영 방식과는 달리 분산된 데이터 소유자들이 데이터를 공유하고, 필요한 데이터를 검색하고 접근할 수 있습니다. 이에 따라 조직 구성과 역할이 다음과 같이 변화될 수 있습니다.

  1. 데이터 프로듀서(Data Producer): 데이터를 생성하고, 공유 가능한 포맷으로 변환하여 데이터 공유 레이어(Data Sharing Layer)에 업로드합니다. 이를 위해 데이터 프로듀서 팀이 구성될 수 있습니다.
  2. 데이터 컨슈머(Data Consumer): 필요한 데이터를 검색하고, 데이터 공유 레이어에서 데이터를 다운로드하여 사용합니다. 이를 위해 데이터 컨슈머 팀이 구성될 수 있습니다.
  3. 데이터 큐레이터(Data Curator): 데이터 품질을 보증하고, 데이터 공유 레이어에서 검색 가능한 메타데이터를 생성합니다. 이를 위해 데이터 큐레이터 팀이 구성될 수 있습니다.
  4. 데이터 인프라(Data Infrastructure): 데이터 공유 레이어를 관리하고, 데이터 품질을 보증하며, 필요에 따라 데이터 플랫폼을 개발 및 운영합니다. 이를 위해 데이터 인프라 팀이 구성될 수 있습니다.
  5. 데이터 프로텍션(Data Protection): 데이터 보안 및 개인정보 보호와 같은 데이터 보호 및 규제 준수 역할을 수행합니다. 이를 위해 데이터 프로텍션 팀이 구성될 수 있습니다.

데이터 패브릭을 적용할 경우, 각 팀은 데이터에 대한 소유권과 책임을 갖게 됩니다. 데이터를 생성한 데이터 프로듀서 팀, 데이터를 사용하는 데이터 컨슈머 팀, 데이터의 품질을 보증하는 데이터 큐레이터 팀, 데이터를 관리하고 운영하는 데이터 인프라 팀, 데이터 보호와 규제 준수를 수행하는 데이터 프로텍션 팀 등 각 팀이 협력하여 데이터를 공유하고, 데이터의 품질과 보안을 보장하는 체계가 필요합니다.

데이터 메시와 패브릭

데이터 메시와 데이터 패브릭을 동시에 적용할 경우, 데이터 메시의 구성과 역할은 이전 답변에서 설명한 대로 유지되지만, 데이터 패브릭에서는 다음과 같은 구성과 역할이 추가됩니다.

  1. 데이터 메시 코어팀(Data Mesh Core Team): 데이터 메시를 구성하고 운영하는 데 필요한 기술과 방법론을 개발하고, 데이터 메시의 정책을 결정합니다.
  2. 데이터 메시 패턴(Data Mesh Pattern): 데이터 메시에서 사용할 데이터의 포맷, 인코딩, 스키마 등의 규격을 개발하고, 데이터 메시의 패턴을 관리합니다.
  3. 데이터 메시 분산화(Data Mesh Distribution): 데이터 메시를 분산화하여 성능과 안정성을 유지하고, 데이터 메시의 분산화를 관리합니다.
  4. 데이터 메시 어플리케이션(Data Mesh Application): 데이터 메시에서 사용할 어플리케이션을 개발하고, 데이터 메시의 어플리케이션을 관리합니다.
  5. 데이터 패브릭 코어팀(Data Fabric Core Team): 데이터 패브릭을 구성하고 운영하는 데 필요한 기술과 방법론을 개발하고, 데이터 패브릭의 정책을 결정합니다.
  6. 데이터 패브릭 분산화(Data Fabric Distribution): 데이터 패브릭을 분산화하여 성능과 안정성을 유지하고, 데이터 패브릭의 분산화를 관리합니다.
  7. 데이터 패브릭 어플리케이션(Data Fabric Application): 데이터 패브릭에서 사용할 어플리케이션을 개발하고, 데이터 패브릭의 어플리케이션을 관리합니다.

데이터 메시와 데이터 패브릭을 동시에 적용할 경우, 데이터 메시 코어팀과 데이터 패브릭 코어팀은 데이터 메시와 데이터 패브릭을 통합하여 운영할 수 있는 방법과 기술을 개발하고, 데이터 메시와 데이터 패브릭의 패턴, 분산화, 어플리케이션을 통합하여 관리해야 합니다. 또한, 데이터 메시와 데이터 패브릭의 분산화와 어플리케이션은 각각의 팀에서 개발하고, 통합하여 관리해야 합니다. 이를 통해 조직은 데이터 중심의 비즈니스를 효과적으로 지원할 수 있습니다.

구성 및 역할 데이터 메시 데이터 패브릭 데이터 메시와 데이터 패브릭
데이터 소유자(Data Owners) 데이터를 소유하고 있는 부서 또는 팀 데이터를 관리하는 부서 또는 팀 데이터를 소유하고 있는 부서 또는 팀, 데이터를 관리하는 부서 또는 팀
데이터 인프라(Data Infrastructure) 데이터를 저장하고 처리하는 인프라 데이터를 저장하고 처리하는 인프라 데이터를 저장하고 처리하는 인프라
데이터 제품(Product) 데이터를 이용해 제품을 개발하는 부서 또는 팀 데이터를 이용해 제품을 개발하는 부서 또는 팀 데이터를 이용해 제품을 개발하는 부서 또는 팀
데이터 메시 코어팀(Data Mesh Core Team) 데이터 메시를 구성하고 운영하는 데 필요한 기술과 방법론을 개발하고, 데이터 메시의 정책을 결정 - 데이터 메시를 구성하고 운영하는 데 필요한 기술과 방법론을 개발하고, 데이터 메시의 정책을 결정
데이터 메시 패턴(Data Mesh Pattern) 데이터 메시에서 사용할 데이터의 포맷, 인코딩, 스키마 등의 규격을 개발하고, 데이터 메시의 패턴을 관리 - 데이터 메시에서 사용할 데이터의 포맷, 인코딩, 스키마 등의 규격을 개발하고, 데이터 메시의 패턴을 관리
데이터 메시 분산화(Data Mesh Distribution) 데이터 메시를 분산화하여 성능과 안정성을 유지하고, 데이터 메시의 분산화를 관리 - 데이터 메시를 분산화하여 성능과 안정성을 유지하고, 데이터 메시의 분산화를 관리
데이터 메시 어플리케이션(Data Mesh Application) 데이터 메시에서 사용할 어플리케이션을 개발하고, 데이터 메시의 어플리케이션을 관리 - 데이터 메시에서 사용할 어플리케이션을 개발하고, 데이터 메시의 어플리케이션을 관리
데이터 패브릭 코어팀(Data Fabric Core Team) - 데이터 패브릭을 구성하고 운영하는 데 필요  

이를 현실에 맞도록 재정리를 해보면 다음과 같습니다.

구분 역할
총책임자 - 데이터 메시와 데이터 패브릭 구성 및 운영 책임
- 조직 전반에 대한 데이터 전략 수립
- 데이터 품질 관리
데이터 소유자 - 데이터 메시와 데이터 패브릭의 데이터 소유와 권한 부여
- 데이터 품질 관리
- 데이터 생산자와 컨슈머 간의 조율
데이터 플랫폼 운영자 - 데이터 메시와 데이터 패브릭의 기술 인프라 관리
- 데이터 보안과 데이터 접근 권한 관리
데이터 개발자 - 데이터 메시와 데이터 패브릭 어플리케이션 개발
- 데이터 생산자와 컨슈머 간의 인터페이스 구현
플랫폼 정책 담당자 - 데이터 메시와 데이터 패브릭에 대한 운영 정책 수립과 준수 감시
- 데이터 보안 정책 수립과 준수 감시
표준화/품질 담당자 - 데이터 표준화 및 메타데이터 관리
- 데이터 품질 측정 및 향상

 

데이터 플랫폼의 레이어 구성

데이터 메시와 데이터 패브릭을 동시에 적용한 데이터 플랫폼을 레이어별로 나눈 표입니다.

레이어 설명
Data Ingestion 데이터 수집 및 처리 레이어. 데이터 소스에서 데이터를 추출하고, 필요한 전처리 작업을 수행하여 데이터를 플랫폼 내부로 전송한다.
Data Storage 데이터 저장소 레이어. 수집된 데이터를 저장하고, 필요한 경우 데이터를 분할하여 저장한다. 저장소는 여러 가지 형태로 제공될 수 있으며, 데이터 형식, 액세스 패턴 등에 따라 선택된다.
Data Access 데이터 액세스 레이어. 데이터를 검색하고, 필요한 경우 필터링, 집계, 변환 등의 처리를 수행하여 사용자가 원하는 형태로 데이터를 제공한다. 데이터 액세스는 데이터 쿼리, API, 웹 UI 등의 형태로 제공될 수 있다.
Data Processing 데이터 처리 레이어. 데이터 처리는 배치 처리와 스트림 처리를 포함한다. 배치 처리는 대용량 데이터를 한 번에 처리하는 방식이며, 스트림 처리는 실시간으로 데이터를 처리하는 방식이다.
Data Governance 데이터 거버넌스 레이어. 데이터의 품질, 보안, 규제 준수 등을 관리하는 레이어이다. 데이터 거버넌스는 데이터 정책, 데이터 카탈로그, 데이터 품질 관리, 보안 및 규제 준수 등의 기능으로 구성된다.
Data Mesh 데이터 메시 구성 요소를 구현하는 레이어. 데이터 메시 구성 요소는 독립적으로 개발되며, 필요한 경우 서비스 메시를 통해 연결된다.
Data Fabric 데이터 패브릭 구성 요소를 구현하는 레이어. 데이터 패브릭 구성 요소는 중앙 집중식으로 개발되며, 데이터 액세스를 위한 API를 제공한다.

위의 표에서 데이터 메시와 데이터 패브릭은 각각 독립된 레이어로 표현되며, 데이터 메시 레이어에서는 데이터 메시 구성 요소를 구현하고, 데이터 패브릭 레이어에서는 데이터 패브릭 구성 요소를 구현한다. 이 두 레이어는 각각의 방식으로 데이터 액세스를 제공합니다.

이를 시스템 관점에서 레이어를 계층 순서로 정렬한 표는 다음과 같습니다.

레이어 설명
인프라 레이어 물리적인 하드웨어 자원으로 구성된 레이어. 데이터 플랫폼을 지탱하는 기반이다.
가상화 레이어 인프라 레이어에서 제공되는 하드웨어 자원을 가상화하여 관리하는 레이어.
데이터 배포 레이어 데이터 소스에서 추출된 데이터를 데이터 메시의 개념에 따라 분산된 데이터 제품으로 전환하고 배포하는 레이어.
데이터 제품 레이어 분산된 데이터 제품을 생성하고 관리하는 레이어.
데이터 접근 레이어 데이터 제품에 대한 접근을 제공하는 레이어. 데이터 공유, 검색, 업데이트 등을 수행한다.
데이터 소비자 레이어 데이터 접근 레이어를 통해 데이터를 소비하는 레이어. 데이터 분석, 시각화, 머신 러닝 등의 작업을 수행한다.

위 표는 데이터 메시와 데이터 패브릭을 모두 적용한 데이터 플랫폼의 레이어 구성을 나타내며, 인프라 레이어가 가장 낮은 레이어이고, 데이터 소비자 레이어가 가장 높은 레이어입니다.

ChatGPT를 통해 얻은 내용입니다.

댓글