전체 글354 DataHub: The Metadata Platform for the Modern Data Stack https://github.com/datahub-project/datahub GitHub - datahub-project/datahub: The Metadata Platform for the Modern Data Stack The Metadata Platform for the Modern Data Stack. Contribute to datahub-project/datahub development by creating an account on GitHub. github.com DataHub is an open-source metadata platform for the modern data stack. Read about the architectures of different metadata systems.. 2023. 4. 6. CKAN: The Open Source Data Portal Software https://github.com/ckan/ckan GitHub - ckan/ckan: CKAN is an open-source DMS (data management system) for powering data hubs and data portals. CKAN makes it e CKAN is an open-source DMS (data management system) for powering data hubs and data portals. CKAN makes it easy to publish, share and use data. It powers catalog.data.gov, open.canada.ca/data, data... github.com CKAN is the world’s leading .. 2023. 4. 6. sqllineage https://github.com/reata/sqllineage GitHub - reata/sqllineage: SQL Lineage Analysis Tool powered by Python SQL Lineage Analysis Tool powered by Python. Contribute to reata/sqllineage development by creating an account on GitHub. github.com SQL Lineage Analysis Tool powered by Python Never get the hang of a SQL parser? SQLLineage comes to the rescue. Given a SQL command, SQLLineage will tell you .. 2023. 4. 6. Open Source Database - Ranking https://ossinsight.io/collections/open-source-database/ Last 28 days / Monthly ranking of repos in this collection by stars, pull requests, issues. Historical Ranking by Popularity. mivus: Vector database built for scalable similarity search Milvus는 딥 뉴럴 네트워크와 기타 머신 러닝(ML) 모델에서 생성된 방대한 임베딩 벡터를 저장, 색인, 관리한다는 단 하나의 목표를 가지고 2019년에 만들어졌습니다. 입력 벡터에 대한 쿼리를 처리하도록 특별히 설계된 데이터베이스로서, 1조 개 규모의 벡터를 색인할 수 있습.. 2023. 4. 6. Open Source Data Stack 이 기사에서는 모든 회사가 데이터 기반이 되는 데 필요한 핵심 오픈 소스 도구를 살펴보겠습니다. 통합, 변환, 오케스트레이션, 분석 및 ML 도구를 최신 개방형 데이터 스택에 대한 시작 가이드로 다룹니다. 최신 데이터 스택부터 시작하겠습니다. 그것에 대해 들어 보셨습니까 또는 그 용어가 어디에서 왔습니까? 다음은 데이터 용어집의 정의입니다. MDS(최신 데이터 스택)는 수집에서 ML, 분석 BI 대시보드 백엔드를 사용하여 열 형식 데이터 웨어하우스 또는 레이크 솔루션에 이르기까지 엔드 투 엔드 분석을 달성하기 위한 오픈 소스 도구 힙입니다. 이 스택은 레고 블록처럼 확장 가능합니다. 일반적으로 데이터 통합, 변환 도구, 오케스트레이터 및 비즈니스 인텔리전스 도구로 구성됩니다. 데이터가 증가함에 따라 데이.. 2023. 4. 3. Data Mesh 와 Data Fabric 적용 구 다음은 데이터 메시(Data Mesh), 데이터 패브릭(Data Fabric) 및 데이터 가상화(Data Virtualization)의 차이를 표로 정리한 것입니다. 구분 데이터 메시(Data Mesh) 데이터 패브릭(Data Fabric) 데이터 가상화(Data Virtualization) 정의 조직 내 분산된 데이터 인프라 및 운영 모델 데이터 통합 및 품질 보증을 위한 프레임워크 여러 소스에서 데이터를 통합하여 가상 테이블 생성 특징 독립적인 도메인 팀이 데이터 소유 및 운영 분산된 데이터에 대한 일관된 접근 및 제어 물리적인 데이터 스키마와 독립적인 가상 스키마 데이터 소유 및 운영 도메인 팀이 데이터를 소유하고 운영 중앙 집중식 데이터 관리 및 운영 중앙 집중식 데이터 관리 및 운영 데이터 통합.. 2023. 3. 31. 윈도우 11에서 디스크 점유률(사용률)이 높을 때 디스크 검사를 실행하여 문제를 해결합니다. 검색창에 "cmd"를 입력하고, "명령 프롬프트"를 우클릭하여 "관리자 권한으로 실행"을 클릭합니다. "chkdsk /f /r"을 입력하고, 엔터를 누릅니다. "Y"를 입력하고, 엔터를 누릅니다. 컴퓨터를 다시 시작합니다. Windows Defender를 비활성화합니다. 검색창에 "Windows 보안"을 입력하고, "Windows 보안"을 클릭합니다. "방화벽 및 네트워크 보호"를 클릭합니다. "개인용 방화벽 및 보호 기능"을 클릭합니다. "Windows Defender 방화벽 사용 안 함"을 선택합니다. Windows Search 서비스를 비활성화합니다. 검색창에 "서비스"를 입력하고, "서비스"를 클릭합니다. "Windows Search"를 찾아 우클릭하고,.. 2023. 3. 23. Snowflak 오브젝트 및 용어 Snowflake에서 사용되는 오브젝트 종류는 다음과 같습니다. 태스크(task): 태스크는 일정한 주기로 실행되거나, 특정 이벤트가 발생할 때 실행되는 작업을 정의하는 오브젝트입니다. 태스크를 사용하여 ETL(Extract, Transform, Load) 작업, 데이터 통합 작업 등을 자동화할 수 있습니다. 스트림(stream): 스트림은 데이터 변경을 캡처하고, 다른 테이블(table)이나 스트림(stream)에 전달하는 오브젝트입니다. 스트림을 사용하여 데이터 변경 이벤트를 감지하고, 실시간 데이터 통합을 수행할 수 있습니다. 인티그레이션(integration): 인티그레이션은 다른 클라우드 서비스나 데이터 소스와 연결하기 위한 구성 요소입니다. 인티그레이션을 사용하여 Amazon S3, Azure.. 2023. 3. 22. 프로젝트를 위한 문제 정의 방법 프로젝트를 위한 문제 정의 방법은 다음과 같습니다. 1. 문제 영역 선택 프로젝트를 위한 영역을 선택하고, 해당 영역에 대한 이해를 높입니다. 2. 문제 파악 선택한 영역에서 실제 문제를 파악하고, 그 문제가 어떻게 발생하고 있는지, 어떻게 해결되지 않고 있는지 등을 파악합니다. 3. 문제 정의 파악한 문제를 구체적으로 정의하고, 명확하고 구체적인 문제 정의서를 작성합니다. 4. 문제 해결 방법 도출 문제를 해결하기 위한 다양한 방법을 도출하고, 이를 평가하고 비교하여 최종적으로 채택할 방법을 선택합니다. 5. 문제 해결 계획 수립 선택한 방법을 구체적으로 계획하고, 실행 가능한 계획을 수립합니다. 6. 문제 해결 실행 계획에 따라 문제를 해결하고, 결과를 평가하고 수정합니다. 각 단계별로 상세하게 살펴.. 2023. 3. 20. AVEQA 알고리즘 AVEQA 알고리즘은 제품 정보에서 속성 값 추출을 위한 새로운 접근 방식입니다. 각 속성을 질문으로 취급하고 제품 문맥에서 속성 값에 해당하는 답변 범위를 식별하는 질문 응답 모델을 구축합니다 Learning to Extract Attribute Value from Product via Question Answering: A Multi-task Approach | Proceedings of the 26th ACM SIG Overall Acceptance Rate 1,133 of 8,635 submissions, 13% dl.acm.org 장점 제품 문맥에서 속성 값에 해당하는 답변 범위를 식별하기 때문에 속성 값 추출의 정확도와 abstractive한 표현을 향상시킵니다. multi-task frame.. 2023. 3. 17. 데이터 표준 담당과 데이터 설계 모델러 역량 데이터 표준 담당자와 데이터 설계 모델러는 데이터 관리 및 모델링 분야에서 중요한 역할을 수행합니다. 이들 역할에 필요한 주요 역량은 다음과 같습니다: 데이터 표준 담당자: 데이터 관리 원칙: 데이터 표준 담당자는 데이터 관리 원칙과 데이터 거버넌스에 대한 깊은 이해가 필요합니다. 이를 통해 조직 내 데이터 표준을 설정하고 유지하는 데 도움이 됩니다. 표준화 및 메타데이터 관리: 메타데이터 및 표준화 기술에 대한 지식은 데이터 표준 담당자에게 중요합니다. 이를 통해 데이터 사전, 분류 체계 및 데이터 표준을 개발하고 유지할 수 있습니다. 도메인 전문 지식: 특정 산업이나 분야에 대한 전문 지식은 데이터 표준을 이해하고 정의하는 데 도움이 됩니다. 커뮤니케이션 및 협업: 데이터 표준 담당자는 다양한 이해 .. 2023. 3. 17. 조직간 협업 성과 측정을 위한 설문조사 예시 서로 다른 조직과의 협업에 따른 성과 측정을 위한 설문조사 예시 팀 간 의사소통 효율성: 회사 간의 의사소통이 원활하다고 생각하십니까? 다른 회사의 팀원과 소통할 때 어려움을 겪었습니까? 현재 사용 중인 의사소통 도구가 효과적이라고 생각하십니까? 문화적 적응력: 다른 회사의 팀원과 함께 일하는 것이 편안하다고 느낍니까? 다른 회사의 업무 문화에 적응하는 데 어려움을 겪었습니까? 두 회사의 문화 차이를 해소하는 데 필요한 지원을 받았다고 생각하십니까? 상호 신뢰도 향상: 다른 회사의 팀원을 신뢰할 수 있다고 생각하십니까? 협업 프로젝트에서 다른 회사의 팀원에게 책임을 맡길 수 있습니까? 다른 회사의 팀원과 업무상 거짓말이나 기만을 경험한 적이 있습니까? 협업 투명성: 두 회사 간의 업무 공유 및 진행 상황.. 2023. 3. 17. 이전 1 ··· 4 5 6 7 8 9 10 ··· 30 다음