본문 바로가기

talend15

[TALEND] 이기종 데이터베이스 이관 이번 포스팅에서는 형식이 서로 다른 2개 이상의 소스 데이터를 하나의 타겟에 이관하는 방법을 알아보자. 이번 토픽은 Talend의 기능에 초점을 맞추기 보다 Data Migration 업무를 수행하며 경험한 위와 같은 케이스를 나름의 방식으로 해결한 과정을 공유해보려고 한다. 우선 나의 경우 DBMS가 다른 두 개의 소스 테이블과 excel 파일 데이터를 타겟 테이블에 이관하는 경우가 있었다. 이때 사용한 방식이 staging 시스템 혹은 (가능한 상황이면) 타겟 시스템에 임시 테이블을 하나 만들어 놓고 소스 데이터를 전부 이관한 후 임시 테이블에서 필요한 ETL 룰을 적용하며 실제 타겟 테이블에 이관하는 방식이다. 즉, 위와 같은 방식으로 작업을 진행하였다. 소스 데이터를 staging 시스템에 옮기는.. 2021. 4. 9.
[TALEND] 데이터 정합성 검증하는 방법 이번 포스팅에서는 ETL 과정 자체만큼 중요하다고 볼 수 있는 검증 작업에 대한 얘기를 해보려한다. 데이터의 퀄리티와 ETL 작업 정상 완료 결과를 뒷받침하는 검증 작업은 크게 SQL 쿼리 또는 Talend 툴을 사용하여 진행했다. 내가 진행한 프로젝트에서 사용된 모든 검증 쿼리와 팁들을 공유할 수는 없겠지만 ETL 후 검증 작업에는 어떠한 것들이 포함되는지 그 대략적인 흐름을 공유해 볼 것이다. 1. SQL 쿼리 사용 SQL 쿼리를 사용한 검증은 크게 두 가지로 구분된다. 첫번째는 이관 전후 소스와 타겟 테이블의 데이터 건수를 비교하는 것이다. 전체 데이터 건수를 비교하고 기준 칼럼 별 건수를 비교하는 방식으로 1차 검증이 진행된다. 두번째는 테이블 성격에 따라 cleansing rule을 적용한 경우.. 2021. 4. 8.
[TALEND] 대용량 테이블 성능 개선 이번 포스팅에서는 Data Migration 업무를 수행하면서 마주한 여러 케이스들 중 대용량 소스 테이블을 타겟 테이블에 이관할 때 발생하는 성능 저하 문제를 해결한 팁들을 공유하려고 한다. 보통 화면에서 자주 사용되는 데이터를 담고있는 테이블의 경우 그 데이터 건수가 많아지면 front 영역에서 해당 데이터를 로딩하는 시간이 오래걸린다. 내 경험 상 Data Migration 중 성능 개선 대상이 된 테이블은 화면에서 사용하는 데이터를 담고 있는 테이블보다는 로그 성 테이블, 배치로 쌓이는 테이블 등이었다. 이러한 테이블의 특징으로는 특별한 ETL cleansing rule이 적용되기 보다는 as-is와 to-be 구조를 동일하게 유지하는 경우가 많았다. 우선 이관 성능을 개선하기 위해 작업을 다음의.. 2021. 4. 8.
[TALEND] data migration 작업 유형 이번 포스팅에서는 Talend 활용법과 더불어 Data Migration 작업을 수행하며 마주한 여러 ETL 시나리오 별 작업 유형에 대해 얘기해보려고 한다. 테이블의 성격이나 작업의 요구 조건에 따라 크게 세 가지의 방식으로 구분되었다. 첫번째는 제일 간단하고 쉬운 유형인 소스의 전체 데이터를 타겟 시스템에 이관하는 케이스이다. 이미 여러 다른 포스팅을 통해 이 유형을 다루었다. 제일 많은 케이스인 table-to-table 이관 및 file-to-table 이관에 해당하는 Job의 예시는 다음 사진을 참고하자. 상세 내용은 다음 링크를 참고하면 될 것이다. 2020.03.30 - [TALEND] - [TALEND] Excel 파일 DB 업로드 하는 방법 [TALEND] Excel 파일 DB 업로드 하.. 2021. 4. 8.
[TALEND] 동적 파일 스키마 읽어오는 방법 이번 포스팅에서는 파일 등의 비정형 데이터를 input으로 가져올 때 파일의 스키마를 동적으로 읽어오는 방법을 알아보자. 실무에서 사용한 Talend는 커뮤니티 버전으로 Open Source Tool이었다. 이 오픈 소스 버전 Talend는 매우 다양한 기능을 제공하지만 동적 스키마를 읽어오거나 Job에 scheduler를 걸어 특정 시간에 반복되도록 만드는 기능 등은 제공하지 않는다. 하지만 비슷한 기능을 오픈 소스 버전을 이용해서도 만들어 볼 수 있다. 나의 경우는 20여개의 파일을 읽어 DB 테이블에 이관하는 케이스가 있었는데 이때, 파일의 칼럼명 자체를 DB의 한 칼럼에 데이터로서 저장해야했다. 이때, 사용한 방법을 공유하려고 한다. 완성된 Job은 다음과 같다. 칼럼명을 DB에 넣어주는 로직은 .. 2021. 4. 7.
[TALEND] Talend 내장함수 알아보기 여러가지 툴이 그러하듯 Talend 역시 자체적으로 유용한 내장함수를 가지고 있다. 이는 ETL 프로세스 중 T에 해당하는 data transformation 과정에서 매우 유용하게 사용될 수 있다. Talend의 내장함수는 매우 직관적이고 함수 별 간단한 설명이 나타나기 때문에 사용에 큰 어려움은 없을 것이다. 여러가지 내장함수 중 실무에서 유용하게 사용한 몇가지를 중점으로 소개하고자 한다. 1. IF-ELSE와 NULL HANDLING Data Transformation은 Talend의 컴포넌트 중 소스와 타겟 테이블을 매핑하는 tMap 컴포넌트에서 적용할 수 있다. 위와 같이 소스와 타겟 테이블을 칼럼별로 매핑하고 있는 상황이다. 이때, 소스의 salary 칼럼은 nullable인 반면 타겟의 sa.. 2021. 4. 7.
[TALEND] 서로 다른 소스 데이터 집계하기 이번 포스팅에서는 Talend의 새로운 컴포넌트를 몇 가지 소개하면서 실무에서 활용한 예시를 살펴보겠다. 먼저 소개할 컴포넌트는 다음과 같다. 1. tAggregateRow: input 데이터에 대하여 count, max, avg 등의 집계 함수를 사용할 수 있는 컴포넌트이다. 2. tUnite: 서로 다른 두개 이상의 소스 데이터가 동일한 스키마를 가질 때 이를 union해주는 컴포넌트이다. 현재 임직원들의 연봉 및 입사 시기를 포함하는 데이터는 두 개의 소스로 구분되어 있다고 해보자. 1990년 이전까지는 엑셀로 관리되었고 그 이후부터는 database로 관리되고 있다. 금번 프로젝트에서는 이렇게 두 개로 구분된 데이터를 하나의 테이블로 합치는 업무가 주어졌다. 이 작업을 완료한 후 두 개의 소스에 .. 2021. 4. 7.