요즘 금융사들도 온프레미스에서 클라우드로 전환하는 추세인 것 같다.
클라우드 아키텍처와 친해지기 위해서 종종 AWS 고객 사례를 구경하며 분석을 하기도 하는데 이것저것 찾아보던 중 'AWS 금융 고객 성공 사례집'을 보게 되었다.
이 사례집은 2019년 자료였는데 사례집을 보니 대부분의 금융사들이 디지털 전환을 위해 시작하는 단계라는 생각이 들었고, 현재 2024년에는 얼마나 깊게 클라우드로 전환하고 있는지 궁금해졌다.
이 중 현대카드의 사례를 볼 수 있었는데 2024 SUMMIT에서 빅데이터 플랫폼 구축에 대한 발표를 진행하셨길래 성공적인 디지털 전환을 어떻게 이뤘는지에 대해 알고 싶어 영상을 보게 되었다.
Agenda
1. 현대카드 빅데이터 플랫폼 소개 및 여정
2. 빅데이터 플랫폼 2.0
3. 성과 및 로드맵
1. 현대카드 빅데이터 플랫폼 소개 및 여정
현대카드 BDP 클라우드는 온프레미스 빅데이터 플랫폼을 클라우드로 전환하고 올해 2월에 오픈했다.
현대카드 디지털 트랜스포메이션 7년 여정
BDP를 활용한 분석 과제는 1년에 50개의 규모로 증가하게 되었다.
현대카드 빅데이터 플랫폼 1.0
- 데이터 사이즈: 3PB (datalake + sandbox)
- 적재 테이블 수: +20K (원천 + feature)
- 클러스터 수: 230 (하둡 + cpu/gpu)
- 일 평균 사용자 수: +60 (총 사용자 220명)
이렇게 안정적으로 잘 사용하고 있었는데 왜 클라우드로 전환하게 되었을까?
Cloud 검토 배경
1. Aging Servers: 서버 노후화로 인한 대규모 infra 재투자 시점 도래 (BDP 서버의 50%가 빠르면 24년부터 제조사에서 더 이상 부품을 생산하지 않는 EOS가 예정되어있었음)
2. Not Scalable: 분석 수요에 따라 증감할 수 없는 온프렘의 한계
3. Not Agile: 급변하는 디지털 트렌드에 민첩한 대응에 한계 (최신 기술을 사용하려면 최신 사양의 서버를 사용해야 함 그렇지 않으면 기술과 인프라 사이의 간극이 생기게 됨)
클라우드로 혁신했을 때 얻게 되는 이익이 온프렘을 유지하는 것보다 크다는 결론에 도달함
인프라 바꾸는 김에 BDP 사용자들의 업무 방식을 혁신하는 방안은 뭐가 있을까?
개선점 (1) 분산된 작업 환경
- 분산된 작업 환경으로 인해 업무 흐름이 끊어지고
- 소스 코드가 파편화됐음
개선점 (2) 운영성 업무 자동화 환경 부재
가설을 검증하고 인사이트를 발굴하는 모델 개발에 집중해야 하는데 개발에 필요한 선행, 후행 업무에 더 많은 시간을 할애하고 있다는걸 깨달음
Cloud 구축 전략
- 통합: 단일 채널의 통합 데이터 플레이 환경 구축
- 자동화: dataops, mlops를 구축해 운영성 업무의 리드 타임을 개선
- 성장: 기술 발전과 함께 성장하는 디지털 드리븐 환경을 구축하고자 하는 전략을 세움
2. 빅데이터 플랫폼 2.0
- 주요 기능
- request: bdp의 주요 업무 프로세스에 대해 승인, 신청, 결재하는 기능
- catalog: 데이터레이크에 저장된 모든 데이터의 스키마와 통계, 계보를 조회하는 기능
- project: 분석 과제 별로 필요한 분석 인프라 환경 구성, 프로젝트 멤버 관리 기능
- eda: 쿼리를 돌리거나 저장하는 sql 편집기
- ml: 세이지 메이커 스튜디오 접속, 개발한 파이프라인 원클릭으로 배포
- workflow: 코드를 짜지 않아도 ui 기반으로 작업 흐름을 만드는 기능
- 실시간 추론 환경
- 클릭으로 데이터 수집하는 데이터 임포트
- 데이터 라이프 사이클을 관리하는 거버넌스 기능
- AWS에 있는 서비스를 래핑해서 제공함
AWS 기술 스택
아키텍처
- 데이터: 현대카드 원천 데이터베이스로부터 EMR을 통해 정기/비정기로 입수
- 스트리밍 데이터: MSK와 EMR로 수집한 데이터를 S3에 적재
- 사용자: EKS에 배포된 웹을 통해 bdp 환경에 접근
- 람다와 글루, lakeformation을 통해 S3에 적재된 데이터에 대한 권한과 접근 통제가 수행
- 아테나: 쿼리 기반 데이터 조회
- 머신러닝 분석: sagemaker
- 스튜디오에서 활용할 spa 환경으로 emr 클러스터를 붙여놓음
- airflow 기능: mwaa
핵심기능
- data storage: 데이터를 수집하고 분석 피쳐까지 적재하는 데이터 저장소 (DataLake)
- data ingestion: 데이터 수집 프로세스를 자동화 (Dataops)
- eda/ml: 모델 개발 및 자동 학습 기능 (MLOps)
- web: 모든 데이터 업무를 수행할 수 있는 통합 채널 (DevOps)
자세한건 다음에 다시 쓰겠어요..
* 위 내용은 AWS 2024 SUMMIT SEOUL 발표 영상을 토대로 작성했습니다.
'Daily' 카테고리의 다른 글
Mac에서 빠른 ChatGPT 사용을 위한 단축키 (2) | 2024.11.08 |
---|---|
작심삼주 오블완 챌린지를 한다고 하네요~ (4) | 2024.10.29 |
[코테 복기] 2024 하반기 KT 코딩테스트 (1) | 2024.10.19 |
Datadog으로 느린 API 찾아내기 (0) | 2024.10.13 |
[채용설명회] LG전자 (1) | 2024.09.06 |