주요업무
1. 대규모 ML 워크로드를 위한 인프라 설계·개발·운영
- 대규모 트래픽 처리를 위한 모델 서버 최적화
- 온라인/오프라인 모델 서빙 시스템 개발 및 성능 최적화
- GPU/CPU 등 컴퓨팅 자원 효율화 및 분산 시스템 운영
- 대규모 데이터 파이프라인(ETL, 스트리밍) 구축 및 최적화
2. ML 파이프라인 자동화 및 CI/CD 환경 구축
- 모델 학습, 검증, 배포 자동화
- 지속적 통합/배포(CI/CD) 및 모니터링 시스템 구축
3. 고가용성, 확장성, 안정성을 위한 클러스터 및 오케스트레이션 환경 운영
- 컨테이너 및 오케스트레이션(Kubernetes 등) 기반 인프라 관리
- 장애 탐지, 진단, 복구 등 운영 자동화 및 SRE 업무
4. 데이터 및 모델 라이프사이클 관리
- 대규모 데이터 저장, 처리, 품질 관리 및 보안 체계 구축
- 모델 및 데이터 버전 관리, 라이프사이클 자동화
5. 다양한 직군과 협업(ML 엔지니어, 데이터 엔지니어, SRE, DevOps 등)