주요업무
Public 클라우드 환경에서의 고가용성 시스템 인프라 구축 및 운영
- AWS로 구성된 클라우드 환경에서 서버 시스템의 인프라를 구축하고 운영합니다.
- 클라우드 제공자가 제공하는 콘솔에서 작업하는 것보다는 코드로서 관리하는 것을 선호하기 때문에 Terraform, Helm, ArgoCD 등을 사용하고 있으며, 애플리케이션 배포는 Spinnaker 기반 IDP(internal developer platform)을 통해 Kubernetes 기반의 컨테이너 환경에 배포하고 있습니다.
시스템/애플리케이션 로깅, 모니터링 및 자동화
- 안정적인 로깅과 모니터링은 서비스 안정성의 필수요소입니다. Zabbix와 Prometheus를 통해 최대한 모니터링을 자동화하여 사람의 개입 없이도 인프라 리소스를 auto-discovery하고 적절한 알람이 설정되도록 아름답게 시스템을 구성합니다.
- OpenTelemetry와 Elasticsearch를 적극적으로 사용하여 300+개의 마이크로서비스의 애플리케이션 모니터링을 수행하고 있습니다.
- 이 과정에서 자동화 도구가 필요하다면 자체적으로도 개발하고 사내에 공유하고 있습니다.
- 또한 Grafana Mimir를 활용하여 엔터프라이즈 규모의 시계열 메트릭 관리 및 수집을 안정적으로 수행하고 있습니다.
서비스 장애 대응 및 포스트모텀 문화 리딩
- 서비스 개발팀과 함께 장애 발생 시 적절한 조치를 취하고, 그에 대한 근본적인 원인 분석을 수행하여 재발을 방지하는 전략을 함께 계획하고 수행합니다.
- 또한, 이러한 모든 활동이 전사적으로 잘 수행될 수 있도록 다양한 프로세스와 도구를 개발하고 운영하며, 이를 지속적으로 개선하고 발전시켜 나가고 있습니다.
SLO/SLI 기반 서비스 개선 포인트 및 문제점 발굴, 최적화
- 서비스 운영 중 발생하는 문제점을 지속적으로 모니터링하고, 서비스의 성능, 안정성, 확장성 등 다양한 측면에서 개선할 수 있는 포인트나 문제점을 파악하고 개선하는 작업을 수행하고 있습니다.
- 특히, 하이퍼커넥트에서 가장 중요한 저지연/고성능의 코어 시스템과 글로벌 미디어 시스템에 주요하게 기여하고 있습니다.
- 이러한 개선 작업에는 클라우드 인프라, CDN/Network, Application 최적화, 신규 솔루션 도입 등 다양한 기술 영역을 포괄하고 있습니다.
신기술 PoC 및 프로덕션 적용
- 신뢰성 향상을 위한 다양한 도구들을 새로 개발하거나 연구하여 실제 운영 환경에 적용하고 있습니다. 새로 개발되는 도구를 개발환경에 적극적으로 적용하고 장점과 단점에 대해 의논하며, 철저한 검증을 통해 안정성을 유지하면서 운영 환경에 적용합니다.