Site Reliability Engineer

51-300명

공고소개
주요업무
자격요건
우대사항
채용절차

Platform Department] Hyperconnect Platform Department는 SRE팀, DevOps팀, Platform개발팀, Data Engineering팀 구성원들이 모여 Azar, 신규 프로덕트 등 전사 모든 서비스에 인프라와 공통 플랫폼 기술을 제공하여 비즈니스 임팩트를 만들고 있습니다. 또한, 기술 silo화를 방지하고 전사적으로 훌륭한 엔지니어링 문화를 만들어가는데 기여하고 있습니다. Platform Department에서는 이렇게 일하고 있습니다. - 개발팀에서 필요한 인프라를 단순히 생성하는 것이 아니라, 비즈니스 요구사항과 기술적인 요구사항을 모두 포괄하여 알맞은 시스템 설계를 제공하고 있습니다. 이 과정에서 전사 개발팀 뿐만 아니라 필요 시 다른 직군의 이해관계자와 질의 응답을 진행하는 전반적인 process를 리딩하고 있습니다. - 기술적 지표, 로그 및 소스코드 등 다양한 정보를 스스로 탐색하여, 개발팀 또는 SRE/DevOps팀의 사각지대에 위치한 문제를 찾아 정의해내고 해결하고 있습니다. - 기본적인 설계 방법 및 모범 사례에 대한 문서를 작성하여, 개발팀이나 다른 SRE/DevOps팀 동료가 스스로 문제를 해결 할 수 있도록 돕고 있습니다. - 현재 기술 스택에 안주하지 않고, 문제를 더 잘 해결 할 수 있는 새로운 기술을 탐구하여 적극적으로 도입하고 있습니다.

주요업무

Public 클라우드 환경에서의 고가용성 시스템 인프라 구축 및 운영 - AWS로 구성된 클라우드 환경에서 서버 시스템의 인프라를 구축하고 운영합니다. - 클라우드 제공자가 제공하는 콘솔에서 작업하는 것보다는 코드로서 관리하는 것을 선호하기 때문에 Terraform, Helm, ArgoCD 등을 사용하고 있으며, 애플리케이션 배포는 Spinnaker 기반 IDP(internal developer platform)을 통해 Kubernetes 기반의 컨테이너 환경에 배포하고 있습니다. 시스템/애플리케이션 로깅, 모니터링 및 자동화 - 안정적인 로깅과 모니터링은 서비스 안정성의 필수요소입니다. Zabbix와 Prometheus를 통해 최대한 모니터링을 자동화하여 사람의 개입 없이도 인프라 리소스를 auto-discovery하고 적절한 알람이 설정되도록 아름답게 시스템을 구성합니다. - OpenTelemetry와 Elasticsearch를 적극적으로 사용하여 300+개의 마이크로서비스의 애플리케이션 모니터링을 수행하고 있습니다. - 이 과정에서 자동화 도구가 필요하다면 자체적으로도 개발하고 사내에 공유하고 있습니다. - 또한 Grafana Mimir를 활용하여 엔터프라이즈 규모의 시계열 메트릭 관리 및 수집을 안정적으로 수행하고 있습니다. 서비스 장애 대응 및 포스트모텀 문화 리딩 - 서비스 개발팀과 함께 장애 발생 시 적절한 조치를 취하고, 그에 대한 근본적인 원인 분석을 수행하여 재발을 방지하는 전략을 함께 계획하고 수행합니다. - 또한, 이러한 모든 활동이 전사적으로 잘 수행될 수 있도록 다양한 프로세스와 도구를 개발하고 운영하며, 이를 지속적으로 개선하고 발전시켜 나가고 있습니다. SLO/SLI 기반 서비스 개선 포인트 및 문제점 발굴, 최적화 - 서비스 운영 중 발생하는 문제점을 지속적으로 모니터링하고, 서비스의 성능, 안정성, 확장성 등 다양한 측면에서 개선할 수 있는 포인트나 문제점을 파악하고 개선하는 작업을 수행하고 있습니다. - 특히, 하이퍼커넥트에서 가장 중요한 저지연/고성능의 코어 시스템과 글로벌 미디어 시스템에 주요하게 기여하고 있습니다. - 이러한 개선 작업에는 클라우드 인프라, CDN/Network, Application 최적화, 신규 솔루션 도입 등 다양한 기술 영역을 포괄하고 있습니다. 신기술 PoC 및 프로덕션 적용 - 신뢰성 향상을 위한 다양한 도구들을 새로 개발하거나 연구하여 실제 운영 환경에 적용하고 있습니다. 새로 개발되는 도구를 개발환경에 적극적으로 적용하고 장점과 단점에 대해 의논하며, 철저한 검증을 통해 안정성을 유지하면서 운영 환경에 적용합니다.

자격 요건

• Linux 및 Network를 중심으로 하는 CS 전반에 대한 이해가 있으신 분 • Container 기술 전반에 대한 이해가 있으신 분 • Python, Golang 등 프로그래밍 언어를 사용한 기본적인 개발이 가능한 분 • AWS 등 public cloud 환경에서 Linux 계열 서버 관련 실무 경험이 있으신 분 • 다양한 조직과 협업에 필요한 뛰어난 커뮤니케이션 스킬과 문서 정리 능력을 갖추신 분 • 서비스에서 발생하는 다양한 문제점을 인지하고, 주도적으로 해결책을 제시하는 분 • 기술 트렌드를 따라, 새로운 기술을 학습하는 것에 즐거움을 느끼시는 분

우대사항

• Kubernetes에 대한 기본적인 이해 및 실무 경험 • Infrastructure-as-a-Code 도구 사용 경험 및 실무 경험 • Java/Kotlin, Spring Framework 관련 문제 해결 경험 • 실시간 시스템/확장성이 높은 시스템을 운영해본 경험 • 프로덕션 환경에서 발생하는 다양한 장애에 대한 트러블슈팅 경험

채용절차

• 고용 형태: 정규직 • 채용 절차: 서류전형 > 코딩테스트 & 과제 전형 > 1차 면접 > 2차 면접 > 3차 면접 (해당 시) > 최종합격 • 서류 전형의 경우 합격자에 한하여 개별 안내드릴 예정입니다. • 지원 서류: 자유 양식의 상세 경력기반 국문 또는 영문이력서(PDF)

이 포지션에 필요한 전문분야/기술

AWS

Python

Linux

클라우드