company logo
(주)노타

[Infra] Senior System Engineer (AI Infrastructure)

시리즈 C
누적 투자 500억↑
51-300명
  • 공고소개
  • 주요업무
  • 자격요건
  • 우대사항
  • 채용절차
  • 기타안내
이 포지션에 합격해 입사하시면 리멤버에서 합격 보상금 50만원을 드립니다
(주)노타 조직 이미지
AI for everyone, everywhere AI를 누구에게나, 어디에서나 노타는 AI 최적화 기술을 통해 AI의 일상화를 선도하는 기업입니다. 우리는 다양한 디바이스와 산업 전반에 걸쳐, 누구나 어디서나 AI를 사용할 수 있는 세상을 만들고자 합니다. 노타의 핵심 제품인 넷츠프레소(NetsPresso)는 하드웨어의 특성을 이해하는 AI 모델 최적화 플랫폼입니다. 또한, 차세대 영상 관제 솔루션 (NVA: Nota Vision Agent), 지능형 교통 시스템(ITS) 등 온디바이스 생성형 AI 솔루션을 통해 실제 산업 현장에서의 AI 실현 가능성을 넓히고 있습니다. 국내 스타트업으로는 최초로 삼성과 LG의 투자 유치 기록을 보유하고 있으며, 네이버 DS2F의 첫 투자 기업이기도 합니다. 최근에는 두바이 교통국과의 AI 솔루션 공급 계약을 체결하고, CB Insights AI 100에도 선정되는 등 글로벌 무대에서의 성과를 이어가고 있습니다. 노타는 빠르게 성장하는 조직과 함께할 다양한 직군의 노타 크루를 찾고 있습니다. 직급과 경력에 관계없이 누구나 동등한 입장에서 의견을 나눌 수 있는 수평적인 문화 속에서, 공동의 목표를 향해 자율적으로 일할 수 있는 분과 함께하고 싶습니다. 누구나, 어디에서나 AI의 가치를 경험할 수 있도록 하는 여정, 지금 노타에서 함께하세요. 👋 우리 팀을 소개합니다. Infra 팀은 노타의 AI Model Optimization & Compression Workload와 On-device AI Validation Pipeline을 떠받치는 기반 Infrastructure를 설계·구축하고 운영 가능한 형태로 정착시키는 역할을 담당합니다. GPU Self-Service Platform, Data Center Backbone Network, Distributed Storage(Ceph), Local LLM Gateway, Edge Device Farm, Security & Access Control(ZTNA·Bastion·Vault), Observability, FinOps, DevSecOps 표준화까지 폭넓은 영역을 다루며, NetsPresso·NVA 플랫폼 및 사내 R&D 과제(On-device AI Agent 등)가 안정적으로 구동될 수 있도록 단순 유지보수가 아닌 실질적인 플랫폼 구축과 운영 표준화를 동시에 추진하고 있습니다. 이번 포지션은 시스템 엔지니어링 깊이(Hardware·OS·Network·Storage 레이어)와 플랫폼 빌더 역량(R&D 사용자가 셀프서비스로 쓸 내부 플랫폼을 제품처럼 만들고 운영)을 동시에 요구하는 자리입니다. AI Infrastructure 전반을 횡단하며 구축부터 운영 안정화·플랫폼화까지 직접 끌고 갈 수 있는 실행형 Core Engineer 역할입니다. 📌 해당 ​포지션으로 합류하신다면 인프라 통합 핵심 과제들을 실제로 구축하고 운영하게 됩니다. 해당 포지션은 노타의 모델 경량화 플랫폼(NetsPresso)과 On-device AI 사업, Nota Vision Agent 등 사내 R&D 과제가 안정적으로 구동되는 기반을 직접 책임지는 자리입니다. 설계 구축 검증 운영 장애 복구 거버넌스까지의 Full Cycle을 직접 끌고 가며, 같은 문제가 두 번 발생하지 않도록 Runbook·Checklist·Operating Standard를 자산으로 남기는 일이 핵심입니다. 또한 R&D 사용자가 인프라팀에 매번 요청하지 않고도 셀프서비스로 자원을 쓸 수 있도록, 운영 가능한 시스템을 넘어 사용 가능한 플랫폼으로 추상화하는 일까지 책임집니다. AI Workload는 일반 웹 서비스와 달리 대용량 GPU Memory, High-bandwidth Network, Multi-precision Inference, 6~12개월 주기의 Accelerator 세대 교체라는 고유한 제약을 갖습니다. 이와 같은 제약을 직접 다루며 운영 가능한 인프라를 만드는 과정에서, 폭넓고 깊이 있는 AI Platform & Systems Engineer 커리어를 확장할 수 있습니다. [팀의 주요 Mission] • GPU Self Service Platform: Hypervisor 기반 사내 공용 GPU Self Service Platform의 운영 안정화 및 고도화 (Quota·RBAC·Audit Log·FinOps·Idle Reclaim) • AI Infrastructure 확장: NVIDIA DGX Series Multi-node 도입·운영, NVA GPU Staging 구축, 신규 GPU/NPU 도입 및 IDC Power 인프라 운영·확장 대응 • Data Center Network 현대화: IDC 100G Backbone Cutover (Enterprise Switch 기반 vPC/MLAG Active-Active 구성), Branch Office Network 10/25/100G 고도화 • Distributed Storage: Ceph Cluster(S3/CephFS/RBD) 구축/운영, NAS Data Migration, Hypervisor 연동 • Security Compliance: ISO 27001 갱신, ISMS-P 기반 Cloud Data Management Platform, Vault Secret Lifecycle, SCA/SBOM Platform 운영 • Identity & Access: ZTNA(SASE 기반) + HA Bastion Platform (SSO 연동) • Observability: Zabbix & Prometheus/Grafana Integrated Dashboard, GPU Showback/Chargeback Pipeline • DevSecOps: Golden Image Factory, Container Image Build Standard CI/CD, Supply Chain Attack 차단 정책 • Local LLM Gateway: vLLM 기반 Local LLM Service Gateway 및 통합 Authentication/Logging • Edge Device Farm: 다양한 타깃 디바이스 Asset Management·Remote Control Portal, 차세대 AI 검증용 Edge Hardware 독립 인프라 [다루는 영역] • GPU·AI Accelerator Platform: Datacenter-grade(A100/H100/H200/B200/B300, DGX System), Workstation-grade(RTX PRO Ada & Blackwell Series), Consumer-grade(RTX 20/30/40/50 Series), Edge AI Device(Jetson Orin·Thor Series, Automotive SoC, Non-CUDA NPU 등) • AI Training·Serving Network/Storage: High-bandwidth Fabric(10~800G), RDMA for Distributed Training, Ceph base large volume Dataset·Model Artifact Storage • Access Control·Security·Audit: ZTNA, Bastion, Secret Lifecycle, AI Model Asset·Training Data 보호 관점의 Security Architecture, ISO 27001 / ISMS-P Compliance • Observability·DevSecOps: GPU Utilization, Model Serving Metrics, Training Job Tracking, Showback/Chargeback, Golden Image, Supply Chain Security • Edge Device Lab: 다양한 타깃 디바이스의 Asset Management, Remote Operations, Benchmarking 환경 🤓 팀의 메시지 우리는 단순히 장비를 붙이고 운영하는 인력이 아니라, 회사의 AI 인프라 기반을 실제로 설계하고 구축하고 검증하고 운영할 수 있는 시스템 엔지니어를 찾고 있습니다. 복잡한 환경 속에서도 구조를 만들고, 기준을 정하고, 운영 가능한 상태로 정착시키는 일에 보람을 느끼는 분이라면 잘 맞는 포지션입니다.

주요업무

• GPU Self-service Platform 운영 안정화·고도화 및 AI Training·Inference Workload 자원 운영 정책 수립 (Scheduling, MIG Partitioning, Multi-tenancy, Quota, Idle Reclaim) • Data Center·Branch Network 구축, 검증, 운영 — 10~800G High-bandwidth Backbone, RDMA/RoCE, vPC/MLAG Active-Active, Power·Rack Infrastructure 포함 • Ceph Distributed Storage(S3/CephFS/RBD) 구축·운영, Dataset·Model Artifact 공용 인프라(Training Data·Checkpoint·Model Registry Backend) 운영 • AI Asset Protection 관점의 Identity·Access Control·Security·Audit 체계 구축·운영 (Vault, Bastion, ZTNA), ISO 27001 / ISMS-P Compliance 대응 • Infrastructure Observability 구축 (Zabbix, Prometheus/Grafana, GPU Showback/Chargeback) 및 DevSecOps 운영 표준화 (Golden Image, CI/CD, SCA/SBOM) • Local LLM Service Gateway 인프라 운영 (vLLM 기반 Model Serving, 통합 Authentication·Logging) • Edge Device Farm 구축·운영 (Jetson Orin·Thor, Automotive SoC, 기타 NPU Board, Remote Control Portal 및 Asset Management) • 운영 문서화(Documentation), Runbook, Validation System, Governance Process 정착

자격 요건

다음 자격 요건중 4개 이상 경험자(경력 10년 이상) • GPU 또는 AI Accelerator가 포함된 Server 환경의 구축·운영 경험 — NVIDIA Driver·CUDA Stack 관리, GPU 자원 분배, Thermal·Power·Rack 설계 등 AI Workload 특유의 운영 이슈를 다뤄본 경험 • Public Cloud Production 운영 경험 — AWS / GCP / Azure 중 하나 이상에서 IaaS·Network·IAM·Cost Management를 운영한 경험 • Hypervisor·Virtualization Platform 2개 이상 실무 운영 경험 — OpenNebula, VMware ESXi/vSphere, OpenShift, Proxmox VE, KVM/QEMU, Hyper-V, Nutanix AHV 등 (Live Migration·HA·Storage Integration·PCIe Passthrough/SR-IOV 포함) • Datacenter-grade Network 구축·운영 경험 — 10~400G Backbone, vPC/MLAG, VLAN/VXLAN Design, Enterprise Switch 패밀리 중 하나 이상의 실무 경험 • Distributed Storage 또는 SDS 운영 경험 — Ceph(S3/CephFS/RBD), GlusterFS, MinIO, ZFS Cluster 등 중 하나 이상의 Production 운영 및 Data Migration·High Availability 설계 경험 • Kernel·Driver·Device Layer Debugging 경험 — Linux Troubleshooting을 넘어 GPU Driver 충돌, PCIe Topology Issue, NUMA·IRQ Tuning 등을 다뤄본 경험 • AI Workload성 장애 대응 경험 — Training Job Interruption, OOM, NCCL/Communication Library Issue, Distributed Training Synchronization Failure 등의 진단·복구 • AI Researcher·Engineer의 요구사항을 Infrastructure 언어로 번역해 풀어낸 경험 — "학습이 느려요" 를 NCCL Tuning·Storage IOPS·Network RDMA·CPU Bottleneck 중 어디인지 좁혀가는 능력 • 새로운 Accelerator 세대·AI Infrastructure Ecosystem 변화에 능동적으로 적응하며 운영 체계에 반영할 수 있는 분 • 해외 출장 및 여행에 결격 사유가 없는 분 (Vendor 미팅·해외 Data Center·R&D 파트너사 방문 등)

우대사항

다음 5개 영역 중 3개 이상 영역에서 실무 경험이 있는 분을 우대합니다. (각 영역 내 모든 항목을 충족할 필요는 없으며, 영역의 일부 경험으로도 인정됩니다.) [Platform & Provisioning] • 자체 Self-service IaaS/PaaS 또는 GPU Platform 구축·운영 경험, Hypervisor 기반 Cluster 운영 경험 • Bare-metal Provisioning — PXE/iPXE, Foreman, MAAS, OpenStack Ironic, Tinkerbell 등을 활용한 대규모 서버·GPU 노드 자동 프로비저닝 체계 구축·운영 • BMC·OOB 관리 — IPMI, Redfish, iDRAC, iLO, BMC Firmware Update, Out-of-Band 원격 복구·자동화 운영 • GPU Virtualization·Sharing — NVIDIA vGPU, MIG, GPU Passthrough, SR-IOV, Kubernetes Device Plugin [AI Workload Platform] • AI Model Serving·Training Platform — Kubernetes, vLLM/Triton/TGI, Ray, Slurm, Kubeflow, MLflow 등 • Local LLM 운영 — Open-model vLLM Serving, 통합 Gateway(Authentication·Logging·Routing) 구축 • AI Workload Observability — DCGM Exporter, Prometheus/Grafana, NVIDIA Nsight, Zabbix, GPU Metric 기반 알람 설계 [Network & FinOps] • High-performance Network·Data Center Infrastructure — InfiniBand/RoCE, NVLink/NVSwitch, 10~800G Switching, vPC/MLAG Active-Active, Power·Rack Design • GPU or Infrastructure FinOps — Showback/Chargeback, GPU Hourly Rate Cost Modeling, Mandatory Tagging, Spot·Reserved Instance Strategy [Security & Identity] • Security Compliance 실무 — ISO 27001 / ISMS-P 갱신·신규 인증, SCA/SBOM Platform 운영, Supply Chain Attack 대응 정책 수립 • Identity & Access Platform 운영 — Secret Management, ZTNA/SASE, OAuth·SSO Integration • DevSecOps 운영 — Golden Image Factory, Container Image Build CI/CD, SIEM Integration [Edge & Operations] • Edge Device 운영 — Jetson Orin·Thor, Automotive SoC, Embedded NPU 등 ARM 기반 Edge Linux 환경의 Provisioning·Remote Control·Asset Management 경험. Cross-compile Toolchain·Yocto/Buildroot·OTA Update 체계 운영 경험 우대 • 운영 안정화 — 장애 복구, DR Rehearsal, Cutover Validation, 운영 Runbook 정착 경험

채용절차

•서류 검토 -> 1차 인터뷰 -> 2차 인터뷰 -> 3차 인터뷰 ->처우 협의 -> 최종 선발 (절차 간에 추가적인 과제가 있을 수 있습니다.)

기타안내

📢 복지 및 혜택 • 노타는 재량근로제와 선택적 근로시간제를 시행하고 있습니다. • 자신의 일에만 집중할 수 있는 환경을 기본으로 하며 신규 입사 시 웰컴키트 제공을 비롯해 개인 선호 장비 구매 비용을 일정 한도 내에서 지원합니다. • 사무실에 다양한 간식을 매달 구비해 놓고 있으며, 저녁까지 근무하시는 날에는 저녁 식사 비용을 지원해 드립니다. • 도서 구매 지원, 해외 학회 세미나 참석 지원, 관련 분야 논문 작성 지원 등 개인의 업무 역량을 위해서라면 다양한 부분에서의 지원을 아끼지 않는 회사입니다. • 장기근속자에게 연차 외 휴가 및 선물을 제공하고 있습니다. 👀 지원 전, 확인해주세요! • 해당 공고는 상시 채용으로, 채용 완료 시 조기 마감될 수 있습니다. • 이력서 내 연봉정보 등 민감한 개인정보가 기재되어 있다면, 해당 서류는 검토되지 않을 수 있습니다. • 제출해 주신 내용 중 허위 사실이 있을 경우 채용이 취소될 수 있습니다. • 채용 전 레퍼런스 체크가 있음을 알려드립니다. • 최종 인터뷰 합격 시 별도로 처우를 협의합니다. • 입사 후 시용기간이 있으며, 이에 대한 처우는 차등을 두지 않음을 알려드립니다. • 국가보훈대상자 및 장애인은 관련 법규에 의거하여 우대합니다. • R&D 모든 포지션에서 전문연구요원, 산업기능요원으로 근무가 가능합니다. (단, 산업기능요원 현역 신규 편입의 경우 불가능) 🏙 근무지 대한민국 서울특별시 강남구 테헤란로 521 파르나스타워 16층
이 포지션에 필요한 전문분야/기술
Linux
Python
회사 로고
(주)노타
정보 보기
누적 투자 금액
570억원 이상
투자사
스틱벤처스, 한국산업은행, 미래에셋증권, 스톤브릿지벤처스, 인터베스트, 디에스투자파트너스, 비공개투자자, 엘비인베스트먼트, 카카오인베스트먼트, 디에스자산운용, 컴퍼니케이파트너스, 삼성벤처투자, 엘지씨엔에스, 팁스(TIPS), 블루포인트파트너스, 네이버 D2SF
리멤버에서 수집한 기업 정보입니다. 정보 수정이 필요할 경우, 아래 경로로 요청해 주세요.
리멤버 앱 > 더보기 > 1:1 문의
먼저 입사한 실무자에게 조언을 구해보세요
사용자가 커넥트에 입력한 정보를 기반으로 제공됩니다
company logo
(주)노타

[Infra] Senior System Engineer (AI Infrastructure)

시리즈 C
누적 투자 500억↑
51-300명
연봉협의
근무지서울특별시 강남구
경력10년 이상
학력학사 이상
마감일
채용 시 마감
이 공고를
주변에도 알려주세요