주요업무
역량과 프로젝트 필요에 따라 아래 트랙 중 하나 이상을 담당합니다!
트랙 A: LangGraph 오케스트레이션 & 워크플로
• LangGraph 노드(감지·계획·실행·검증)를 명시적 스키마, 재시도 로직, 에러 처리와 함께 설계·개선
• 에이전트 품질 측정을 위한 평가 프레임워크(셀프 체크·자동 리뷰·회귀 테스트) 구축
• 워크플로 관찰성, 디버깅 도구, 시뮬레이션 환경 구현
트랙 B: 프롬프트 엔지니어링 & 정책 시스템
• PromptEngine 내 프롬프트 템플릿과 정책 집행 경로를 통합하여 품질 유지하며 토큰 비용 절감
• 프로덕션 LLM 출력용 가드레일, 검증 규칙, 콘텐츠 안전 메커니즘 설계
• 프롬프트 diff 시각화 도구 및 A/B 테스팅 인프라 구축
트랙 C: 벡터 리트리벌 & 데이터 파이프라인
• 코드베이스 분석용 청킹·인덱싱·리트리벌 스택(ChunkEngine, CodebaseIndexer) 책임
• 코드와 문서에 최적화된 적응형 청킹 전략 및 재랭킹 플로우 설계
• 품질 지표(히트율·토큰 효율·드리프트 감지)를 자동 알림과 함께 구축
공통 책임 (모든 트랙)
• Chief Architect와 API 계약, 아키텍처 의사결정, 품질 게이트 협업
• 오프라인 개발용 모의 LLM 하네스 및 재현 가능한 테스트 픽스처 구축
• 시스템 설계 논의 및 인프라 기획 기여
[기대 성과]
트랙 A (LangGraph 오케스트레이션):
• 가시성이 확보된 결정적 LangGraph 실행, 감소한 재시도·에러 비율
• 재현 가능한 테스트 하네스 및 에이전트 워크플로 평가 프레임워크
• 워크플로 신뢰성 및 실행 추적성의 측정 가능한 개선
트랙 B (프롬프트 엔지니어링 & 정책):
• 출력 품질 유지·개선하며 하향 안정화된 프롬프트 비용 지표
• 문서화된 커버리지와 함께 프로덕션 준비된 가드레일 및 검증 시스템
• 프롬프트 최적화 및 품질 측정을 위한 A/B 테스팅 인프라
트랙 C (벡터 리트리벌 & 데이터):
• 자동 경보 및 드리프트 감지가 적용된 안정적 청킹/리트리벌 지표
• 재현 가능한 데이터 픽스처 및 인덱싱 전략 모범 사례 문서화
• 히트율·토큰 효율·컨텍스트 관련성의 측정 가능한 개선
[Role Overview]
Join as an AI engineer to build and refine core infrastructure for multi-agent workflows. Depending on your technical background and interests, you'll focus on one or more areas:
LangGraph orchestration, prompt engineering & policy systems, or vector retrieval & chunking pipelines. This is a hands-on role reporting directly to the Chief Architect, with clear ownership and growth potential.
[Reporting & Collaboration]
Direct Report: Chief Architect
Working Relationship: Collaborate closely with the architect on design decisions, sprint planning, and code reviews while owning your domain end-to-end
Peer Collaboration: Work with other AI engineers on cross-track integration -
orchestration engineers define context contracts, prompt engineers optimize LLM quality, and data engineers ensure reliable retrieval
[Key Responsibilities]
You will take ownership of one or more of the following tracks based on your strengths and project needs:
- Track A: LangGraph Orchestration & Workflows
Design and refine LangGraph nodes (detect, plan, execute, validate) with explicit schemas, retry logic, and error handling
Build evaluation frameworks (self-check, auto-review, regression tests) to measure agent quality Implement workflow observability, debugging tools, and simulation environments
- Track B: Prompt Engineering & Policy Systems
Consolidate prompt templates and policy enforcement paths in the PromptEngine to reduce token costs while maintaining quality
Design guardrails, validation rules, and content safety mechanisms for production LLM outputs
Build prompt diff visualizers and A/B testing infrastructure
- Track C: Vector Retrieval & Data Pipelines
Own the chunking, indexing, and retrieval stack (ChunkEngine, CodebaseIndexer) for codebase analysis
Design adaptive chunking strategies and reranking flows optimized for code and documentation
Instrument quality metrics (hit rate, token efficiency, drift detection) with automated alerts
[Cross-Cutting Responsibilities (All Tracks)]
Collaborate with Chief Architect on API contracts, architecture decisions, and quality gates
Build mock LLM harnesses and reproducible test fixtures for offline development
Contribute to system design discussions and infrastructure planning
[Success Indicators]
For Track A (LangGraph Orchestration):
-Deterministic LangGraph runs with clear observability and reduced retry/error rates
-Reproducible test harnesses and evaluation frameworks for agent workflows
-Measurable improvements in workflow reliability and execution traceability
For Track B (Prompt Engineering & Policy):
-Prompt cost metrics trending down while maintaining or improving output quality
-Production-ready guardrails and validation systems with documented coverage
-A/B testing infrastructure for prompt optimization and quality measurement
For Track C (Vector Retrieval & Data):
-Stable chunk/retrieval metrics with automated alerts and drift detection
-Reproducible data fixtures and documented best practices for indexing strategies
-Measurable improvements in hit rate, token efficiency, and context relevance