I've Built Over 100 AI Agents: Only 1% of Builders Know These 6 Principles

AI 시스템 구축을 위한 6가지 원칙

본 영상에서는 AI 시스템 구축 시 반드시 고려해야 할 6가지 핵심 원칙을 제시합니다. 이 원칙들은 100개의 에이전트부터 단 하나의 에이전트까지, 규모에 관계없이 적용 가능하며, 기존의 전통적인 소프트웨어 엔지니어링 방식과는 차별화되는 AI 시스템만의 고유한 특성을 반영합니다.

1. 상태 기반 지능 (Stateful Intelligence) [0:32]

핵심: AI 시스템은 상태(state)를 유지하고 맥락(context)을 보존해야 합니다.

기존 방식과의 차이: 전통적인 시스템은 "무상태(stateless)"를 지향하여 각 요청을 독립적으로 처리하는 것이 확장성에 유리했습니다. 하지만 AI 시스템은 이전 상호작용의 맥락을 기억하고 학습된 행동을 유지해야 합니다.
중요성: OpenAI의 최신 API가 상태 보존 기능을 추가한 이유도 AI 시스템의 맥락 보존이 얼마나 중요한지를 보여줍니다. 맥락을 지능적으로 유지할 때, 동일한 정보를 반복적으로 보내는 낭비(resending the same tokens)를 줄이고 전반적인 시스템 효율성을 높일 수 있습니다.
실천 방안: 에이전트에게 의미 있는 방식으로 상태를 인식하고 보존하도록 설계해야 합니다. 이는 곧 효과적인 맥락 엔지니어링(context engineering)으로 이어집니다.

2. 불확실성 제한 (Bounded Uncertainty) [1:32]

핵심: 확률적(probabilistic)인 AI 모델의 불확실성을 결정론적(deterministic)인 요소로 제한해야 합니다.

기존 방식과의 차이: 전통적인 시스템은 동일한 입력에 대해 항상 동일한 출력을 보장하는 결정론적이었습니다. 하지만 LLM과 같은 AI 모델은 확률적이기에 동일한 입력에도 다른 결과가 나올 수 있습니다.
실천 방안:
- LLM의 temperature 값을 0으로 낮추거나, API 호출 방식을 조정하여 예측 가능성을 높입니다.
- 입력을 극도로 정밀하게 정의하고 항상 동일한 순서로 전달합니다.
- 확률적 코어 위에 결정론적 다리(deterministic bridges)를 구축하는 엔지니어링이 필요합니다.
엔지니어링의 변화:
- 운영 후 QA 투자 증대: 모델 드리프트, 입력 변화, 모델 교체 등으로 인해 발생할 수 있는 예측 불가능한 상황을 감지하고 측정해야 합니다.
- 확률적 지표 이해: 데이터 과학적 관점에서 생산 환경에서 발생하는 확률적 지표를 이해하고 측정하는 능력이 중요해집니다.
- 지속적인 유지보수: 단순히 결정론적 버그를 수정하는 것을 넘어, 시간이 지남에 따라 변화하는 모델과 맥락 속에서 불확실성을 지속적으로 제한하는 노력이 필요합니다.

3. 빠른 실패 설계 (Fail Fast Design) [4:08]

핵심: AI 시스템의 미묘하고 탐지하기 어려운 실패 모드를 고려하여 실패를 조기에 감지하고 대응해야 합니다.

기존 방식과의 차이: 전통적인 시스템은 명확한 오류로 인해 시스템이 중단되면 빠르게 복구하면 되었습니다. 하지만 AI는 환각(hallucination)이나 모델 드리프트(drifting)와 같이 기능은 유지되지만 결과가 완전히 틀리는 방식으로 실패할 수 있습니다.
실천 방안:
- 지능적인 실패 감지: 시스템 상태뿐만 아니라 추론 품질(reasoning quality)을 모니터링해야 합니다.
- 탐지하기 어려운 미묘한 실패: 시스템이 완전히 다운되지 않고 기능은 하지만 추론 품질이 저하되는 상황에 대비해야 합니다.
엔지니어링의 변화:
- 단순히 시스템 다운을 막는 것에서 나아가, 미묘한 품질 저하를 감지하고 관리하는 데 집중해야 합니다.
- 전통적인 "빠른 실패"에서 "미묘한 실패" 시대로 변화를 인식해야 합니다.

4. 역량 기반 라우팅 (Capability-Based Routing) [6:11]

핵심: 동일한 노드에 동일한 요청을 분배하는 방식에서 벗어나, 요청의 복잡성과 AI의 역량에 따라 요청을 지능적으로 라우팅해야 합니다.

기존 방식과의 차이: 전통적인 시스템은 모든 노드가 동일한 요청을 처리할 수 있었지만, AI 시스템은 동일한 요청이라도 극심한 컴퓨팅 요구량 차이를 가질 수 있습니다 (예: 수천 토큰 처리 vs. 매우 효율적인 요청).
실천 방안:
- 역량 기반 라우팅: 요청의 복잡성, AI가 문제 영역에 대해 얼마나 확신하는지 등을 고려하여 적절한 노드로 라우팅합니다.
- 작업 복잡성 고려: AI가 요청을 이해하는 데 얼마나 많은 토큰을 소모해야 하는지에 따라 라우팅 방식을 달리해야 합니다.
엔지니어링의 변화:
- 일률적인 부하 분산에서 벗어나, 노드의 차별화된 역량을 이해하고 스마트한 라우팅 결정을 내리는 것이 중요합니다.

5. 이진 건강 상태 이상의 복합적 상태 (Beyond Binary Health State) [7:13]

핵심: 시스템이 "정상" 또는 "비정상"의 이진 상태가 아니라, 복합적인 중간 상태를 가질 수 있음을 인지해야 합니다.

기존 방식과의 차이: 전통적인 시스템은 정상(up) 또는 다운(down)의 명확한 상태를 가졌습니다. 하지만 다중 에이전트 시스템에서는 부분적으로 작동하거나, 일부 에이전트 간의 통신 문제는 있지만 전체 기능은 유지되는 등 다양한 복합 상태가 존재할 수 있습니다.
실천 방안:
- 추론 품질 및 에이전트 간 통신 상태 모니터링: 단순한 시스템 가용성 외에 에이전트 간의 상호작용, 추론의 질, 결과물의 품질을 측정하고 이해해야 합니다.
- 감사 추적(audit trace)의 중요성: 에이전트가 어디에서 오류를 발생시키는지, 추론 과정에 문제가 없는지 등을 파악하기 위해 상세한 감사 추적이 필수적입니다.
엔지니어링의 변화:
- "50가지 회색 음영"처럼 복잡한 상태 속에서 시스템 건강 상태를 측정하고 관리하는 능력이 요구됩니다.
- 감사 가능성(auditability)의 기준이 훨씬 높아집니다.

6. 지속적인 입력 유효성 검증 (Continuous Input Validation) [9:17]

핵심: 초기 입력 유효성 검증만으로는 부족하며, 대화 상태 throughout the conversation state를 지속적으로 검증해야 합니다.

기존 방식과의 차이: 전통적인 시스템은 게이트웨이에서 한 번만 입력 유효성 검증을 수행했습니다. 하지만 AI 시스템은 누적된 맥락에 따라 행동이 달라지므로, 매 단계마다 검증이 필요합니다.
실천 방안:
- 대화의 각 턴(turn)을 잠재적인 검증 단계로 간주하고, 대화 상태가 올바르게 유지되고 있는지 확인해야 합니다.
- 마치 연속적인 엣지(continuous edge)처럼 각 단계에서 검증 체크포인트를 두는 것이 중요합니다.
디버깅의 어려움: 지속적인 검증 없이는 시스템이 잘못된 경로로 나아가는 지점을 파악하고 디버깅하기 매우 어렵습니다.

결론 및 핵심 요약

AI 시스템 구축은 전통적인 소프트웨어 설계보다 훨씬 복잡하며, 전통적인 엔지니어링 원칙은 AI 시대에 그대로 적용되지 않습니다.

하이브리드 시스템: 많은 경우, 전통적인 결정론적 시스템과 AI 시스템을 결합한 하이브리드 시스템을 구축해야 합니다.
새로운 원칙의 필요성: AI 시스템의 확장을 위해서는 새로운 원칙, 새로운 이해, 새로운 교육이 필요합니다.
궁극적인 목표: 이러한 6가지 원칙을 종합적으로 적용하면 실제로 작동하는 에이전트 시스템을 구축할 가능성이 높아집니다.

주요 6가지 원칙 요약:

상태 기반 지능: 맥락 보존은 필수입니다.
불확실성 제한: 확률적 모델의 예측 불가능성을 제어해야 합니다.
지능적인 실패 감지: 미묘하고 탐지하기 어려운 AI 실패에 대비해야 합니다.
역량 기반 라우팅: 요청의 복잡성에 따라 요청을 지능적으로 분배해야 합니다.
복합적인 시스템 상태 관리: 단순한 이진 상태를 넘어선 다양한 중간 상태를 이해해야 합니다.
지속적인 입력 유효성 검증: 대화의 모든 단계에서 상태를 검증해야 합니다.