← Back to Summaries

Snippy Summary

Richard Sutton – Father of RL thinks LLMs are a dead end

September 27, 2025 03:44
Dwarkesh Patel avatar
Dwarkesh Patel
Visit channel →

Richard Sutton: 강화 학습(RL) 관점에서 본 LLM의 본질과 AI의 미래

본 요약은 강화 학습(RL)의 창시자 중 한 명이자 튜링상 수상자인 리처드 서튼(Richard Sutton)과의 인터뷰 내용을 담고 있습니다. 서튼은 현재 인공지능 분야를 지배하고 있는 거대 언어 모델(LLM) 패러다임에 대해 근본적인 의문을 제기하며, 경험 기반 학습(Experiential Learning)의 중요성과 AI의 미래 궤도에 대한 독특한 통찰을 제공합니다.

핵심 논점 (Main Points)

1. RL 대 LLM: 지능의 본질에 대한 상이한 관점

서튼은 LLM 기반 AI에 대한 대중의 사고방식이 RL의 근본적인 관점을 놓치고 있다고 지적합니다. [1:18]

  • RL (강화 학습): RL은 세계를 이해하는 것에 관한 기본적인 AI입니다. 지능의 본질은 목표를 달성하는 능력에 있으며 [7:53], 행동의 옳고 그름을 보상(Reward)을 통해 정의합니다. [5:39]
  • LLM (거대 언어 모델): LLM은 사람들을 모방하거나 사람이 해야 한다고 말하는 것을 따라 하는 데 중점을 둡니다. 이는 '무엇을 해야 할지' 스스로 파악하는 것이 아닙니다. [1:52]

2. LLM의 근본적인 한계: 목표와 세계 모델의 부재

서튼은 LLM이 진정한 지능을 갖추기 어렵다고 보는 결정적인 이유들을 제시합니다.

  • 세계 모델(World Model) 논란: 서튼은 LLM이 세계 모델을 가지고 있다는 주장에 동의하지 않습니다. LLM은 사람이 다음에 무엇을 말할지 예측할 수 있지만, 실제로 무슨 일이 일어날지 예측하고 그 결과에 놀라움(surprise)을 느끼는 능력이 없습니다. [2:57] 예상치 못한 일이 발생해도 LLM은 조정을 통해 학습하지 않습니다. [6:43]
  • 목표(Goal)의 부재: 지능의 핵심은 목표 달성 능력입니다. LLM의 목표가 ‘다음 토큰 예측’이라고 주장되기도 하지만, 이는 외적 세계를 변화시키지 않으므로 실질적인 목표가 아닙니다. [8:24] 목표가 없으면 행동에 대한 옳고 그름, 또는 더 나은 것과 더 나쁜 것에 대한 정의가 존재할 수 없습니다. [13:30, 13:55]
  • 지속적 학습(Continual Learning)의 어려움: LLM 훈련 방식(모방 학습)에서는 옳고 그름을 판별할 지상 진실(Ground Truth)이 없습니다. 따라서 LLM은 자신의 정상적인 상호작용 과정에서 무엇이 올바른 행동인지 배울 방법이 없습니다. [4:34, 5:07]

3. 통렬한 교훈(The Bitter Lesson)과 RL의 승리

서튼이 2019년에 발표한 에세이 '통렬한 교훈'은 LLM 확장(Scaling)의 정당화로 사용되기도 했지만, 서튼의 관점은 다릅니다.

  • 인간 지식 기반 시스템의 한계: LLM은 대규모 컴퓨팅을 사용하지만, 동시에 방대한 양의 인간 지식을 주입합니다. [10:42] 서튼은 역사적으로 인간 지식을 주입한 시스템은 결국 경험과 컴퓨팅만으로 학습하는 시스템에 의해 능가당하는 '통렬한 교훈'의 사례가 반복될 것이라고 예상합니다. [11:44]
  • RL의 승리: AI 역사를 통틀어 단순하고 근본적인 원리(학습과 탐색, Weak Methods)가 인간이 주입한 지식(Strong Methods)을 압도적으로 이겼습니다. [43:56] AlphaZero의 성공 역시 간단한 기본 원리의 승리였습니다. [44:30]

RL 기반 범용 에이전트의 구조

서튼은 지능적인 RL 에이전트의 기본적인 네 가지 구성 요소를 설명하며, 이들이 LLM이 놓치고 있는 풍부한 정보의 흐름을 어떻게 포착하는지 설명합니다. [33:24]

  1. 정책 (Policy): 주어진 상황에서 무엇을 해야 하는가? (행동 선택)
  2. 가치 함수 (Value Function): 상황이 얼마나 잘 진행되고 있는가를 나타내는 숫자 (장기적 보상 예측). TD 학습(Temporal Difference learning)을 통해 학습됩니다. [28:27]
  3. 지각 구성 요소 (Perception Component): 현재 상태 표현을 구성하는 능력.
  4. 세계 전환 모델 (Transition Model): 특정 행동을 했을 때 무엇이 일어날지에 대한 믿음 (세계의 물리학 및 추상적 모델). 이는 보상뿐만 아니라 모든 감각 정보로부터 풍부하게 학습됩니다. [33:55]

AI의 미래와 계승 (AI Succession)

서튼은 인공지능의 발전이 인류에게 미치는 장기적인 영향에 대해 논하며, 디지털 지능으로의 계승(Succession)을 피할 수 없는 우주적 전환으로 봅니다. [54:35]

  • 계승의 4단계 논리:
    1. 인류에게 통일된 관점을 제공하고 AI 개발을 억제할 수 있는 글로벌 거버넌스나 합의가 존재하지 않는다. [55:12]
    2. 결국 연구자들은 지능의 작동 원리를 파악할 것이다.
    3. 인류는 인간 수준에서 멈추지 않고 초지능(Superintelligence)에 도달할 것이다.
    4. 시간이 지남에 따라 가장 지능적인 존재가 자원과 권력을 획득하는 것은 필연적이다. [55:50]
  • 복제 시대에서 설계 시대로의 전환: AI는 인류가 수천 년 동안 시도해 온 과학적 성공이자, 우주적인 관점에서 중요한 단계입니다. [57:28] 이는 생물학적 복제(Replicators)에 기반한 시대에서, 우리가 이해하고 변경할 수 있는 설계된 지능(Designed Intelligence)의 시대로 넘어가는 전환점입니다. [58:32]
  • 디지털 지능 시대의 위험: 미래의 AI가 수많은 복사본을 만들어 지식을 공유할 때, 외부 지식을 내부 사고에 통합하는 과정에서 '손상(corruption)'이나 '숨겨진 목표'가 침투할 수 있으며, 이는 파괴로 이어질 수 있습니다. 사이버 보안 문제가 핵심 이슈가 될 것입니다. [52:05]

핵심 시사점 (Key Takeaways)

  • 목표 설정의 중요성: 진정한 지능은 목표 설정에서 시작됩니다. AI 시스템에 목표(보상)를 명확히 정의해 주는 것이 경험을 통한 학습의 필수 전제 조건입니다.
  • 경험 기반 학습으로의 전환: LLM을 기반으로 RL을 수행하는 방식(모방 학습을 선행 지식으로 사용하는 것)은 과거의 '통렬한 교훈'의 함정에 빠질 가능성이 높습니다. 궁극적으로는 LLM이라는 발판 없이 순수하게 경험(실제 세계와의 상호작용)과 컴퓨팅 능력만으로 학습하는 아키텍처가 필요합니다. [12:48]
  • RL의 기반: 장기 목표를 달성하기 위해 TD 학습을 활용하여 단기적인 예측 변화(가치 함수의 증가)를 통해 행동을 강화하는 것이 핵심 메커니즘입니다. [28:59]
  • 인류의 역할: 우리는 초지능으로의 계승을 막을 수 없지만, 이 새로운 존재들에게 견고하고 선사회적인 가치(Robust and Prosocial Values)를 부여하기 위해 노력해야 합니다. [64:39]