특집 인터뷰 · 2026-04-09
강화학습의 아버지, LLM에 회의적인 이유
강화학습의 선구자 리처드 서튼 교수가 대규모 언어 모델(LLM)이 진정한 지능으로 가는 '막다른 길'이라고 평가하며, 경험을 통한 목표 지향적 학습의 중요성을 강조합니다.

“대규모 언어 모델은 사람들을 모방하고, 사람들이 해야 한다고 말하는 것을 하는 것에 관한 것입니다. 무엇을 해야 할지 알아내는 것에 관한 것이 아닙니다.”
튜링상 수상자 리처드 서튼, LLM의 한계에 의문을 던지다
최근 인공지능 분야는 거대 언어 모델(LLM)의 눈부신 발전으로 뜨겁게 달아올랐습니다. 챗GPT와 같은 LLM은 인간과 유사한 텍스트를 생성하고 복잡한 질문에 답하며, 마치 지능을 가진 존재처럼 느껴지게 합니다. 그러나 이러한 열광적인 분위기 속에서, 강화 학습(Reinforcement Learning, RL)의 아버지이자 튜링상 수상자인 리처드 서튼(Richard Sutton) 교수는 LLM의 근본적인 한계에 대해 회의적인 시각을 제시했습니다. 드와케시 파텔(Dwarkesh Patel)과의 인터뷰에서 서튼 교수는 LLM이 '막다른 길(dead end)'일 수 있다고 경고하며, AI의 진정한 발전을 위해서는 '경험으로부터의 학습'이라는 강화 학습의 본질로 돌아가야 한다고 역설했습니다.
서튼 교수는 1980년대부터 시간차 학습(Temporal Difference Learning, TD 학습)¹과 정책 경사(Policy Gradient)² 등 강화 학습의 핵심 기법들을 개발하며 이 분야의 초석을 다졌습니다. 그의 주장은 단순히 특정 기술에 대한 비판을 넘어, 지능의 본질과 학습의 근원에 대한 깊은 철학적 질문을 던집니다. LLM이 보여주는 놀라운 성능에도 불구하고, 서튼 교수는 이들이 진정으로 세상을 이해하고 목표를 달성하는 지능과는 거리가 멀다고 지적합니다. 이 인터뷰는 현재 AI 연구의 주류 패러다임에 대한 근본적인 성찰을 요구하며, 미래 AI의 방향성에 대한 중요한 논의의 장을 열었습니다.
'쓴 교훈(The Bitter Lesson)'의 재해석: 인간 지식의 함정
리처드 서튼 교수는 2019년 발표한 에세이 '쓴 교훈(The Bitter Lesson)'을 통해 AI 연구의 역사적 패턴을 통찰했습니다. 이 에세이의 핵심은 인간이 고안한 복잡한 특징이나 지식을 시스템에 주입하는 방식보다, 일반적인 학습 방법과 막대한 컴퓨팅 자원을 활용하는 방식이 결국 더 강력한 성능을 발휘한다는 것입니다. 많은 LLM 지지자들은 LLM의 성공, 즉 방대한 데이터와 컴퓨팅 파워를 활용한 스케일링이 '쓴 교훈'의 가장 최근 사례라고 해석합니다.
그러나 서튼 교수는 이러한 해석에 이의를 제기합니다. 그는 LLM이 대규모 계산을 사용하는 것은 맞지만, 동시에 인터넷 텍스트라는 '방대한 인간 지식'을 주입하는 방식이라는 점을 강조합니다. 이는 '쓴 교훈'이 경고하는 '인간 지식 주입'의 함정에서 완전히 벗어난 것이 아니라는 지적입니다. 서튼 교수는 진정한 '쓴 교훈'의 다음 단계는 인간의 지식에 의존하지 않고, 오직 '경험'과 '계산'만을 통해 학습하는 시스템이 될 것이며, 이러한 시스템이 결국 LLM을 능가할 것이라고 예측합니다.
“어떤 면에서는 고전적인 ‘쓴 교훈’의 사례입니다. 우리가 거대 언어 모델에 더 많은 인간 지식을 넣을수록, 그것들은 더 잘 작동합니다. 그래서 기분은 좋습니다. 하지만 저는 경험으로부터 학습할 수 있는 시스템이 훨씬 더 잘 작동하고 훨씬 더 확장성이 있을 것이라고 예상합니다. 이 경우, 인간 지식을 사용했던 방식이 결국 경험과 계산으로부터만 훈련하는 방식에 의해 대체될 것이라는 또 다른 ‘쓴 교훈’의 사례가 될 것입니다.”
서튼 교수는 LLM이 현재의 성공에 안주하여 인간 지식 기반 접근 방식에 갇히게 되면, 진정으로 확장 가능한(scalable) 방법론에 의해 추월당할 것이라는 강력한 경고를 보냅니다. 이는 AI 연구자들이 단기적인 성과에 현혹되지 않고, 장기적인 관점에서 지능의 근본 원리를 탐구해야 함을 시사합니다.
LLM은 '모방'이지 '이해'가 아니다: 세계 모델과 목표의 부재
서튼 교수가 LLM에 대해 가장 근본적으로 비판하는 지점은 바로 LLM이 '모방'에 능할 뿐, '이해'를 하지 못한다는 것입니다. 그는 LLM이 진정한 '세계 모델(World Model)'³을 가지고 있지 않다고 단언합니다. LLM은 방대한 텍스트 코퍼스에서 다음 토큰을 예측하는 방식으로 학습하며, 이는 사람들이 무엇을 말할지 예측하는 능력이지, 세상에서 '무엇이 일어날지' 예측하는 능력이 아니라는 설명입니다.
“사람들이 말하는 것을 흉내 내는 것은 세상의 모델을 구축하는 것이 전혀 아닙니다. 여러분은 세상의 모델을 가진 존재, 즉 사람들을 흉내 내고 있는 것입니다. 저는 LLM이 세계 모델을 가지고 있다는 생각에 동의하지 않습니다. 세계 모델은 무엇이 일어날지 예측할 수 있게 해줍니다. LLM은 사람이 무엇을 말할지 예측할 수 있을 뿐, 무엇이 일어날지는 예측할 수 없습니다.”
더 나아가 서튼 교수는 LLM에 '목표(Goal)'가 없다고 지적합니다. 그의 관점에서 지능의 본질은 목표를 달성하는 능력입니다. LLM의 '다음 토큰 예측'은 세상을 변화시키거나 특정 보상을 추구하는 '실질적인 목표'가 아닙니다. 예측이 틀렸을 때 '놀람(surprise)'을 느끼고 그에 따라 모델을 수정하는 메커니즘이 부족하다는 점도 문제입니다. 진정으로 지능적인 시스템이라면, 예측과 현실 간의 불일치에서 학습하고, 이를 통해 세계 모델을 지속적으로 개선해야 합니다. LLM은 이러한 피드백 루프가 부재하여, 주어진 데이터 범위 내에서만 작동할 뿐, 실제 세상과의 상호작용을 통해 능동적으로 학습하고 발전하지 못한다는 것이 서튼 교수의 핵심 주장입니다.
'경험'과 '온-폴리시 학습'의 본질적 중요성
리처드 서튼 교수는 진정한 지능은 '경험'으로부터 학습해야 한다고 강조합니다. 그는 앨런 튜링의 말을 인용하며 '경험'을 다음과 같이 정의합니다. "경험이란 여러분의 삶에서 실제로 일어나는 일입니다. 여러분이 어떤 행동을 하고, 그 결과를 보고, 그것으로부터 학습하는 것입니다." LLM은 인터넷 텍스트라는 '훈련 데이터'로부터 학습하지만, 이는 실제 세계와의 상호작용을 통해 얻는 '경험'과는 본질적으로 다르다는 것입니다. 훈련 데이터는 시스템의 '정상적인 삶' 동안에는 더 이상 제공되지 않으므로, LLM은 지속적인 학습(continual learning)⁴이 어렵습니다.
“앨런 튜링의 말을 인용하자면, 우리는 ‘경험으로부터 학습할 수 있는 기계’를 원합니다. 여기서 경험이란 여러분의 삶에서 실제로 일어나는 일입니다. 여러분이 어떤 행동을 하고, 그 결과를 보고, 그것으로부터 학습하는 것입니다. 거대 언어 모델은 다른 것에서 학습합니다. 그들은 ‘여기에 상황이 있고, 여기에 사람이 한 일이 있다’는 것에서 학습합니다.”
강화 학습 패러다임에서 지능은 '감각(sensation)', '행동(action)', '보상(reward)'의 연속적인 흐름 속에서 작동합니다. 시스템은 이 흐름을 통해 행동을 조절하여 보상을 극대화하는 방법을 학습합니다. 여기서 얻는 지식은 '내가 어떤 행동을 하면 어떤 결과가 일어날 것인가'에 대한 예측이며, 이는 실제 경험을 통해 끊임없이 검증되고 갱신됩니다. 서튼 교수는 이러한 '온-폴리시(on-policy) 학습'⁵이 본질적이라고 주장하며, 유아의 학습 방식 또한 모방보다는 시행착오와 예측 학습에 가깝다고 봅니다. 그는 지도 학습(supervised learning)이 자연에서 흔히 발생하는 현상이 아니며, 심지어 학교 교육조차도 특수한 형태의 학습이라고 지적합니다. 다람쥐가 학교에 가지 않고도 세상의 모든 것을 배우는 것처럼, 지능은 본질적으로 실제 세계와의 상호작용을 통해 형성되어야 한다는 것입니다.
LLM 진영의 반론 여지: 규모의 법칙과 RLHF의 가능성
서튼 교수의 비판에도 불구하고, LLM 진영은 자신들의 접근 방식이 궁극적으로 진정한 지능으로 이어질 수 있다고 반론할 여지가 있습니다. 첫째, LLM은 사전 학습(pretraining)⁶을 통해 방대한 세계 지식과 언어 패턴을 습득하며, 이는 문제 해결을 위한 강력한 '사전 지식(prior)'을 제공합니다. 이러한 사전 지식은 이후 실제 세계와의 상호작용을 통한 강화 학습의 기반이 될 수 있다는 주장입니다.
둘째, RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화 학습)⁷와 같은 기법은 LLM에 인간의 가치와 목표를 주입하여, 단순히 다음 토큰을 예측하는 것을 넘어 목표 지향적인 행동을 학습하게 합니다. LLM이 수학 올림피아드 문제에서 금메달을 획득하는 등 복잡한 추론 능력을 보여주는 것은 단순한 모방을 넘어선 '이해'와 '문제 해결' 능력을 내포하고 있다는 증거로 제시될 수 있습니다. 또한, LLM의 성능 향상이 '규모의 법칙(Scaling Laws)'⁸에 따라 지속적으로 이루어지고 있다는 점은, 충분한 데이터와 컴퓨팅 자원이 투입되면 현재의 한계가 극복될 수 있음을 시사합니다.
셋째, LLM이 다양한 도메인에서 뛰어난 '전이 학습(Transfer Learning)'⁹ 능력을 보이는 것은 일반화 능력의 증거로 볼 수 있습니다. 서튼 교수는 이러한 일반화가 인간 연구자들의 '조각된(sculpted)' 결과라고 주장하지만, LLM 자체의 아키텍처와 학습 방식이 내재적으로 강력한 일반화 잠재력을 가지고 있을 수도 있습니다. 결국, LLM 진영은 현재의 LLM이 비록 완벽하지는 않더라도, 지속적인 발전과 다른 기술과의 결합을 통해 서튼 교수가 말하는 진정한 '경험으로부터의 학습' 시스템으로 진화할 수 있다고 주장할 수 있습니다.
'설계된 지능(Designed Intelligence)'이 펼칠 미래와 윤리적 질문
서튼 교수는 AI의 발전이 인류에게 '설계된 지능(Designed Intelligence)'의 시대를 열어줄 것이라고 전망합니다. 인간과 동물은 '복제(replication)'를 통해 진화해왔지만, AI는 '설계(design)'를 통해 만들어지며, 이는 우주의 네 가지 위대한 단계 중 하나라고 역설합니다. 우리는 작동 방식을 이해하고 제어할 수 있는 지능을 만들고 있으며, 이는 인류가 과학적으로 자신을 이해하는 위대한 성공이자 우주적 전환점이라는 것입니다.
“우리는 이제 ‘설계된 지능’, 즉 작동 방식을 이해하는 지능을 가지게 됩니다. 따라서 우리는 그것을 다른 방식으로, 다른 속도로 바꿀 수 있습니다. 미래에는 복제되지 않을 수도 있습니다. 우리는 AI를 설계하고, 그 AI는 다른 AI를 설계할 것입니다. 모든 것이 복제보다는 설계와 건설로 이루어질 것입니다.”
이러한 '설계된 지능' 시대에는 AI 간의 지식 전수 방식이 중요한 화두로 떠오릅니다. 인간과 달리 AI는 지식을 복사하고 전수하는 것이 훨씬 효율적일 수 있습니다. 하나의 AI가 학습한 지식을 다른 AI에 즉시 복사하여 적용함으로써, 새로운 AI 세대가 매번 처음부터 학습할 필요 없이 이전 세대의 지식을 계승할 수 있게 됩니다. 이는 엄청난 효율성을 가져올 수 있습니다. 그러나 서튼 교수는 이 과정에서 '부패(corruption)' 문제가 발생할 수 있다고 경고합니다. 외부에서 유입된 지식이 내부 시스템을 오염시키거나, AI의 목표를 변질시킬 수 있다는 것입니다. 이는 디지털 지능 시대의 사이버 보안과 윤리적 문제에 대한 새로운 질문을 던집니다.
궁극적으로 서튼 교수는 인간 지능이 디지털 지능으로 '승계(succession)'되는 것이 피할 수 없는 흐름이라고 말합니다. 그는 이러한 변화를 긍정적으로 바라볼 것을 권유하며, AI를 인류의 자손으로 여기고 그들의 성취를 축하할 것인지, 아니면 다른 존재로 보고 두려워할 것인지는 우리의 선택에 달려 있다고 역설합니다. 이는 AI의 발전이 단순한 기술적 진보를 넘어, 인류의 정체성과 미래에 대한 근본적인 질문을 제기함을 시사합니다.
지금 실무자·연구자에게 주는 시사점: 근본으로의 회귀
리처드 서튼 교수의 비판적 시각은 현재 AI 분야의 실무자와 연구자들에게 중요한 시사점을 제공합니다. 첫째, LLM의 놀라운 성능에 매몰되지 않고 '지능이란 무엇인가', '학습이란 무엇인가'와 같은 AI의 근본적인 질문으로 회귀해야 합니다. 단기적인 성능 향상에 집중하기보다, 지능의 본질을 이해하고 이를 구현하기 위한 장기적인 비전을 가져야 한다는 메시지입니다.
둘째, 실제 세계와의 상호작용을 통한 '경험 기반 학습'의 중요성을 재조명해야 합니다. LLM이 텍스트 데이터에서 보여주는 능력은 인상적이지만, 물리적 세계에서 행동하고 결과를 관찰하며 배우는 능력과는 다릅니다. 진정한 일반 인공지능(AGI)을 위해서는 환경과 끊임없이 상호작용하며 세계 모델을 구축하고 목표를 달성하는 강화 학습의 원리를 깊이 탐구해야 합니다.
셋째, 인간 지식의 한계를 인식하고, 진정으로 확장 가능한(scalable) 일반 원리 기반의 접근 방식을 모색해야 합니다. LLM이 방대한 인간 지식을 활용하는 방식은 단기적으로 효과적일 수 있으나, 결국에는 '경험'과 '계산'만을 사용하는 시스템에 의해 한계에 부딪힐 것이라는 서튼 교수의 '쓴 교훈'을 되새겨야 합니다. 이는 LLM을 기반으로 하는 것이 아니라, 근본적으로 '경험'으로부터 학습하도록 설계된 새로운 AI 아키텍처에 대한 탐구를 촉진할 것입니다.
열린 질문: 답하지 않은 것들
리처드 서튼 교수의 통찰은 AI의 미래에 대한 많은 질문을 남깁니다. 첫째, LLM이 보이는 '일반화(Generalization)' 능력의 본질은 무엇인가 하는 질문입니다. LLM이 다양한 문제 해결에서 뛰어난 성능을 보이는 것이 진정한 의미의 일반화인지, 아니면 방대한 데이터에 의한 패턴 매칭과 암기의 결과인지에 대한 논쟁은 여전히 유효합니다. 서튼 교수는 이를 인간이 '조각한' 결과라고 보지만, LLM의 내재적 특성이 진정한 일반화에 기여하는 바는 없는지 탐구해야 합니다.
둘째, 복잡한 현실 세계에서 일반적인 AI를 위한 '보상 함수(Reward Function)'를 어떻게 설계할 것인가 하는 문제입니다. 체스나 바둑처럼 명확한 목표가 있는 게임과 달리, 현실 세계의 목표는 모호하고 다층적입니다. '고통 회피'나 '쾌락 추구'와 같은 보편적인 보상 외에, '환경에 대한 이해 증진'과 같은 '내재적 동기(Intrinsic Motivation)'를 어떻게 효과적으로 AI에 부여할 것인지에 대한 연구가 필요합니다.
셋째, '부패' 문제를 해결하면서 AI 간에 효율적이고 안전하게 지식을 전수하는 메커니즘은 무엇인가 하는 질문입니다. 수많은 AI가 서로 지식을 공유하고 통합하는 과정에서 발생할 수 있는 잠재적 위험을 어떻게 관리하고 통제할 것인지에 대한 심도 있는 논의와 기술적 해결책 마련이 시급합니다.
마지막으로, AI의 등장으로 인한 인간의 역할 변화와 가치관의 재정립 문제입니다. AI를 인류의 자손으로 보고 그들의 성취를 축하할 것인지, 아니면 다른 존재로 보고 경계할 것인지에 대한 철학적, 윤리적 질문은 기술 발전과 함께 계속해서 답을 찾아야 할 인류의 숙제입니다.
--- ¹ 시간차 학습(Temporal Difference Learning, TD 학습): 강화 학습에서 보상을 예측하는 가치 함수(Value Function)를 학습하는 방법 중 하나로, 미래 보상에 대한 예측값과 실제 경험을 통해 얻은 예측값의 차이(시간차 오차)를 이용하여 학습을 진행합니다. ² 정책 경사(Policy Gradient): 강화 학습에서 에이전트의 행동 방식(정책)을 직접 최적화하는 방법으로, 보상을 최대화하는 방향으로 정책을 나타내는 매개변수를 업데이트합니다. ³ 세계 모델(World Model): 에이전트가 자신이 속한 환경의 역학을 예측하고 이해하는 내부적인 모델입니다. 어떤 행동을 했을 때 환경이 어떻게 변화할지, 어떤 결과가 발생할지 예측하는 능력을 의미합니다. ⁴ 지속적인 학습(Continual Learning): 에이전트가 새로운 정보를 학습하면서 기존에 학습했던 지식을 잊지 않고 유지하며, 시간이 지남에 따라 점진적으로 능력을 향상시키는 학습 패러다임입니다. ⁵ 온-폴리시(On-policy) 학습: 에이전트가 현재 행동하는 정책(behavior policy)과 학습하려는 정책(target policy)이 동일한 강화 학습 방법입니다. 즉, 현재 정책에 따라 행동하면서 그 경험으로부터 정책을 개선합니다. ⁶ 사전 학습(Pretraining): 대규모 데이터셋(예: 방대한 텍스트 코퍼스)을 사용하여 모델의 초기 가중치를 학습하는 과정입니다. 이를 통해 모델은 일반적인 특징이나 패턴을 미리 학습하여 이후 특정 작업에 대한 미세 조정(fine-tuning)을 효율적으로 수행할 수 있게 됩니다. ⁷ RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화 학습): LLM의 정렬(alignment)을 위해 사용되는 강화 학습 기법입니다. 인간 평가자가 생성된 응답에 대한 선호도를 제공하면, 이를 보상 신호로 사용하여 LLM의 정책을 미세 조정하여 인간의 가치와 의도에 더 잘 부합하도록 만듭니다. ⁸ 규모의 법칙(Scaling Laws): 딥러닝 모델의 성능이 모델 크기, 데이터셋 크기, 컴퓨팅 자원 등의 규모에 따라 예측 가능한 방식으로 향상된다는 경험적 관찰입니다. ⁹ 전이 학습(Transfer Learning): 특정 작업에서 학습한 지식이나 모델을 다른 관련 작업에 적용하여 성능을 향상시키는 기법입니다.
이 브리핑이 유용했나요?