JIINSI
논문 브리핑

LLM, '다음 토큰 예측' 넘어 '정확한 실행'으로: 기업용 서비스 자동화의 새 지평

한경모글 · 한경모
복잡한 기업용 소프트웨어 인터페이스에서 인공지능 에이전트가 여러 도구를 유기적으로 연결하고 조작하는 모습.
복잡한 기업용 소프트웨어 인터페이스에서 인공지능 에이전트가 여러 도구를 유기적으로 연결하고 조작하는 모습.
대규모 언어 모델(LLM) 기반 인공지능 에이전트가 디지털 비서의 역할을 넘어 다양한 작업을 직접 수행하는 시대가 눈앞에 다가왔습니다. 하지만 현재 LLM의 근본적인 훈련 방식인 '다음 토큰 예측'은 기업용 소프트웨어(SaaS) 환경에서 치명적인 한계를 드러내고 있습니다. 단순한 텍스트 생성을 넘어, 정교한 API 호출과 복잡한 워크플로우를 완벽하게 처리해야 하는 기업 환경에서는 LLM의 예측 기반 접근 방식이 종종 '조용한 실패'로 이어지기 때문입니다. 최근 arXiv에 발표된 'Beyond Next-Token Prediction: An RLVR Proof of Concept for Tool-Use Agents on Atlassian Workflows' 논문은 이 문제에 대한 새로운 해결책을 제시하며, 인공지능 에이전트의 신뢰성과 정확성을 한 단계 끌어올릴 가능성을 보여줍니다. 연구진은 LLM이 특정 API 내에서 정확한 엔드포인트에 올바른 인자(argument)를 순서대로 호출하는 섬세한 작업을 수행하는 데 실패하는 경우를 지적합니다. 이른바 핵심 필드를 누락하거나, 존재하지 않는 도구를 환각처럼 지어내거나, 단일 읽기 작업 후 성급하게 작업을 종료하는 등의 문제가 발생하며, 이는 기업 운영에 직접적인 오류나 비효율을 초래할 수 있습니다. 이러한 간극을 메우기 위해 연구진이 제시한 개념은 '검증 가능한 보상 기반 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)'입니다. RLVR은 단순히 에이전트의 응답이 그럴듯하게 들리는지에 보상을 주는 것을 넘어, 목표 환경 내에서 실제 행동이 정확하게 수행되었는지, 그리고 그 결과가 검증 가능한지에 따라 보상을 부여하는 방식입니다. 이는 LLM의 '그럴듯하게 말하기' 능력을 '정확하게 행동하기' 능력으로 전환시키는 핵심적인 전환점이라 할 수 있습니다. 연구진은 Atlassian 워크플로우를 중심으로 다섯 가지 합성 시나리오를 구성하여 RLVR의 가능성을 입증했습니다. Atlassian과 같은 기업용 SaaS 도구는 여러 시스템과 연동되고 복잡한 API 구조를 가지므로, 에이전트가 각 작업의 세부 요구 사항을 정확히 이해하고 실행해야 합니다. 예를 들어, 프로젝트 관리 도구에서 특정 작업의 상태를 업데이트하거나, 버그 리포트 시스템에 필요한 모든 정보를 빠짐없이 입력하는 등의 작업은 단순한 텍스트 생성으로는 불가능하며, 실제 시스템 내에서의 '검증 가능한' 행동이 필수적입니다. 이 연구가 중요한 이유는 다음과 같습니다.
  • 현재 LLM 에이전트의 고질적인 '정확성' 및 '신뢰성' 문제를 정면으로 다룹니다.
  • 단순한 계획 수립을 넘어 실제 시스템 내에서의 '보증된 실행'을 가능하게 하는 길을 엽니다.
  • 기업용 소프트웨어 자동화의 '라스트 마일 문제'를 해결하여, AI의 활용 범위를 콘텐츠 생성에서 정교한 작업 실행으로 확장합니다.
물론 RLVR 방식이 모든 난관을 해결하는 만능열쇠는 아닙니다. 강화 학습의 특성상 환경 구성과 보상 설계의 복잡성, 그리고 계산 비용의 증가라는 현실적인 과제가 남아 있습니다. 또한, 고도로 주관적이거나 인간의 판단이 필수적인 작업에 RLVR을 적용하는 것은 여전히 어려운 문제로 지적될 수 있습니다. 그러나 이 연구는 비판적인 기업용 환경에서 인공지능 에이전트가 직면하는 가장 큰 문제 중 하나인 '실행의 신뢰성'에 대한 실질적인 해결책을 제시했다는 점에서 큰 의미가 있습니다. 업계 전문가들은 이처럼 LLM의 내재적 한계를 보완하여 실제 비즈니스 가치를 창출하는 방향으로 AI 연구가 진화해야 한다고 강조하고 있으며, 이번 RLVR 개념은 그 중요한 전환점이 될 것으로 보입니다.
인사이트

LLM이 단순히 텍스트를 예측하는 것을 넘어, RLVR(검증 가능한 보상 기반 강화 학습)을 통해 실제 기업용 소프트웨어 환경에서 정교하고 신뢰할 수 있는 작업을 수행하게 함으로써, 인공지능 에이전트의 활용성과 비즈니스 자동화 가능성을 혁신적으로 확장합니다.

자주 묻는 질문

지금까지 나온 LLM 기반 AI 에이전트들은 기업용 시스템에서 왜 문제가 있었나요?
기존 LLM은 다음 토큰을 예측하는 방식으로 훈련되었기 때문에, 기업용 시스템의 복잡한 API나 워크플로우에서 필수 필드를 누락하거나 잘못된 도구를 호출하는 등 정교한 작업 실행에 취약했습니다. 이는 실제 환경에서 '조용한 실패'로 이어지곤 했습니다.
RLVR(검증 가능한 보상 기반 강화 학습)이 이 문제를 어떻게 해결한다는 건가요?
RLVR은 에이전트가 단순히 그럴듯한 답변을 내놓는 것에 보상을 주는 대신, 실제 목표 시스템 내에서 행동이 정확하게 수행되었는지 검증하고 그 결과에 따라 보상을 부여합니다. 이는 AI 에이전트가 단순한 '예측'을 넘어 '정확한 실행'을 하도록 유도합니다.
이 기술이 상용화되면 기업에게 어떤 이점이 있을까요?
이 기술이 상용화되면, 기업들은 LLM 기반 에이전트를 통해 Atlassian과 같은 복잡한 SaaS 워크플로우를 훨씬 더 신뢰성 높게 자동화할 수 있게 됩니다. 이는 수작업으로 인한 오류를 줄이고, 운영 효율성을 극대화하며, AI 활용 범위를 크게 확장할 잠재력이 있습니다.
공유XTelegram

이 기사 어땠어요?

피드백을 남겨주시면 더 나은 맞춤 추천을 만듭니다.

이런 뉴스를 매일 받아보세요

매일 아침 7시, 그날의 정리를 이메일과 Telegram으로 받아보세요.