한경모의 논문 노트 · 2026-06-24
AI 운전면허 시험, 아무리 어려워도 현실은 아니다
AI 에이전트의 ‘장기 계획’ 능력을 평가하는 새 벤치마크가 등장했습니다. 하지만 아무리 정교한 시험도 현실의 복잡성을 온전히 담을 수는 없으며, 우리는 점수 경쟁 너머의 문제를 직시해야 합니다.

“결국 AI 에이전트의 마지막 벤치마크는 점수판이 아니라, 사용자의 신뢰일 수밖에 없습니다.”
인공지능(AI) 에이전트가 복잡한 업무를 스스로 계획하고 실행하는 능력을 갖추기 시작했다는 소식이 연일 들려옵니다. 최근에는 이런 ‘장기 계획’ 능력을 평가하기 위한 새로운 벤치마크, ‘플랜벤치-엑스엘(PlanBench-XL)’이 등장해 기술 경쟁의 새로운 이정표가 될 것이라는 기대감을 낳고 있습니다. 여러 도구를 조합해 여러 단계에 걸쳐 문제를 해결하는 능력을 측정한다니, 기존의 단편적 질의응답 평가와는 차원이 다른 듯 보입니다.
원리는 이렇습니다. 과거의 AI 평가가 단답형 시험에 가까웠다면, 새로운 벤치마크는 여러 과목의 지식을 동원해 풀어야 하는 논술 시험과 같습니다. 예를 들어 ‘내일 오후 2시 서울역 근처에서 팀원 4명과 회의하고, 저녁에는 채식주의자 한 명을 포함해 식사할 장소를 예약하라’는 지시를 받는다고 가정합시다. AI 에이전트는 달력 API를 호출해 내 일정을 확인하고, 지도 앱으로 서울역 근처 회의실을 검색 및 예약하며, 레스토랑 예약 사이트에서 채식 메뉴가 있는 식당을 찾아 예약까지 마쳐야 합니다. 이 과정에서 한 단계라도 실패하면 대안을 찾아야 하는, 그야말로 실제 비서와 같은 일입니다. 플랜벤치-엑스엘은 바로 이런 복합적 문제 해결 과정을 얼마나 효율적으로 수행하는지를 측정하겠다는 것입니다.
다만 연구는 정확히 읽어야 합니다. 새로운 벤치마크의 등장은 분명 기술적 진일보를 가늠하는 유용한 도구입니다. 그러나 우리는 이것이 ‘더 정교해진 자(ruler)’일 뿐이라는 사실을 잊어서는 안 됩니다. 자가 길이를 재는 도구이지, 길이라는 개념 자체를 만들거나 현실의 모든 구부러진 표면을 완벽히 측정하지는 못합니다. 운전면허 기능 시험에서 100점을 받은 사람이 서울 강남의 퇴근길 정체 구간에서도 베테랑일 것이라 단정할 수 없는 것과 같은 이치입니다.
가장 먼저, ‘굿하트의 법칙(Goodhart's Law)’을 경계해야 합니다. “어떤 측정 지표가 목표가 되는 순간, 그 지표는 더 이상 좋은 측정치가 될 수 없다”는 경제학 원칙입니다. 플랜벤치-엑스엘이 업계 표준으로 자리 잡는 순간, 모든 AI 개발사는 이 벤치마크에서 높은 점수를 얻는 데에만 몰두할 가능성이 큽니다. 이는 AI 에이전트가 현실의 복잡다단한 문제를 잘 해결하도록 진화하는 것이 아니라, 특정 시험 유형에만 능숙한 ‘선수’로 길러질 수 있음을 의미합니다. 우리는 이미 대학수학능력시험이라는 거대한 벤치마크가 어떻게 교육 현장을 왜곡하는지 목격해왔습니다.
재현성과 조건의 문제 또한 중요합니다. 연구자들이 아무리 실제와 유사하게 ‘대규모 도구 생태계’를 구축했다 한들, 그것은 통제된 실험실 환경에 불과합니다. 현실 세계의 소프트웨어는 예고 없이 업데이트되고, API 정책은 수시로 바뀌며, 웹사이트 구조는 하루아침에 뒤집힙니다. 서버는 불안정하고 네트워크는 종종 끊깁니다. 플랜벤치-엑스엘에서 100점을 받은 에이전트가, 실제 환경에서 API 호출 한 번에 바뀐 인증 방식 때문에 길을 잃고 헤매는 일은 얼마든지 벌어질 수 있습니다. 벤치마크 점수는 특정 조건하에서의 ‘성능 기록’이지, 예측 불가능한 현실에서의 ‘성공 예언’이 아닙니다. 우리는 이 메커니즘과 예언을 엄격히 구분해야 합니다.
체스나 바둑을 정복한 AI의 사례를 떠올려 봅시다. 이 게임들은 규칙이 명확하고 목표가 뚜렷하며 변수가 제한된 ‘닫힌 세계’입니다. 플랜벤치-엑스엘이 제시하는 과제들도 복잡해졌을 뿐, 여전히 정해진 규칙과 명확한 목표를 가진 닫힌 세계의 문제입니다. 그러나 우리가 AI 에이전트에게 맡기려는 실제 업무는 ‘열린 세계’의 문제입니다. 상사의 지시는 모호하고, 동료의 요구는 수시로 바뀌며, ‘최적의 결과’에 대한 기준조차 사람마다 다릅니다. 이처럼 정답이 없는 문제를 해결하는 능력은 결코 점수로 환산될 수 없습니다.
결국 우리는 벤치마크 점수 경쟁이라는 익숙한 놀이에서 한 걸음 물러나, 더 근본적인 질문을 던져야 합니다. 스스로 판단하고 행동하는 AI 에이전트가 우리 사회와 개인의 삶에 들어올 때, 우리는 어떤 준비를 해야 하는가. 이 새로운 행위자에게 우리의 개인정보, 금융정보, 나아가 의사결정 권한이라는 ‘디지털 주권’을 어디까지, 어떤 조건으로 위임할 것인가. 에이전트가 실수를 저질렀을 때 그 책임은 누가, 어떻게 져야 하는가.
새로운 벤치마크의 등장은 AI가 단순한 도구를 넘어 자율성을 지닌 행위자로 진화하고 있음을 보여주는 명백한 신호입니다. 그러나 기술의 능력을 측정하는 데 몰두하는 사이, 그 기술을 통제하고 책임질 사회적 시스템에 대한 논의는 뒤처지고 있습니다. 진정한 문제는 ‘누가 더 똑똑한 AI를 만드나’가 아니라, 그 똑똑한 AI와 어떻게 공존할 것인가에 대한 사회적 합의를 만들어가는 과정 그 자체입니다. 결국 AI 에이전트의 마지막 벤치마크는 점수판이 아니라, 사용자의 신뢰일 수밖에 없습니다.
이 브리핑이 유용했나요?
댓글 (0)
첫 댓글을 남겨주세요.