JIINSI
논문 브리핑

실제 업무 데이터로 인공지능 에이전트 성능을 측정한다? 엔터프라이즈클로벤치 연구

한경모글 · 한경모
복잡한 비즈니스 환경에서 다양한 도구를 활용하여 업무를 수행하는 인공지능 에이전트의 모습을 보여주는 개념도.
복잡한 비즈니스 환경에서 다양한 도구를 활용하여 업무를 수행하는 인공지능 에이전트의 모습을 보여주는 개념도.
인공지능 에이전트의 발전은 인간의 업무를 혁신할 것이라는 기대감을 높이고 있지만, 실제 비즈니스 환경에서의 성능 검증은 늘 숙제로 남아있었습니다. 기존의 벤치마크들이 현실의 복잡성을 제대로 담아내지 못했기 때문입니다. 최근 허깅페이스에서 공개된 엔터프라이즈클로벤치(EnterpriseClawBench) 논문은 이 중요한 간극을 메우려는 시도로 주목받고 있습니다. 현재의 에이아이 에이전트 평가 방식은 주로 인위적으로 설계된 작업이나 제한적인 시나리오에 의존합니다. 예를 들어, 특정 질문에 답하거나 한정된 도구만을 사용하는 상황을 가정하는 식입니다. 이러한 방식은 다음과 같은 현실적인 한계를 가집니다.
  • 단순한 지식 질의 응답에 집중하여 복합적인 문제 해결 능력을 측정하기 어려움.
  • 사전에 정의된 도구 사용만을 평가하여 실제 업무의 유연한 도구 전환 능력을 반영하지 못함.
  • 실패와 재시도, 사용자와의 상호작용 같은 복잡한 업무 흐름을 간과함.
  • 실제 업무의 모호한 목표 설정과 다단계 과정을 제대로 반영하지 못함.
이런 한계는 대규모 언어 모델(LLM) 기반 에이전트가 현실의 비즈니스 환경에서 마주할 비정형적이고 역동적인 과제를 얼마나 잘 처리할지 예측하기 어렵게 만듭니다. 우리는 에이아이 에이전트가 챗봇처럼 정형화된 질문에 답하는 것을 넘어, 마치 인간 직원처럼 스스로 목표를 설정하고 다양한 도구를 활용하며 복잡한 문제를 해결하기를 기대합니다. 엔터프라이즈클로벤치는 기업의 실제 작업 세션 데이터를 활용해 에이아이 에이전트를 평가하는 새로운 접근법을 제시합니다. 연구팀은 실제 직원들이 다양한 소프트웨어 도구(예: 이메일, 스프레드시트, 사내 시스템)를 사용하며 업무를 처리하는 과정을 자세히 기록했습니다. 여기에는 마우스 클릭, 키보드 입력, 화면 변화 등 모든 상호작용이 포함됩니다. 이렇게 수집된 데이터는 다음과 같은 특징을 가집니다.
  • 실제 사용자 세션 기록: 수집된 데이터는 가상의 시나리오가 아닌, 실제 업무 환경에서 발생한 사용자 행동 패턴을 담고 있습니다.
  • 장기적, 다단계 작업: 단순히 하나의 질문에 답하는 것을 넘어, 여러 단계를 거쳐 해결해야 하는 복합적인 업무 흐름을 벤치마크 대상으로 삼습니다.
  • 다양한 도구 연동: 실제 기업 환경에서 사용되는 여러 도구의 에이피아이(API)를 에이전트가 얼마나 유연하게 활용하고 전환하는지를 평가합니다.
  • 실패 및 복구 시나리오: 예상치 못한 오류나 실패 상황에서 에이전트가 어떻게 문제를 진단하고 해결하려 시도하는지 분석합니다.
연구팀은 이러한 실제 데이터를 통해 에이아이 에이전트가 단순히 정해진 명령을 수행하는 것을 넘어, 스스로 상황을 판단하고 목표를 달성하는 '능동성(agency)'을 얼마나 잘 발휘하는지 측정하고자 합니다. 이는 에이아이 에이전트가 단순히 코드를 실행하는 기계를 넘어, 문제 해결 역량을 갖춘 '디지털 동료'로 성장하는 데 필수적인 요소입니다. 이 연구는 대규모 언어 모델 기반의 에이아이 에이전트가 실제 비즈니스 가치를 창출하는 데 있어 중요한 전환점이 될 수 있습니다. 기존의 연구들이 주로 기술적 가능성에 초점을 맞췄다면, 엔터프라이즈클로벤치는 그 가능성이 현실의 복잡한 요구사항과 어떻게 연결되는지 보여줍니다. 이는 에이아이 에이전트 개발자들이 보다 실용적이고 견고한 솔루션을 만들도록 유도할 것입니다. 업계 전문가들은 이런 종류의 실제 환경 벤치마크가 없다면 에이아이 에이전트가 '실용성 없는 기술적 장난감'에 머무를 수 있다고 경고해 왔습니다. 물론, 실제 업무 데이터를 수집하고 익명화하는 과정은 프라이버시 문제와 기술적 난이도가 높다는 반론도 존재합니다. 또한, 각 기업의 업무 환경이 고유하기 때문에 일반화된 벤치마크를 구축하기 어렵다는 지적도 있습니다. 하지만 연구팀은 이러한 과제를 인식하고 있으며, 익명화 기술 발전과 다양한 산업군 데이터를 포괄하려는 노력을 병행해야 한다고 강조합니다. 실제 데이터를 통한 검증 없이는 에이아이 에이전트가 기업 환경에서 신뢰를 얻기 어려우므로, 이러한 노력은 장기적으로 볼 때 필수적이라는 것이 지배적인 시각입니다. 엔터프라이즈클로벤치와 같은 벤치마크는 에이아이 에이전트의 발전 방향을 제시하며, 기업의 디지털 전환을 가속화할 잠재력을 가집니다. 실제 업무 프로세스의 일부를 에이아이 에이전트에게 맡김으로써 생산성 향상과 비용 절감 효과를 기대할 수 있습니다. 이는 단순히 에이아이 기술의 성능을 평가하는 것을 넘어, 에이아이와 인간이 협력하는 새로운 업무 패러다임을 열어줄 것입니다. 궁극적으로 이 연구는 에이아이 에이전트가 실험실을 넘어 실제 비즈니스 현장에서 진정한 '디지털 동료'로 자리매김하는 길을 닦는 중요한 첫걸음이라 할 수 있습니다.
인사이트

엔터프라이즈클로벤치는 실제 업무 데이터를 활용해 인공지능 에이전트의 현실적인 성능을 평가함으로써, 에이아이 에이전트가 기업 환경에서 직면하는 복잡한 과제를 해결하고 신뢰를 얻는 데 핵심적인 역할을 할 것입니다.

자주 묻는 질문

이 연구가 말하는 인공지능 에이전트가 진짜 회사 업무에 적용될 만큼 똑똑해진다는 얘기인가요?
네, 이 연구는 인공지능 에이전트가 실제 회사 업무에 투입될 만큼 복잡하고 실제적인 문제를 해결할 수 있는지 평가하는 방법을 제시합니다. 기존의 인위적인 테스트를 넘어 실제 직원들의 업무 데이터를 분석해 에이전트의 실질적인 역량을 측정하려는 시도입니다.
우리 회사 업무 데이터는 어떻게 수집한다는 거죠? 보안이나 프라이버시 문제는 없나요?
연구는 실제 사용자 세션 데이터를 기반으로 하지만, 데이터 수집 시 철저한 익명화 및 비식별화 과정을 거쳐 프라이버시와 보안 문제를 최소화하려 합니다. 또한, 기업의 동의를 얻은 후 특정 작업 흐름에 한정하여 데이터를 기록하는 방식이 주로 논의됩니다.
그럼 이제 인공지능이 내 업무를 다 가져가는 건가요?
인공지능 에이전트는 반복적이고 규칙적인 업무를 자동화하여 인간 직원의 업무 부담을 줄여주는 역할을 할 것입니다. 이 연구의 목표는 인공지능을 통해 인간이 더 창의적이고 전략적인 업무에 집중할 수 있도록 지원하는 것으로, 완전한 대체보다는 협력적 보완 관계에 가깝습니다.
공유XTelegram

이 기사 어땠어요?

피드백을 남겨주시면 더 나은 맞춤 추천을 만듭니다.

이런 뉴스를 매일 받아보세요

매일 아침 7시, 그날의 정리를 이메일과 Telegram으로 받아보세요.