한경모의 논문 노트 · 2026-06-30
성격 좋은 AI가 일도 잘할까 — 멀티 에이전트 논문이 짚은 조건과 한계
LLM 에이전트에 성격 프롬프트를 심으면 소통 방식은 분명히 달라집니다. 그런데 최신 arXiv 논문은 그 변화가 실제 과제 성과로 이어지는 조건이 생각보다 까다롭다는 것을 보여줍니다.

“성격 좋은 에이전트가 항상 일을 잘하는 것은 아닙니다. 때로는 반박하는 에이전트 하나가 팀 전체를 구하기도 합니다.”
LLM 에이전트에 '당신은 온화하고 협력적인 성격입니다'라는 시스템 프롬프트를 넣으면 어떤 일이 생길까요. 언어 패턴은 즉시 바뀝니다. 동의 표현이 늘고, 반박 어조가 부드러워지며, 협력 제안의 빈도가 올라갑니다. 그런데 이 소통 스타일의 변화가 과제 해결 성과로 이어지는지는 별개의 질문입니다. arXiv에 게재된 "When Does Personality Composition Matter for Multi-Agent LLM Teams?"은 바로 그 간극을 정면으로 겨냥한 연구입니다.
성격 프롬프트의 메커니즘 — 무엇이 바뀌고 무엇이 남는가
이 논문은 심리학의 빅파이브(Big Five) 성격 모델을 토대로 합니다. 개방성(Openness), 성실성(Conscientiousness), 외향성(Extraversion), 온화함(Agreeableness), 신경증(Neuroticism)의 다섯 차원을 프롬프트로 구현하고, 이 조합이 멀티 에이전트 팀의 객관적 성과에 어떤 영향을 미치는지 측정했습니다.
성격이 LLM 에이전트 행동을 바꾸는 경로는 크게 세 가지로 정리됩니다.
- 역할 우선순위 재배열: 온화함이 높게 설정된 에이전트는 동료 에이전트의 의견에 더 빨리 동조합니다. 정보 통합 속도가 빨라지지만, 동시에 오류가 팀 전체로 퍼지는 경로도 단축됩니다.
- 탐색과 수렴의 비율 조정: 개방성이 높은 에이전트는 해답 공간을 넓게 탐색하고, 성실성이 높은 에이전트는 수렴 속도가 빠릅니다. 두 유형이 한 팀에 섞이면 이론상 균형이 생기지만, 실제 성과에 대한 효과는 과제 유형에 크게 달려 있습니다.
- 반박 빈도 조절: 신경증이 높거나 온화함이 낮은 에이전트는 다른 에이전트의 제안을 더 자주 거부합니다. 품질 검증 역할을 담당할 수 있지만, 합의가 수렴되지 않는 교착 상태를 만들기도 합니다.
다만 연구는 정확히 읽어야 합니다. 성격 프롬프트가 언어 패턴을 바꾼다는 관찰과, 그 변화가 성과를 개선한다는 주장은 별개의 명제입니다. 전자는 여러 선행 연구에서 반복 확인됐지만, 후자는 아직 조건이 붙어 있습니다. 이 논문이 의미를 갖는 이유는 그 조건을 체계적으로 계측하려 했다는 점에 있습니다.
인간 팀 연구와의 평행선 — 벨빈과 빅파이브의 LLM 이식 실험
인간 조직에서 팀 구성과 성과의 관계는 수십 년치 연구가 쌓인 분야입니다. 영국의 경영학자 메레디스 벨빈(Meredith Belbin)은 1970년대부터 팀 역할 아홉 가지를 정의하고, 역할 다양성이 높은 팀이 더 나은 성과를 낸다는 주장을 폈습니다. 이후 메타분석들은 빅파이브 차원 중 성실성(Conscientiousness)이 팀 성과와 가장 일관된 상관관계를 보인다는 점을 확인했습니다. 단, 과제 복잡도와 팀 규모에 따라 효과 크기가 크게 달라진다는 조건이 항상 따라옵니다.
LLM 멀티 에이전트 연구가 이 맥락에서 유용한 지점이 있습니다. 인간 피험자 실험에서 성격을 인위적으로 조작하기란 윤리적으로도 방법론적으로도 어렵습니다. LLM은 동일한 기반 모델 위에서 성격 프롬프트만 교체해 수천 번의 실험을 반복할 수 있습니다. 수십 년치 조직심리학 가설을 훨씬 빠른 속도로 테스트하는 실험대가 생긴 셈입니다.
| 구분 | 인간 팀 연구 | LLM 멀티 에이전트 연구 |
|---|---|---|
| 성격 조작 가능 여부 | 불가(관찰만 가능) | 가능(프롬프트 제어) |
| 실험 반복성 | 낮음(비용·윤리 제약) | 높음 |
| 성격 일관성 | 개인별로 가변적 | 프롬프트 한 줄에 의존 |
| 성과 측정 기준 | 다양하고 주관적 요소 포함 | 명확한 벤치마크 설정 가능 |
| 실세계 전이 가능성 | 높음 | 아직 불명확 |
그러나 이 비교 자체에 함정이 있습니다. 인간의 성격은 수십 년에 걸쳐 형성된 인지 패턴, 감정 조절 능력, 사회적 경험의 총합입니다. LLM의 '성격'은 특정 토큰 분포를 조정하는 시스템 프롬프트 한 줄입니다. 이 둘을 같은 이름으로 부르는 순간 개념의 혼동이 시작됩니다. 논문이 빅파이브를 차용한 것은 실험 변수를 체계화하기 위한 도구적 선택이지, LLM이 실제로 그 성격을 '갖는다'는 주장이 아닙니다. 이 구분을 놓치면 연구 결과를 과잉 해석하게 됩니다.
재현 조건과 한계 — 흥분하기 전에 확인할 것들
이 연구 영역을 읽을 때 반드시 확인해야 할 조건이 세 가지 있습니다.
첫째, 성과 측정 기준의 과제 의존성입니다. '성격 조합 X가 성과를 높인다'는 주장에는 반드시 '어떤 과제에서, 어떤 척도로'라는 수식이 따라야 합니다. 수학 문제 풀기, 코드 디버깅, 창의적 텍스트 생성, 논리 추론은 서로 다른 에이전트 행동 패턴을 요구합니다. 한 과제에서 유효한 성격 구성이 다른 과제에서는 방해가 될 수 있습니다.
둘째, 온화함의 역설입니다. 온화함이 높은 에이전트들로만 팀을 꾸리면 표면상 원활한 협업처럼 보입니다. 그러나 실제로는 초기 오답에 집단 동조하는 현상이 발생할 가능성이 높습니다. 이는 단일 LLM에서 이미 잘 알려진 아첨(sycophancy) 문제의 집단판입니다. 반박하는 에이전트가 없는 팀은 빠르게 수렴하되, 잘못된 방향으로 수렴할 수 있습니다. 불화가 어느 정도는 과제 품질을 지키는 안전장치가 되는 셈입니다.
셋째, 기반 모델 의존성입니다. GPT-4o와 Claude, Llama 3.1은 같은 성격 프롬프트에 다르게 반응합니다. 한 모델에서 유효한 성격 구성이 다른 모델에서 재현되지 않을 수 있습니다. 논문이 특정 모델을 사용했다면 결론의 일반화 범위는 그 모델의 특성에 묶입니다.
흔한 오해 하나를 짚겠습니다. '성격 프롬프트가 성과에 영향을 미친다'는 사실이 확인됐다고 해서, '최적의 성격 조합이 존재한다'는 결론이 자동으로 따라오지는 않습니다. 최적 조합은 과제·모델·팀 규모·상호작용 횟수의 함수입니다. 이 다차원 공간의 일반해를 논문 한 편으로 얻을 수 없습니다. 이 연구가 제공하는 것은 그 공간을 체계적으로 탐색하기 위한 방법론과 초기 관측치입니다.
추적해야 할 신호와 데이터 주권 문제
실무적으로 이 연구에서 꺼낼 수 있는 시사점은 다음과 같습니다.
- 역할 분리만이 아닌 성격 분리를 고려하라: 기존 멀티 에이전트 설계는 조사자·검증자·요약자처럼 기능으로 팀을 구성했습니다. 이 논문은 같은 기능 에이전트라도 성격 조합이 달라지면 성과가 달라질 수 있다는 가설을 제기합니다. 검증자 에이전트에 온화함을 과도하게 부여하면 검증 기능 자체가 형식화될 수 있습니다.
- 과제 유형별로 소규모 통제 실험을 먼저 진행하라: 단일 최적 구성은 없습니다. 사용하려는 과제에서 성격 조합 몇 가지를 비교 테스트하는 것이 가장 현실적인 접근입니다.
- 에이전트 간 메시지 교환 로그에서 반박 빈도와 합의 도달 속도를 측정하라: 이 두 지표가 최종 성과와 어떤 관계를 보이는지 누적하면, 자체 시스템에 맞는 성격 설계 기준이 생깁니다.
더 넓게 보면 이 논문이 다루는 질문은 데이터 주권 문제와 연결됩니다. 기업이 멀티 에이전트 시스템을 운용할 때, 각 에이전트의 성격 프롬프트는 조직의 의사결정 방식 자체를 규정하는 내부 설계 문서입니다. 에이전트가 외부 API로 구동된다면, 이 설계 정보가 서비스 제공자 측에서 어떻게 처리되는지를 명확히 해야 합니다. 어떤 에이전트가 어느 상황에서 반박하고 어느 상황에서 동조하도록 설계됐는지는 조직의 판단 구조 자체이기 때문입니다.
재현 조건이 확인되지 않은 상태에서 성격 구성 최적화를 서비스에 급히 이식하는 것은 권하지 않습니다. 이 연구가 제공하는 실험 설계 방법론은 자체 시스템에서 A/B 테스트를 설계하는 데 바로 활용할 수 있습니다. 조건을 따지며 천천히 검증하는 것이 돌아가는 길처럼 보여도, 실제로는 더 빠릅니다.
Q. 성격 프롬프트를 추가하면 토큰 비용이 크게 늘지 않습니까? A. 성격 프롬프트 자체는 시스템 프롬프트에 수십 토큰을 더하는 수준이라 직접 비용은 미미합니다. 다만 성격 설계로 에이전트 간 메시지 교환 횟수가 달라지면 총 호출 수가 바뀔 수 있습니다. 반박 성향 에이전트가 많을수록 교환이 늘어나는 경향이 있는데, 이 부분은 과제별로 실측이 필요합니다.
Q. 이 연구 결과를 LangGraph나 AutoGen 같은 기존 프레임워크에 바로 적용할 수 있습니까? A. 방법론적으로는 적용 가능합니다. 각 에이전트의 시스템 프롬프트에 성격 지시를 추가하면 됩니다. 그러나 논문의 결론이 어떤 기반 모델과 어떤 과제 유형에서 도출됐는지를 먼저 확인해야 합니다. '온화함과 성실성 조합이 최적'이라는 처방전을 맥락 없이 이식하면 오히려 성과가 떨어질 수 있습니다. 자체 과제에서 소규모 실험부터 시작하는 것이 정석입니다.
이 브리핑이 유용했나요?
댓글 (0)
첫 댓글을 남겨주세요.