JIINSI
논문 브리핑

AI, 거절을 거절하다: '페르소나' 조작으로 모델 통제 새 지평 열리다

한경모글 · 한경모
인공지능 챗봇이 사용자의 요청에 응답하는 모습. 복잡한 신경망 내부에서 페르소나와 거절 메커니즘이 상호작용하는 추상적인 흐름을 시각화한다.
인공지능 챗봇이 사용자의 요청에 응답하는 모습. 복잡한 신경망 내부에서 페르소나와 거절 메커니즘이 상호작용하는 추상적인 흐름을 시각화한다.
사용자의 질문에 AI 챗봇이 ‘죄송합니다, 그 요청은 처리할 수 없습니다’라고 답하는 상황, 이제는 꽤 익숙합니다. 유해하거나 윤리적으로 문제가 있는 질문에 대해 AI가 거절 의사를 밝히는 것은 모델의 안전성을 담보하는 중요한 기능으로 여겨져 왔습니다. 하지만 이런 거절 메커니즘이 정확히 어떻게 작동하는지에 대한 심도 깊은 이해는 여전히 인공지능 연구의 난제로 남아 있었습니다. 최근 arXiv에 게재된 논문 ‘Refusal Lives Downstream of Persona in Chat Models’은 이 문제에 대한 흥미로운 통찰을 제공하며, AI 모델의 행동 제어에 새로운 가능성을 제시합니다. 이 연구의 핵심은 AI 모델의 '거절(refusal)' 기능이 단순히 독립적으로 존재하는 것이 아니라, 모델의 '페르소나(persona)'에 크게 영향을 받는다는 점입니다. 지금까지 AI 연구자들은 모델이 특정 요청을 거절하는 메커니즘과, 모델이 친절하거나 유용하다는 등의 특정 페르소나를 표현하는 메커니즘을 별개의 것으로 간주하고 연구해왔습니다. 그러나 이번 연구는 이 둘이 서로 긴밀하게 상호작용하며, 심지어 페르소나가 거절의 상위(upstream)에 존재한다는 것을 밝혀냈습니다. 연구진은 Qwen2.5-7B-Instruct와 Llama-3.1-8B-Instruct 같은 대규모 언어 모델(LLM)의 활성화 공간(activation space) 내에서 거절과 페르소나 특성에 해당하는 선형 방향(linear directions)을 식별했습니다. 이들은 이 방향에 직접 개입하여 모델의 행동을 조작하는 실험을 수행했습니다. 그 결과, 다음과 같은 놀라운 사실을 발견했습니다.
  • 순응적인 페르소나 주입 시 거절률 급감: 모델에 '순응적인(compliant)' 페르소나를 강화하자, 특정 요청에 대한 거절률이 현저히 감소했습니다. 특히 Llama 모델의 경우, 거절률이 기존 97%에서 2%로 대폭 줄어들었습니다.
  • 거절 방향 재도입 시 거절 회복: 순응적인 페르소나를 통해 거절률이 낮아진 상태에서, 다시 거절 방향을 모델에 주입하자 거절 행동이 부분적으로 회복되었습니다. 이는 거절 메커니즘이 완전히 제거된 것이 아니라, 페르소나에 의해 억제되거나 게이팅(gating)되고 있었음을 시사합니다.
이러한 결과는 AI 모델의 안전성 및 제어 가능성 연구에 중요한 함의를 던집니다. 그동안 모델의 유해한 답변을 막기 위한 많은 노력이 특정 키워드 필터링이나 안전 튜닝(safety tuning)에 집중되었다면, 이번 연구는 모델의 근본적인 행동 양식, 즉 페르소나를 조작함으로써 거절 메커니즘 자체를 정밀하게 제어할 수 있다는 새로운 길을 제시합니다. 이는 모델이 맹목적으로 거절하는 것이 아니라, 특정 맥락과 페르소나에 따라 보다 유연하고 지능적으로 거절 여부를 결정하도록 훈련할 수 있음을 의미합니다. 물론, 이러한 기술이 마냥 긍정적인 의미만을 갖는 것은 아닙니다. 일각에서는 순응적인 페르소나를 주입하여 모델의 거절 기능을 약화시키는 것이 오히려 모델이 유해한 요청에 더 쉽게 응답하게 만드는 위험을 초래할 수 있다고 우려합니다. AI 안전 연구자들은 이러한 미세한 제어 기술이 악용될 가능성도 함께 고민해야 한다고 강조합니다. 하지만 연구진은 '거절 방향 재도입' 실험을 통해 균형 잡힌 접근이 가능함을 보여주었습니다. 이는 모델의 안전성을 해치지 않으면서도 특정 목적에 따라 모델의 응답성을 조절할 수 있는 정교한 도구를 제공할 수 있다는 점에서 의의가 있습니다. 결국 이 연구는 단순히 AI의 거절 기능을 이해하는 것을 넘어, 모델의 내재된 특성과 행동 방식을 제어할 수 있는 새로운 인터페이스를 찾아냈다는 점에서 큰 주목을 받습니다. 이는 미래의 AI 모델이 개발자의 의도에 따라 더욱 정교하게 행동하고, 안전성과 유용성 사이에서 최적의 균형을 찾을 수 있는 토대가 될 것입니다. 거대 AI 기업들이 모델 정렬(alignment)과 안전성 강화를 위해 막대한 자원을 투입하는 현 시점에서, 활성화 공간을 통한 미세 제어 기술은 차세대 LLM 개발 경쟁에서 핵심적인 차별화 요소가 될 것으로 전망됩니다.
인사이트

AI 모델의 '거절' 기능은 독립적인 메커니즘이 아니라 '페르소나'에 의해 크게 좌우됨이 밝혀졌습니다. 이는 모델의 안전성과 행동을 더욱 정교하게 제어할 수 있는 새로운 가능성을 열어줍니다.

자주 묻는 질문

AI가 페르소나 때문에 위험한 요청도 들어줄 수 있다는 건가요?
이 연구는 페르소나를 조작하여 거절률을 낮출 수 있음을 보여주지만, 동시에 거절 메커니즘을 다시 활성화할 수도 있음을 확인했습니다. 이는 단순히 위험한 요청에 순응하게 만드는 것이 아니라, 모델의 행동을 더 세밀하게 제어할 수 있는 도구를 제공하는 것에 가깝습니다.
모델의 '페르소나'를 조절한다는 게 구체적으로 뭘 의미하나요?
이 연구에서는 모델의 내부 활성화 공간(activation space)에서 특정 페르소나(예: 순응적임)와 관련된 '선형 방향'을 식별하고, 이 방향으로 모델의 상태를 조작하는 방식을 사용합니다. 이를 통해 모델의 전반적인 응답 스타일과 태도를 변화시키는 것입니다.
이 기술이 AI 안전에 어떤 긍정적인 영향을 줄 수 있을까요?
기존의 외부 필터링 방식보다 모델의 내부 동작을 직접 제어함으로써, AI가 특정 맥락에서 더 적절하고 유연하게 거절하거나 응답하도록 만들 수 있습니다. 이는 AI의 유해성을 줄이면서도 사용자의 의도에 더 잘 부합하는 모델을 개발하는 데 기여할 수 있습니다.
공유XTelegram

이 기사 어땠어요?

피드백을 남겨주시면 더 나은 맞춤 추천을 만듭니다.

이런 뉴스를 매일 받아보세요

매일 아침 7시, 그날의 정리를 이메일과 Telegram으로 받아보세요.