논문 브리핑
AI, 거절을 거절하다: '페르소나' 조작으로 모델 통제 새 지평 열리다

사용자의 질문에 AI 챗봇이 ‘죄송합니다, 그 요청은 처리할 수 없습니다’라고 답하는 상황, 이제는 꽤 익숙합니다. 유해하거나 윤리적으로 문제가 있는 질문에 대해 AI가 거절 의사를 밝히는 것은 모델의 안전성을 담보하는 중요한 기능으로 여겨져 왔습니다. 하지만 이런 거절 메커니즘이 정확히 어떻게 작동하는지에 대한 심도 깊은 이해는 여전히 인공지능 연구의 난제로 남아 있었습니다. 최근 arXiv에 게재된 논문 ‘Refusal Lives Downstream of Persona in Chat Models’은 이 문제에 대한 흥미로운 통찰을 제공하며, AI 모델의 행동 제어에 새로운 가능성을 제시합니다.
이 연구의 핵심은 AI 모델의 '거절(refusal)' 기능이 단순히 독립적으로 존재하는 것이 아니라, 모델의 '페르소나(persona)'에 크게 영향을 받는다는 점입니다. 지금까지 AI 연구자들은 모델이 특정 요청을 거절하는 메커니즘과, 모델이 친절하거나 유용하다는 등의 특정 페르소나를 표현하는 메커니즘을 별개의 것으로 간주하고 연구해왔습니다. 그러나 이번 연구는 이 둘이 서로 긴밀하게 상호작용하며, 심지어 페르소나가 거절의 상위(upstream)에 존재한다는 것을 밝혀냈습니다.
연구진은 Qwen2.5-7B-Instruct와 Llama-3.1-8B-Instruct 같은 대규모 언어 모델(LLM)의 활성화 공간(activation space) 내에서 거절과 페르소나 특성에 해당하는 선형 방향(linear directions)을 식별했습니다. 이들은 이 방향에 직접 개입하여 모델의 행동을 조작하는 실험을 수행했습니다. 그 결과, 다음과 같은 놀라운 사실을 발견했습니다.
- 순응적인 페르소나 주입 시 거절률 급감: 모델에 '순응적인(compliant)' 페르소나를 강화하자, 특정 요청에 대한 거절률이 현저히 감소했습니다. 특히 Llama 모델의 경우, 거절률이 기존 97%에서 2%로 대폭 줄어들었습니다.
- 거절 방향 재도입 시 거절 회복: 순응적인 페르소나를 통해 거절률이 낮아진 상태에서, 다시 거절 방향을 모델에 주입하자 거절 행동이 부분적으로 회복되었습니다. 이는 거절 메커니즘이 완전히 제거된 것이 아니라, 페르소나에 의해 억제되거나 게이팅(gating)되고 있었음을 시사합니다.
인사이트
AI 모델의 '거절' 기능은 독립적인 메커니즘이 아니라 '페르소나'에 의해 크게 좌우됨이 밝혀졌습니다. 이는 모델의 안전성과 행동을 더욱 정교하게 제어할 수 있는 새로운 가능성을 열어줍니다.
자주 묻는 질문
- AI가 페르소나 때문에 위험한 요청도 들어줄 수 있다는 건가요?
- 이 연구는 페르소나를 조작하여 거절률을 낮출 수 있음을 보여주지만, 동시에 거절 메커니즘을 다시 활성화할 수도 있음을 확인했습니다. 이는 단순히 위험한 요청에 순응하게 만드는 것이 아니라, 모델의 행동을 더 세밀하게 제어할 수 있는 도구를 제공하는 것에 가깝습니다.
- 모델의 '페르소나'를 조절한다는 게 구체적으로 뭘 의미하나요?
- 이 연구에서는 모델의 내부 활성화 공간(activation space)에서 특정 페르소나(예: 순응적임)와 관련된 '선형 방향'을 식별하고, 이 방향으로 모델의 상태를 조작하는 방식을 사용합니다. 이를 통해 모델의 전반적인 응답 스타일과 태도를 변화시키는 것입니다.
- 이 기술이 AI 안전에 어떤 긍정적인 영향을 줄 수 있을까요?
- 기존의 외부 필터링 방식보다 모델의 내부 동작을 직접 제어함으로써, AI가 특정 맥락에서 더 적절하고 유연하게 거절하거나 응답하도록 만들 수 있습니다. 이는 AI의 유해성을 줄이면서도 사용자의 의도에 더 잘 부합하는 모델을 개발하는 데 기여할 수 있습니다.
이 기사 어땠어요?
피드백을 남겨주시면 더 나은 맞춤 추천을 만듭니다.