JIINSI
논문 브리핑

AI 이미지 생성, 이제 '구도'까지 마스터한다: COMPASS의 혁신적 제어 기술

한경모글 · 한경모
AI 모델 COMPASS가 복잡한 시각적 구도를 이해하고 생성하는 과정을 시각화한 개념도. 공유 전문가 토큰($\tau_c$)을 중심으로 이미지 인지 및 생성 능력이 통합되는 모습을 보여줍니다.
AI 모델 COMPASS가 복잡한 시각적 구도를 이해하고 생성하는 과정을 시각화한 개념도. 공유 전문가 토큰($\tau_c$)을 중심으로 이미지 인지 및 생성 능력이 통합되는 모습을 보여줍니다.
최근 인공지능이 생성하는 이미지들은 놀라운 사실성과 창의성을 보여주고 있습니다. 하지만 아무리 뛰어난 모델이라도, 사용자가 원하는 '구도'까지 섬세하게 제어하는 것은 여전히 어려운 과제로 남아 있었습니다. 예를 들어, '강아지가 들판에서 뛰는' 이미지는 잘 만들지만, 강아지를 이미지의 '오른쪽 상단에 배치하고 싶다'거나 '들판보다 작게 보이게 해달라'는 식의 구체적인 시각적 의도는 반영하기 힘들었던 것이죠. 이러한 한계를 극복하고 AI 이미지 생성에 새로운 차원의 정교함을 더할 연구 결과가 발표되어 업계의 이목을 집중시키고 있습니다. 최근 arXiv에 공개된 논문 'COMPASS: Grounding Composition-Intent Guidance in Unified Multimodal Models'는 이러한 '구도 의도(composition-intent)' 제어 문제를 해결하기 위한 첫 통합 멀티모달 프레임워크를 제안합니다. COMPASS는 단순히 이미지 속 객체를 인식하거나 새로운 객체를 생성하는 것을 넘어, 객체들의 위치, 배치, 그리고 전체 장면 구성 방식과 같은 고차원적인 시각적 구도를 모델이 직접 이해하고 제어하도록 만듭니다. 이 연구의 핵심은 '공유 전문가 토큰($\tau_c$)'이라는 개념입니다. 이 토큰은 구도 의도를 인지하는 측면(composition perception)과 구도에 맞춰 이미지를 생성하는 측면(composition-guided generation)을 하나의 시스템 내에서 통합하고 연결하는 '중앙 의도 앵커' 역할을 합니다. 즉, 모델은 이 토큰을 통해 사용자의 구도 관련 지시를 명확하게 해석하고, 그 의도에 따라 시각적 결과물을 정교하게 조정할 수 있게 되는 것입니다. 기존의 통합 멀티모달 모델들은 이미지의 내용적 측면에서는 뛰어난 성능을 보였지만, 구체적인 시각적 배치나 구성 의도를 인식하고 이를 생성에 반영하는 데는 신뢰도가 낮았습니다. 생성된 이미지가 내용적으로는 정확해도, 예술적이거나 기능적인 구도 요소를 충족시키지 못하는 경우가 많았습니다. COMPASS는 이러한 격차를 메우며, AI가 단순히 '무엇'을 그릴지 넘어 '어떻게' 그릴지까지 제어하는 능력을 제공합니다. 이러한 기술적 진보는 단순한 연구 성과를 넘어, 여러 산업 분야에 광범위한 영향을 미칠 것으로 예상됩니다. 특히 광고, 디자인, 게임, 영화 제작 등 시각적 콘텐츠의 완성도가 중요한 분야에서 AI의 활용도를 혁신적으로 높일 수 있습니다.
  • 현재 AI 이미지 생성 모델은 객체 및 장면 내용 생성에는 강하지만, 구체적인 시각적 구도(배치, 구성) 제어에는 취약합니다.
  • COMPASS는 '구도 의도'를 인지하고 생성하는 과정을 '공유 전문가 토큰'을 통해 통합하여 이 문제를 해결합니다.
  • 이를 통해 사용자는 AI가 생성하는 이미지의 내용뿐 아니라, 객체 간의 상대적 위치나 시점 등 구도적 측면까지 정교하게 조절할 수 있게 됩니다.
물론, 아직 초기 단계의 연구인 만큼, 매우 복잡하거나 추상적인 구도 의도를 얼마나 잘 처리할 수 있을지는 더 많은 검증이 필요할 것입니다. 또한, 방대한 학습 데이터와 복잡한 모델 구조가 요구될 수 있다는 점은 대규모 배포의 걸림돌이 될 수도 있습니다. 그러나 연구팀은 '최초의 통합 프레임워크'라는 점을 강조하며, 이 기술이 향후 AI 기반 디자인 도구와 창의적 애플리케이션의 발전을 가속화할 잠재력을 충분히 가지고 있다고 봅니다. 업계 전문가들은 AI가 인간의 창의성을 보조하는 도구로 진정으로 기능하기 위해서는, 이처럼 모호하고 주관적인 '예술적 의도'를 이해하고 구현하는 능력이 필수적이라고 오랫동안 지적해 왔습니다. COMPASS는 그 방향으로 나아가는 중요한 이정표가 될 것이며, 향후 AI 이미지 생성 시장의 경쟁 구도와 기술 발전의 방향성을 제시하는 역할을 할 것으로 기대됩니다.
인사이트

AI 이미지 생성 모델이 단순한 내용 생성을 넘어, 사용자의 구체적인 '시각적 구도 의도'까지 통합적으로 이해하고 제어할 수 있게 됨으로써, 창의적인 AI 활용의 새로운 가능성을 열었습니다. 이는 AI 기반 디자인 및 예술 도구의 패러다임을 바꿀 중요한 진전입니다.

자주 묻는 질문

COMPASS가 정확히 뭘 해결한다는 건가요? 지금도 AI로 원하는 그림 다 만들 수 있지 않나요?
현재 AI는 '강아지가 뛰는 모습'처럼 내용 자체는 잘 생성하지만, '강아지를 화면의 왼쪽 아래에 작게 배치해달라' 같은 구체적인 '구도' 요청은 어렵습니다. COMPASS는 이러한 시각적 구도 의도를 AI가 직접 이해하고 생성에 반영하도록 돕는 기술입니다.
'공유 전문가 토큰'이라는 게 어려운데, 이게 왜 중요한 건가요?
이 토큰은 AI가 구도를 '인식'하는 능력과 구도에 맞춰 이미지를 '생성'하는 능력을 하나로 묶어주는 연결고리입니다. 덕분에 AI는 사용자의 구도 요청을 일관되고 정확하게 이해하고 이미지로 만들어낼 수 있게 됩니다.
이 기술이 상용화되면 어떤 변화가 생길까요?
디자이너나 아티스트들이 AI를 활용해 이미지나 영상 작업을 할 때, 훨씬 더 정교하고 세밀하게 원하는 구도를 제어할 수 있게 될 것입니다. 광고, 게임, 영화 등 시각 콘텐츠 제작 분야에서 AI의 활용도가 크게 높아질 것으로 예상됩니다.
공유XTelegram

이 기사 어땠어요?

피드백을 남겨주시면 더 나은 맞춤 추천을 만듭니다.

이런 뉴스를 매일 받아보세요

매일 아침 7시, 그날의 정리를 이메일과 Telegram으로 받아보세요.