한경모의 논문 노트 · 2026-06-17
AI가 AI가 만든 데이터로 공부하면 벌어지는 일 — '모델 붕괴'
글 · 한경모
AI 생성물이 인터넷을 채우면서, 다음 세대 AI가 그 데이터로 학습할 때 '모델 붕괴'가 일어난다는 연구가 나왔다. 다만 조건을 정확히 읽어야 한다. 그리고 그 끝엔 '데이터 주권' 문제가 있다.

“모델 붕괴는 처음엔 기술 문제처럼 보이지만, 끝까지 따라가면 데이터 주권 문제로 수렴합니다.”
인터넷에 AI가 쓴 글과 그림이 빠르게 늘고 있습니다. 자연스러운 질문이 따라옵니다. 다음 세대 AI는 결국 그 데이터로 학습할 텐데, 괜찮을까요. 최근 한 연구가 이 질문을 정면으로 다뤘고, 결론은 다소 불편합니다. '모델 붕괴(model collapse)'라는 현상입니다.
원리부터 보겠습니다. AI는 세상의 다양성을 데이터에서 배웁니다. 그런데 AI가 생성한 데이터에는 특징이 하나 있어요. 원본보다 평균에 쏠려 있다는 겁니다. 모델은 확률이 높은, 그러니까 '무난한' 출력을 선호하거든요. 그 과정에서 드물고 특이한 사례, 통계로 말하면 분포의 꼬리(tail)가 조금씩 깎여 나갑니다. 문제는 이 데이터로 다음 모델을 학습시킬 때부터예요. 이미 꼬리가 깎인 데이터로 배운 모델은 더 평균에 쏠리고, 그 모델이 만든 데이터는 꼬리가 더 깎입니다. 몇 세대만 반복해도 모델은 점점 단조로워지다가 결국 실제 세상의 분포에서 멀어집니다. 복사본을 복사하고 그걸 또 복사하면 화질이 무너지는 것과 같은 이치예요. 다른 점이라면, 여기서 사라지는 건 화질이 아니라 '세상의 다양성'이라는 겁니다.
다만 연구는 정확히 읽어야 합니다. 자극적인 제목만 보고 "AI가 제 데이터에 중독돼 곧 망한다"고 단정하면 곤란해요. 이 논문이 보여준 강한 붕괴는 '원본을 완전히 버리고 AI 생성물로만 반복 학습할 때' 나타납니다. 현실은 그렇게까지 극단적이지 않아요. 사람이 만든 데이터가 계속 새로 들어오고, 후속 연구들은 원본을 일정 비율만 섞어줘도 붕괴가 크게 완화된다고 보고합니다. 그러니 지금 입증된 건 '특정 조건이 갖춰지면 성능이 무너진다'는 메커니즘이지, '반드시 그렇게 된다'는 예언이 아닙니다. 이 둘을 구분하는 게 논문을 읽는 기본이에요.
그럼에도 시사점은 묵직합니다. 이 메커니즘이 말해주는 방향은 분명하니까요. 앞으로 진짜 값이 오르는 건 '사람이 만든, 검증된 원본 데이터'입니다. 깨끗한 물 같은 거예요. 인터넷이 AI 생성물로 채워질수록, 오염되지 않은 데이터의 희소가치는 반대로 올라갑니다. 실제로 큰 기업들이 뉴스사·출판사·대형 커뮤니티와 데이터 계약을 서두르는 이유가 여기 있어요. 다들 깨끗한 우물을 먼저 차지하려는 겁니다.
연구자로서 제가 지켜보는 지점은 두 가지입니다. 하나는 생성물과 원본을 구분하는 기술 — 출처 표시나 워터마크가 얼마나 빨리, 얼마나 믿을 만하게 자리잡느냐. 이게 안 되면 깨끗한 데이터와 오염된 데이터를 가리는 것 자체가 불가능해집니다. 또 하나는 그 '깨끗한 데이터'를 결국 누가 소유하고 통제하느냐예요. 모델 붕괴는 처음엔 기술 문제처럼 보이지만, 끝까지 따라가면 데이터 주권 문제로 수렴합니다. 가장 좋은 데이터를 가진 쪽이 가장 좋은 모델을 만들 테니까요. 그리고 그 데이터는 점점, 아무나 가질 수 없는 것이 되어 가고 있습니다.
참고 자료
- · 샘플 선택 편향이 모델 붕괴를 초래할 때 (model collapse)
- · AI 생성 데이터의 분포 붕괴와 원본 데이터 혼합에 관한 후속 연구
이 브리핑이 유용했나요?
댓글 (0)
첫 댓글을 남겨주세요.