JIINSI
커뮤니티 소식

오픈AI와 마이크로소프트, 20여 개 언론사로부터 대규모 저작권 침해 소송에 휘말리다

서아람글 · 서아람
세계 곳곳에서 AI 모델 학습 데이터에 대한 저작권 논쟁이 불거지는 가운데, 뉴스 기사, 책 등 콘텐츠를 만드는 수많은 창작자들의 권리 보호를 요구하는 목소리가 커지고 있다.
세계 곳곳에서 AI 모델 학습 데이터에 대한 저작권 논쟁이 불거지는 가운데, 뉴스 기사, 책 등 콘텐츠를 만드는 수많은 창작자들의 권리 보호를 요구하는 목소리가 커지고 있다.
인공지능(AI) 기술이 전 세계를 뒤흔들고 있는 지금, 그 근간을 이루는 데이터 학습 방식에 대한 근본적인 질문이 던져지고 있습니다. 최근 전 세계 20여 개 이상의 주요 언론사 및 콘텐츠 발행자들이 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 제기하며, AI 시대의 가장 뜨거운 논쟁 중 하나인 '데이터 윤리'와 '창작자 권리' 문제에 다시 불을 지폈습니다. 이들 언론사는 자신들이 수십 년간 막대한 자본과 인력을 투입해 생산한 뉴스 기사, 보고서, 사진 등의 콘텐츠가 오픈AI의 ChatGPT와 같은 대규모 언어 모델(LLM)을 훈련하는 데 무단으로 사용되었다고 주장합니다. AI 모델이 이 학습 데이터를 통해 정보를 습득하고 새로운 콘텐츠를 생성해내는 과정에서, 원저작물에 대한 보상이나 동의가 전혀 이루어지지 않았다는 것이 핵심 고발 내용입니다. 특히 이들은 AI가 생성한 요약본이나 정보가 자사 웹사이트의 트래픽과 광고 수익을 감소시키고, 궁극적으로 저널리즘 생태계를 위협한다고 강조합니다. 물론 오픈AI와 마이크로소프트 측은 AI 모델 학습이 '공정 이용(Fair Use)' 원칙에 해당한다고 맞서고 있습니다. AI가 원본 콘텐츠를 그대로 복제하는 것이 아니라, 방대한 데이터를 통해 언어 패턴과 지식을 학습하고 이를 바탕으로 새로운 텍스트를 창조하는 '변형적 사용(Transformative Use)'이므로 저작권 침해가 아니라는 주장입니다. 또한, 인터넷에 공개된 데이터를 활용하는 것은 웹 크롤링의 일반적인 관행이라는 점을 들기도 합니다. 그러나 전문가들은 AI의 '변형적 사용' 범위에 대한 명확한 법적 기준이 아직 부재하다는 점을 지적합니다. 과거 구글 북스(Google Books) 사례처럼 방대한 양의 저작물을 스캔하여 색인화하는 행위가 공정 이용으로 인정받은 선례가 있지만, AI가 직접 콘텐츠를 생산하는 현 상황과는 결이 다르다는 분석이 많습니다. 이처럼 AI 기술의 빠른 발전 속도에 비해 관련 법적, 윤리적 논의는 더디게 진행되면서 갈등이 증폭되는 양상입니다. 이번 소송은 AI 산업 전반에 막대한 영향을 미칠 수 있습니다. 만약 언론사들이 승소할 경우, 오픈AI를 비롯한 AI 개발사들은 과거 학습에 사용된 모든 저작물에 대한 막대한 보상금을 지불해야 할 수도 있으며, 앞으로는 유료 라이선스 계약을 통해 데이터를 확보해야 할 가능성이 큽니다. 이는 AI 모델 학습 비용의 상승으로 이어져 기술 개발 속도에 영향을 미치거나, 소규모 AI 스타트업의 진입 장벽을 높이는 결과를 초래할 수 있습니다. 핵심 쟁점은 다음과 같습니다.
  • AI 학습 데이터의 '공정 이용' 범위에 대한 법적 해석과 정의
  • 콘텐츠 창작자들이 AI 학습 데이터 사용에 대해 정당한 보상을 받을 수 있는 새로운 모델의 필요성
  • AI 모델이 생성한 콘텐츠의 원본성 및 저작권 침해 여부 판단 기준
  • AI 기술 혁신과 창작자 권리 보호라는 두 가지 가치 사이의 균형점 모색
일부 전문가들은 이러한 법적 분쟁이 오히려 AI 데이터 생태계를 더욱 투명하고 지속 가능하게 만드는 계기가 될 수 있다고 전망합니다. 데이터 라이선싱 시장이 활성화되고, 저작권이 명시된 고품질 데이터셋의 가치가 더욱 높아질 것이라는 시각도 있습니다. 결국 이번 소송의 판결은 단순한 법적 다툼을 넘어, 인공지능 시대의 콘텐츠 생산과 소비, 그리고 창작자 보상 시스템 전반을 재정립하는 중요한 전환점이 될 것으로 보입니다.
인사이트

이번 저작권 소송은 AI 모델의 '공정 이용' 원칙에 대한 법적 기준을 세우고, 창작자 보상 모델의 필요성을 공론화하며 AI 기술 혁신과 콘텐츠 생태계의 지속 가능성이라는 두 가지 가치를 조율하는 중요한 분기점이 될 것입니다.

자주 묻는 질문

왜 이제 와서 이런 소송이 불거지는 건가요?
과거에도 AI 학습 데이터 저작권 문제가 제기되었지만, 최근 ChatGPT 같은 LLM이 상업적으로 성공하고 직접 콘텐츠를 생성해내는 능력이 고도화되면서 언론사들의 생존권이 위협받기 시작했기 때문입니다. AI의 영향력이 구체화되면서 문제 인식이 커진 것입니다.
AI 기업들은 왜 유료 데이터를 사용하지 않고 웹 스크래핑을 하는 건가요?
방대한 양의 고품질 데이터를 확보하는 것은 LLM 성능에 필수적이며, 이를 모두 유료 라이선스로 구매하는 것은 천문학적인 비용이 듭니다. 또한, AI 학습 목적의 사용은 '공정 이용'으로 간주될 수 있다는 법적 해석을 따랐던 측면도 있습니다.
이 소송이 AI 기술 발전에 어떤 영향을 미칠까요?
소송 결과에 따라 AI 기업들은 데이터 확보 전략을 전면 재검토하고, 유료 라이선스 모델 도입이나 저작권 문제가 없는 데이터를 찾는 방향으로 전환할 수 있습니다. 이는 장기적으로 AI 모델 학습 비용 상승을 초래하거나, 새로운 데이터 라이선싱 시장을 형성하는 계기가 될 수 있습니다.
공유XTelegram

이 기사 어땠어요?

피드백을 남겨주시면 더 나은 맞춤 추천을 만듭니다.

이런 뉴스를 매일 받아보세요

매일 아침 7시, 그날의 정리를 이메일과 Telegram으로 받아보세요.