“누가 데이터를 쓰고, 누가 이익을 얻는가” — AI 시대의 계약 질서

생성형 AI가 급속히 확산되며, 우리가 만든 텍스트·이미지·음악 같은 디지털 창작물이 AI의 학습 데이터로 활용되고 있습니다. 문제는 이 모든 과정이 명확한 동의도, 대가도 없이 이루어지는 경우가 많다는 점입니다.

AI 기업들은 법보다 빠르게 움직이고, 규제는 그 뒤를 쫓고 있습니다. 지금, 우리가 주목해야 할 것은 법이 미처 닿지 못하는 공간을 지배하는 ‘계약’과 ‘라이선스’입니다. AI 생태계는 이미 법보다 약관, API 조건, 데이터 계약이 규칙을 정하는 시대에 접어들었습니다.

AI는 누구의 콘텐츠로 훈련되는가?

대형 AI 모델은 수십억 개의 텍스트와 이미지를 웹에서 수집해 학습합니다. 대표적인 이미지 생성 모델인 Stable Diffusion은 LAION이라는 공개 데이터셋을 기반으로 훈련되었는데, 여기엔 수많은 저작권 보호 이미지도 포함돼 논란이 됐습니다.

이에 대응해 Getty Images는 Stability AI를 고소했고, 뉴욕타임스, CNN 등 언론사들은 AI 크롤링을 막기 위해 자사 웹사이트의 접근을 차단했습니다. 반면 AP통신과 Shutterstock은 OpenAI와 공식 라이선스 계약을 맺고 데이터를 제공하는 협력 모델을 택했습니다.

한편 Reddit, Stack Overflow 등 커뮤니티 플랫폼들도 AI 학습을 목적으로 한 무단 데이터 수집을 차단하고, 이용 약관을 강화해나가고 있습니다. AI 학습용 데이터는 이제 기업 간 협상의 대상이자 지식 자원의 핵심으로 떠올랐습니다.

계약이 지배하는 AI 생태계

법의 공백을 메우는 건 계약입니다. AI 기업들은 서비스 약관을 통해 자신들의 책임을 최소화하고, 사용자에게 권리를 넘기거나 제한을 가합니다.

예컨대 OpenAI는 사용자가 생성한 출력물에 대해 “사용자가 권리를 갖는다”고 하지만, 그 출력물이 제3자의 저작권을 침해할 경우 책임은 사용자에게 있다고 명시합니다. 반대로 마이크로소프트는 자사 코파일럿 서비스를 이용한 개발자가 법적 문제에 직면할 경우 법적 책임을 함께 지겠다고 선언했습니다.각 기업의 약관은 천차만별이고, 대부분 비공개 계약으로 이뤄져 있습니다. 즉, 누가 어떤 데이터를 쓰는지, 누구에게 수익이 돌아가는지 대중은 알 수 없습니다.

라이선스의 경계는 불분명하다

AI는 오픈소스나 크리에이티브 커먼즈(CC) 라이선스로 배포된 콘텐츠도 학습합니다. 하지만 CC 라이선스의 비영리(NC) 조건, 동일조건 공유(SA) 조항 등이 AI 모델 학습과 생성물에 어떻게 적용되는지는 아직 법적으로 불확실합니다.

예를 들어, CC BY 라이선스로 배포된 콘텐츠를 학습한 모델이 출력물에 원 저작자의 이름을 어디까지 표시해야 하는지, CC BY-SA 콘텐츠를 학습한 AI 모델의 생성물이 동일 라이선스를 따라야 하는지 등은 여전히 논쟁 중입니다. 한편 일부 창작자들은 자발적으로 “No AI” 메타태그를 삽입하거나, 작품에 AI 학습을 금지하는 표시를 남기고 있습니다. 하지만 법적 강제력은 거의 없고, 많은 크롤러는 여전히 이를 무시합니다.

생성물의 권리는 누구에게 있는가?

AI가 만들어낸 텍스트나 이미지는 법적으로 저작권 보호 대상이 아닌 경우가 대부분입니다. 인간의 창작 개입이 없기 때문이죠.

하지만 기업들은 약관을 통해 출력물의 소유권을 사용자에게 부여하거나, 사용 제한을 설정하고 있습니다. Midjourney는 유료 구독자에겐 상업적 권리를 주지만, 무료 사용자의 출력물은 비영리 이용만 허용했습니다.마이크로소프트는 한 걸음 더 나아가 “AI 출력물로 인한 소송이 발생하면 자사가 방어하고, 손해를 보상하겠다”고 선언했습니다. 반면 Midjourney나 Stability AI는 출력물에 대한 모든 책임을 사용자에게 넘깁니다. 기업마다 책임 분산 방식이 다르고, 이를 결정하는 도구는 계약입니다.

AI 기업 vs 콘텐츠 권리자 — 분쟁의 격화

데이터 이용을 둘러싼 법적 분쟁도 이어지고 있습니다.

  • Getty vs Stability AI: Getty는 자사 이미지가 무단 학습에 사용되었다며 Stability AI를 고소했습니다.
  • 작가 집단 소송: 미국과 유럽의 유명 작가들은 “책이 무단으로 AI에 학습됐다”며 OpenAI, Meta 등을 상대로 소송을 제기했습니다.
  • 코파일럿 소송: 오픈소스 개발자들은 Copilot이 자신들의 코드를 무단 학습하고, 라이선스를 무시했다며 집단 소송을 진행 중입니다.

한편 Shutterstock은 AI 기업과 계약을 맺고 데이터를 제공하면서, 기여한 창작자에게 수익을 분배하는 펀드를 운영하고 있습니다. 반면 Getty는 AI 기업과의 협력 없이 법적 대응을 선택했습니다. 계약 전략의 방향에 따라 기업의 입장이 갈리고 있습니다.

새로운 질서를 위한 제안들

지금의 계약 중심 질서 속에서 몇 가지 대안적 시도도 등장하고 있습니다.

  • 보상 모델: Shutterstock은 AI 학습에 사용된 콘텐츠의 기여도에 따라 창작자에게 수익을 배분하고 있습니다.
  • 라이선스 변화: “No AI” 조건을 부여하거나, AI 학습 허용 여부를 명시한 새로운 라이선스 모델이 논의되고 있습니다.
  • 집단 교섭: 작가, 예술가 단체들이 모여 AI 기업과의 협상력을 높이기 위한 시도도 늘고 있습니다.
  • 공공 데이터 활용: 정부가 공공 콘텐츠를 공개 라이선스로 풀어, 공익적 AI 개발의 기반을 만들자는 제안도 있습니다.

기술 기반 계약: 블록체인이나 워터마킹을 활용해 AI 출력물의 출처를 추적하고, 자동 수익 분배 시스템을 구상하는 움직임도 보입니다.

계약으로 운영되는 AI — 이대로 괜찮은가?

AI 생태계는 지금 법이 아닌 계약이 규칙을 만드는 시기입니다. 문제는 이 계약들이 비공개적이고, 불균형적이라는 점입니다.
사용자는 약관을 바꿀 수 없고, 창작자는 데이터의 사용 여부를 통제할 수 없습니다. 그리고 기업 간 계약은 외부에 거의 공개되지 않습니다.기술 발전의 속도를 고려하면 자율 규범과 계약이 일정 역할을 할 수 있습니다. 하지만 이 구조가 사회적 신뢰와 정의를 지탱하기 위해서는, 더 많은 투명성과 공정성이 필요합니다.

기술은 빠르지만, 규범은 선택의 문제

AI 기술은 계속 발전합니다. 하지만 어떤 데이터를 쓰고, 누구의 권리를 인정하며, 어떤 계약이 표준이 되는지는 기술이 아닌 사회가 결정해야 할 문제입니다.

AI는 단순한 도구가 아닙니다. 그것은 사회가 학습시키고, 사회가 사용하는 시스템입니다. 그 시스템이 누구를 위한 것인지, 그리고 어떤 규칙으로 작동하는지를 묻는 일이 바로 지금 필요합니다.우리가 지금 맺는 계약 하나하나가, 앞으로의 AI가 어떤 가치를 배울지 결정하게 될 것입니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

용어 사전

AI 학습: 인공지능이 많은 데이터를 보고 스스로 규칙을 익히는 과정입니다.
데이터셋: AI가 학습하는 데 사용하는 자료 묶음으로, 예를 들면 수천만 장의 이미지나 문장 모음입니다.
약관: 서비스를 이용할 때 사용자가 동의해야 하는 이용 규칙입니다.
출력물: AI가 만들어낸 결과물로, 예를 들어 문장, 이미지, 음악 등이 있습니다.
크롤링: 컴퓨터가 자동으로 웹사이트를 돌아다니며 데이터를 수집하는 작업입니다.
2차 저작물: 기존 창작물을 바탕으로 새롭게 만든 콘텐츠입니다. 예를 들어, 리믹스 음악이나 영화 각색이 이에 해당합니다.
오픈소스: 누구나 자유롭게 사용할 수 있도록 공개된 프로그램이나 자료입니다.
크리에이티브 커먼즈(CC): 창작자가 자신의 저작물을 공유하면서도 일정 조건(예: 출처 표기, 비영리만 허용 등)을 설정할 수 있도록 하는 라이선스입니다.
비영리(NC): 크리에이티브 커먼즈(CC) 라이선스 조건 중 하나로, 상업적인 용도로 사용하지 못하게 합니다.
동일조건 공유(SA): CC 라이선스 조건 중 하나로, 원작과 같은 라이선스를 유지한 채로만 공유하도록 요구합니다.
API: 두 프로그램이 서로 정보를 주고받을 수 있도록 도와주는 기술적 통로입니다.
Copilot: 마이크로소프트가 개발한 코드 작성을 도와주는 인공지능 도구입니다.
LAION 데이터셋: AI 학습에 사용된 대규모 이미지 데이터 모음으로, 인터넷에서 자동으로 수집된 수십억 장의 이미지로 구성되어 있습니다.
No AI 태그: “이 창작물은 AI가 학습용으로 사용하지 말라”는 뜻을 담은 표식입니다.
페어 유스(Fair Use): 미국 등 일부 국가에서 교육이나 비평 목적이라면 저작물을 일부 허락 없이 사용할 수 있도록 한 예외 규정입니다.
워터마킹(Watermarking): 이미지나 문서에 출처나 소유자를 표시하는 기술로, 무단 사용을 방지하는 데 사용됩니다.
블록체인: 정보를 분산된 네트워크에 저장해 위변조를 막는 기술로, 거래 기록의 투명성을 높입니다.
스마트 계약: 조건이 충족되면 자동으로 실행되는 블록체인 기반의 계약 기술입니다.

댓글 남기기