생성형 AI의 ‘연료’가 되는 데이터, 그 법적 지위는?

생성형 AI는 무엇으로 학습하는가? 답은 명확하다. 인간이 창작한 수많은 텍스트, 이미지, 음악 등 디지털 콘텐츠다. 하지만 AI가 이러한 저작물들을 무단으로 학습 데이터로 활용하면서, 창작자의 권리와 기술 혁신 사이의 균형을 둘러싼 법적 갈등이 세계적으로 확대되고 있다. 특히 ‘공정 이용(fair use)’ 혹은 ‘텍스트 및 데이터 마이닝(Text and Data Mining, TDM)’이라는 예외 조항을 둘러싼 해석의 차이는 각국의 대응 방식에 깊은 영향을 미친다.

미국: 공정 이용과 TDM 면책을 둘러싼 갈등의 진원지

1. 판례와 저작권청 보고서 – 공정 이용의 한계 인정

2025년 2월, 미국 델라웨어 연방법원은 Thomson Reuters v. Ross Intelligence 사건에서 “AI 학습을 위한 저작물 무단 사용은 공정 이용이 아니다”는 판결을 내렸다. 법원은 상업적 목적과 저작권자의 시장 침해 가능성을 근거로 ‘변형성(transformative use)’ 요건을 충족하지 못한다고 판단하였다.

이어 미국 저작권청(USCO)은 2025년 5월 보고서 『Copyright and AI – Part 3』를 통해 다음과 같은 분석을 제시하였다.

  1. AI 학습은 공공 이익만으로 정당화될 수 없으며, 저작권자의 동의 없는 대규모 복제는 침해 소지가 높다.
  2. 공정 이용은 사례별로 판단되어야 하며, AI의 변형성은 의미 있는 창의적 기여가 있는 경우에만 인정된다.
  3. 단순한 기계적 반복이나 통계적 가공은 “기껏해야 약간의 변형성에 불과하다”고 지적하였다.

2. 트럼프 행정부의 대응 – 규제 완화와 정책 충돌

같은 시기 트럼프 2기 행정부는 AI 리더십 장벽 제거” 행정명령(EO 14179)을 통해 TDM 규제 완화를 명시하였다. 미국 트럼프 정부의 TDM 정책동향과 입장분석. 주요 내용은 다음과 같다:

  • TDM 예외를 AI 모델 훈련의 핵심 기반으로 인정하며, 법정 라이선스 제도사후 보상 체계 제안을 공식화
  • 유럽의 opt-out 시스템은 혁신을 저해한다며 비판, 일본식 ‘비향유 목적 면책’ 모델을 미국식 제도로 변형해 채택 검토
  • AI 훈련 데이터와 관련해 연방 차원의 규제 우선권 확보, 중국 등 경쟁국에 대한 수출통제와 에너지 인프라 지원까지 포함한 종합 전략 마련

하지만 이러한 방향은 저작권청의 신중한 입장과 충돌하였다. 특히 2025년 5월에는 저작권청장이 AI 관련 보고서 발표 직후 전격 해임되면서, 테크 기업의 로비와 정치적 개입 논란이 확산되기도 했다.

3. 산업계의 대응 – 시장 기반 자율 규율로 이동

오픈AI, 애플, 구글 등은 언론사·콘텐츠 기업들과 자율적으로 데이터 라이선스 계약을 체결하며 법적 리스크를 줄이는 전략을 취하고 있다. 이는 기술 발전과 저작권 보호 사이의 균형을 시장에서 먼저 모색하는 움직임으로 해석된다. 동시에 고품질 학습 데이터를 확보한 대기업 중심의 AI 생태계 재편 가능성도 높아지고 있다.

유럽연합: 옵트아웃 체계와 투명성 기반 규제

EU는 2019년 DSM 지침에서 제3조(비상업적 과학 연구 목적의 TDM)와 제4조(상업적 목적 포함 TDM)를 통해 명확한 예외 범위를 설정하였다.

  • 권리자가 기계가독형 방식(robots.txt 등)으로 opt-out 하지 않는 한 TDM 허용
  • 범용 AI 모델 제공자는 AI법(AI Act)에 따라 학습 데이터의 출처 및 요약 정보를 공개해야 함
  • 연구기관용 TDM은 강행규정, 상업용은 권리자 통제 가능이라는 이중 규율 체계를 통해 균형을 모색

그러나 글로벌 창작자 단체는 “옵트아웃만으로는 권리 보호가 불충분하다”며, 명시적 라이선스 의무화를 요구하는 목소리를 높이고 있다.

일본: 비향유 목적 원칙과 단계별 침해 판단

일본은 2018년 저작권법 개정을 통해 ‘비향유 목적’일 경우 AI 학습을 원칙적으로 허용하는 면책 조항을 신설하였다. 다만 다음과 같은 경우에는 침해가 성립할 수 있다:

  • 과학습(overfitting) 등 의도적으로 특정 저작물을 재현하거나
  • RAG 방식으로 저작물 일부 또는 전체가 그대로 출력되는 경우
  • 특정 창작자의 저작물로만 학습하여 의거성(기존 창작물에 의존한 흔적)이 나타나는 경우

일본은 학습 단계와 생성 단계, 이용 단계에 따라 다단계 침해 판단 체계를 적용하고 있으며, AI 기업과 사용자 모두에게 책임을 물을 수 있는 구조다.

중국: 사법적 선례 중심의 규범 정립

중국은 2024년 세계 최초로 AI 생성 이미지의 저작권 침해를 인정한 판결을 통해 기준을 제시하였다. 이 판결은 사용자 입력의 창의성, 저작물과의 유사성, 반복 학습의 존재 등을 근거로 들었다.

중국 학계는 합리 사용(reasonable use) 3요소 기준을 기반으로 새로운 제도 설계를 논의하고 있다:

  • 사용 목적: 기술 발전인가, 시장 대체인가
  • 사용 방식: 창작물 전체 또는 일부 복제 여부
  • 사용 결과: 저작권자에게 미치는 경제적·사회적 영향

이와 함께 집단 라이선스제, 데이터 거래 시장, 보상 체계, 기술적 조치 등 실효적 보호수단 마련을 병행하고 있다.

한국: 정책 가이드라인 중심의 연착륙 시도

한국은 2023년 12월, 문화체육관광부가 AI 저작권 가이드라인을 발표하면서 다음과 같은 기준을 제시하였다.

  • AI 학습 데이터 사용은 원칙적으로 저작권자 동의 필요
  • AI 생성물은 인간의 창작성이 명확히 드러난 경우에 한해 제한적 보호
  • 학습 데이터 사용 시 사전 허락 확보 권고, 이용자 책임 강조

하지만 아직 TDM 면책 조항은 명문화되지 않아, 사후 입증에 의존하는 불확실한 구조가 유지되고 있다. 현재 국회에는 저작권법 개정안이 계류 중이며, 향후 EU식 옵트아웃 또는 일본식 비향유 면책을 참고한 제도 정비 가능성이 있다.

맺으며: 공정 이용을 넘어 ‘공정 생태계’로

AI 기술은 글로벌 혁신을 주도하지만, 그 연료가 되는 데이터는 인간의 창작물이다. 이제 AI 시대의 저작권은 ‘침해냐 아니냐’를 넘어, 어떻게 공정하게 이용하고 정당하게 보상할 것인가의 문제로 이동하고 있다.

이를 위해 필요한 것은 다음과 같다:

  • 명확한 TDM 면책 규정 도입과 예외 범위의 구체화
  • 집합적 라이선스 등 유연한 권리 관리 체계 구축
  • 학습 데이터 투명성과 책임성 확보
  • 국제적 기준 마련을 위한 WIPO 협력 강화

AI는 더 이상 기술만의 문제가 아니다. 저작권이라는 사회적 계약을 다시 쓰는 일이자, 창작자와 기술, 이용자와 기업 모두가 공존할 수 있는 새로운 생태계 설계의 출발점이다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

용어 사전

생성형 AI: 텍스트, 이미지, 음악 등 새로운 콘텐츠를 스스로 만들어내는 인공지능 기술. 예: ChatGPT, Midjourney, DALL·E 등.
공정 이용(Fair Use): 저작권자의 허락 없이도 교육, 비평, 뉴스 등 일정한 목적으로 저작물을 사용할 수 있도록 허용하는 법적 개념. 주로 미국에서 적용됨.
텍스트 및 데이터 마이닝(Text and Data Mining, TDM): 방대한 텍스트나 데이터를 분석해 패턴, 통계, 지식을 추출하는 자동화 기술. AI 학습에 자주 사용됨.
Opt-out(옵트아웃): 기본적으로 허용된 상태에서 사용자가 명시적으로 ‘거부’ 의사를 표현해 제외되도록 하는 방식. 예: 웹사이트에서 데이터 수집을 거부할 때 사용.
AI법(AI Act): 유럽연합(EU)이 만든 인공지능 규제 법안으로, AI의 위험도에 따라 규제를 구분하고 투명성과 책임성을 강조함.
DSM 지침: EU의 ‘디지털 단일시장 저작권 지침’. 디지털 시대에 맞게 저작권법을 현대화하기 위한 지침으로, TDM 등과 관련된 규정을 포함함.
비향유 목적: ‘감상하거나 즐기기 위한 목적이 아님’이라는 의미. 일본 저작권법에서 AI 학습은 이러한 ‘비향유 목적’에 해당되므로 저작물 사용이 허용됨.
의거성(依據性): AI가 특정 저작물에 기반해 콘텐츠를 생성했는지를 판단하는 기준. 저작권 침해 여부를 판단할 때 중요한 요소로 사용됨.
집단 라이선스: 여러 저작물을 단체나 기관이 일괄적으로 관리하고 사용 허락을 주는 방식. 개별 저작권자와 하나하나 계약하지 않아도 됨.
법정 라이선스: 법에서 정한 조건을 충족하면 자동으로 저작물 사용을 허용하는 제도. 일정한 요건 하에서 창작자에게 보상을 전제로 허락 없이 이용 가능.
transformative use(변형적 이용): 기존 저작물을 새로운 의미나 목적에 맞게 바꾸어 사용하는 것. 미국에서 공정 이용 판단의 핵심 요소 중 하나임.
AI 학습 데이터: AI가 똑똑해지기 위해 학습하는 데 사용하는 데이터. 예: 인터넷에 있는 글, 그림, 영상 등.상표 등이 이에 해당됨.

댓글 남기기