오늘날 생성형 AI에 대한 관심이 증가함과 동시에 AI 학습에 사용되는 데이터의 저작권 문제도 불거지고 있습니다. Green geek 뉴스레터에서도 2025년 2월부터 현재까지 저작권 이슈에 대한 연재를 계속 해오고 있습니다. 이번 뉴스레터에서는 지난 2025년 캐나다 벤쿠버에서 개최된 42회 ICML (Forty-second International Conference on Machine Learning)에서 초청연사로 초대된  파멜라 새뮤얼슨 (Pamela Samuelson)의 강연을 요약해서 소개하려 합니다. 파멜라 새뮤얼슨은 지식재산권, 특히 저작권과 기술법(cyberlaw), 정보정책 분야에서 매우 영향력 있는 미국의 법학자로 생성형 AI와 저작권의 충돌(Generative AI’s Collision with Copyright Law)이란 제목으로 진행된 이번 초청 강연에서 그녀는 생성형 AI와 저작권의 충돌과 관련된 최근의 2건의 소송을 중심으로 오늘날 우리가 겪고있는 생성형 AI와 저작권법간의 문제를 소개합니다.

생성형 AI와 저작권의 충돌

오늘날 머신러닝 연구자들에게 있어 방대한 데이터는 필수불가결한 자원으로, 대규모 모델을 학습시키기 위해서는 방대한 분량의 이미지, 텍스트, 코드를 필요로 합니다. 그러나 그 데이터들-논문, 책, 기사, 음악, 이미지-은 대부분 저작권으로 보호되는 창작물입니다. 따라서 오늘날 AI 연구자들은 기술뿐 아니라 법의 언어, 특히 저작권법에 대한 이해를 향상시킬 필요가 있습니다. 데이터를 “수집”하는 것은 합법일 수 있지만, 그 데이터를 어떻게 사용하느냐에 따라서 불법이 될 수도 있기 때문입니다.

미국 저작권법의 정신: 창작의 유인을 위한 독점, 그리고 공정 이용

미국 헌법은 저작권의 목적을 “과학(지식)과 유용한 예술의 진보를 촉진하기 위함”이라고 밝히고 있습니다. 즉, 저작권은 창작자에게 일정 기간 독점적 권리를 부여해 창작 활동을 장려하지만, 그 독점이 후속 창작을 억누르지 않도록 공정 이용(Fair Use)이라는 예외를 함께 두고 있습니다. 이 공정 이용은 저작권 독점이 사회의 지식 순환을 막지 않도록 하는 일종의 “호흡 공간(breathing space)”입니다. 미국 법원은 네 가지 요소를 종합적으로 고려해 공정 이용 여부를 판단합니다:

(1) 이용 목적의 성격 (2) 원저작물의 성격 (3) 사용된 양과 중요성 (4) 시장에 미치는 영향

이 원칙이 실제로 적용된 대표적 사례가 바로 작가 협회 vs Google 사건입니다. 구글은 도서관의 수백만 권의 책을 디지털화하여 검색 인덱스를 구축하고, 검색 결과로 일부 문장을 제공했습니다. 저자들은 이것이 명백한 침해라고 주장했지만, 법원은 구글의 행위를 공정 이용으로 인정했습니다. 그 이유는 비교적 명확했는데, 구글의 목적은 책을 표현물로 이용하는 것이 아니라, 검색을 통해 정보 접근성을 높이는 비표현적 목적이었기 때문입니다. 비록 구글이 검색 인덱스 작성을 위해 책 전체를 복제했음에도, 법원은 그 복제가 색인화를 위한 합리적인 과정이며, 저자들의 시장을 해치지 않았다고 판단했습니다.

작가 협회와 구글간의 소송같은 문제가 AI 학습 데이터에도 존재합니다. 각 나라별로 AI 연구에 사용되는 데이터에 대한 원칙들은 차이를 보이는데, 예를 들어 이스라엘은 AI 학습 목적의 저작물 이용을 공정 이용으로 명시했고, 일본과 싱가포르 역시 연구 목적의 텍스트·데이터 마이닝을 폭넓게 허용하고 있습니다. 유럽연합(EU)도 연구기관이 합법적으로 접근 가능한 자료를 사용하는 경우, 저작권 침해로 보지 않습니다. 반면 미국, 캐나다, 영국에서는 현재 수십 건의 소송이 진행 중이며, 한국과 브라질을 포함한 여러 국가는 입법 방향을 놓고 논의 중입니다. 

AI 시대의 저작권 전쟁

최근 저작권과 관련된 AI 학습 데이터 논란의 핵심을 보여주는 두 가지 소송이 있었습니다.

작가 Sarah Bartz와 Richard Kadrey는 각각 Anthropic과 Meta를 상대로 자신의 책이 무단으로 학습 데이터에 포함되었다며 소송을 제기했습니다. 소송 결과는 무척 흥미로웠는데, Bartz 사건에서 법원은 “AI 모델 학습을 위한 데이터 사용” 자체는 공정 이용이라고 보았습니다. 그 이유는 모델이 책의 ‘내용’을 재현하는 것이 아니라, 그 속의 언어적 패턴을 학습해 새로운 문장을 생성하는 변형적(Transformative) 목적이라고 판단했기 때문입니다. 다만, Anthropic이 학습용 데이터를 확보하기 위해 불법 복제본(pirated books)을 다운로드한 건에 대해서는 법원이 공정 이용으로 인정하지 않았습니다.

Kadrey 사건에서도 비슷한 판단이 내려졌습니다. Kadrey와 다른 저자들은 자신들의 책이 메타의 LLM(Large Language Model) 학습 데이터로 무단 사용되었다며 저작권 침해를 주장했습니다. 즉, “메타가 허락 없이 책 전체를 복제하여 LLaMA 모델을 훈련시켰다”는 것이 핵심이었는데, 메타는 이에 대해 “AI 모델 학습은 원저작물의 표현을 모방하는 것이 아니라, 언어 패턴을 통계적으로 학습하는 변형적 이용이므로 공정 이용”이라고 항변했습니다. 법원은 Meta의 행위가 상업적이지만 여전히 “변형적 목적”에 해당한다고 보았고, 저자가 시장 피해를 입증하지 못한 점도 법원의 판단에 영향을 미쳤습니다. 두 사건에서 법원은 “AI 학습은 공정 이용일 수 있다”는 가능성을 열었지만 동시에 “불법 복제물의 사용은 명백히 위법”이라는 선을 명확히 했습니다.

이 판결들에 AI 개발자와 회사들은 일사적으로 안도했지만, 항소가 진행될 가능성이 높고 최종 판결까지는 수년이 걸릴 수도 있기에 논란의 여지는 여전히 남아 있습니다. 만약 법원이 “AI 학습은 공정 이용’이라고 최종 판결을 내린다면, AI 기업들은 막대한 법적 부담에서 벗어나 자유롭게 데이터를 사용할 수 있게 될 것입니다. 반대로 “침해”로 판단한다면, 기업들에겐 천문학적인 손해배상금이 부과될 수 있습니다. 이 때문에 유럽연합은 ‘옵트아웃(opt-out)’ 제도를 도입해, 창작자들이 자신의 작품을 AI 학습에서 제외할 수 있도록 하는 절충안을 제시하기도 했습니다. 또한 일부 학자들은 음악 산업의 집단 관리 라이선스(collective license)처럼, AI 개발자들이 일정한 사용료를 내고 저작권자를 보상하는 제도를 제안하기도 합니다. 그러나 이 역시 저작물의 범위, 데이터 추적, 보상 배분 등 실무적 난제가 많아 현실적 대안으로 자리 잡기까지는 시간이 걸릴 것입니다.

기술자에게도 법의 언어가 필요하다

많은 기술자들은 흔히 “법이 발목을 잡는다”고 여기곤 합니다. 그러나 법은 기술을 제약하기 위해서가 아니라, 지속 가능한 혁신의 질서를 세우기 위해 존재합니다. 오늘날 AI 연구자와 개발자들은 단순한 기술 생산자가 아니라, 이 새로운 시대의 법·정책 형성의 주체이기도 합니다. 또한 AI와 저작권을 둘러싼 논쟁은 단순히 “누가 이익을 얻는가”의 문제가 아니라, “어떻게 창작과 기술이 공존할 것인가”에 대한 사회적 실험이기도 합니다. 따라서 기술자들도 자신들의 목소리를 적극적으로 내며, 법이 기술을 이해하도록 돕고 기술이 법의 목적을 실현하도록 만드는 것이 필요합니다. 그것이 우리가 함께 만들어가야 할 다음 시대의 윤리이자 방향일 것입니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

용어 사전

생성형 AI (Generative AI): 기존 데이터를 학습해 새로운 텍스트, 이미지, 음악, 코드 등을 생성할 수 있는 인공지능. 예: ChatGPT, Midjourney 등.
저작권 (Copyright): 창작자가 만든 책, 음악, 그림, 영상 등 창작물을 보호하기 위한 법적 권리. 다른 사람이 허락 없이 복제하거나 이용하지 못하게 함.
AI 학습 데이터 (AI Training Data): 인공지능이 패턴을 배우기 위해 사용하는 자료. 책, 기사, 이미지, 음악, 코드 등이 포함됨.
공정 이용 (Fair Use): 저작권법에서 예외적으로 허락 없이 저작물을 사용할 수 있는 제도. 비영리 연구, 교육, 비평 등 공익적 목적이라면 허용될 수 있음.
변형적 이용 (Transformative Use): 원작을 그대로 복제하지 않고 새로운 의미나 목적을 위해 바꾸어 사용하는 것. 예: 학습용 데이터로만 사용해 새로운 문장을 만드는 경우.
AI 학습 목적의 저작물 이용: AI 모델이 지식을 습득하기 위해 저작물을 학습용 데이터로 사용하는 행위. 저작권 침해 여부가 전 세계적으로 논쟁 중임.
데이터 마이닝 (Text and Data Mining, TDM): 방대한 데이터에서 의미 있는 정보를 자동으로 추출하는 기술. AI 연구나 검색엔진 개발에 활용됨.
옵트아웃 (Opt-out): 사용자가 자신의 데이터가 AI 학습 등에 사용되지 않도록 “제외해 달라”고 요청하는 제도. 유럽연합(EU) 일부 국가에서 시행 중.
집단 관리 라이선스 (Collective License): 여러 저작권자의 권리를 단체가 대신 관리하며 사용료를 모아 분배하는 제도. 음악 저작권 관리에 흔히 사용됨.
사이버법 (Cyberlaw): 인터넷, 인공지능, 디지털 기술 등과 관련된 법률 분야를 의미함.
ICML (International Conference on Machine Learning): 기계학습 분야에서 세계적으로 권위 있는 국제 학회. 최신 AI 기술과 논문을 발표하는 자리.
AI 윤리 (AI Ethics): AI가 사회에 미치는 영향을 고려해 공정성, 투명성, 책임성 등을 확보하기 위한 원칙이나 기준.
데이터 정책 (Data Policy): 데이터의 수집, 이용, 보호, 공유 등에 관한 정부나 기관의 관리 규칙 또는 제도.

댓글 남기기