[논문 리뷰] 생성형 AI 학습과 저작권 공정이용의 경계—‘변형적 이용’과 ‘향유’ 논쟁

포커스N전남 기자

press@focusnjn.com | 2025-12-17 14:31:35

미국, AI 학습은 공정이용으로 보면서도 ‘해적 데이터 수집’ 평가는 사건별로 엇갈려
일본은 ‘향유 목적이 아닌 이용’ 조항과 결과물 단계의 ‘의거성’ 판단이 핵심 쟁점

글로벌 IT미디어 메타X에 따르면, 2025년 6월 미국 연방지방법원은 생성형 AI 모델 학습 행위를 저작권법상 공정이용(Fair Use)으로 인정한 첫 판결을 내놓으며 관련 논쟁의 분수령을 만들었다. 이번 판단은 Bartz v. Anthropic PBC와 Kadrey v. Meta Platforms, Inc. 두 사건에서 확인됐고, 작가들이 “자신들의 저작물이 동의 없이 학습 데이터로 쓰였다”고 문제를 제기하면서 본격화됐다. 앤쓰로픽 사건은 해적 사이트 등에서 모은 자료로 ‘라이브러리’를 만든 뒤 ‘클로드(Claude)’ 학습에 활용한 점이, 메타 사건은 이른바 ‘그림자 도서관’에서 내려받은 서적을 ‘라마(Llama)’ 학습에 쓴 점이 핵심 쟁점이었다.

그림. 생성형AI의 결과물이 저작권을 침해하는 경우의 도식화(이미지 출처: 메타X)

두 법원은 공통적으로 “AI 학습은 사회적 유용성이 큰 변형적 이용(transformative use)에 가깝다”는 취지로 판단했다. 또 저작권자 측이 주장한 ‘학습 데이터 이용허락(라이선스) 시장’을 공정이용 판단에서 결정적 시장으로 받아들이지 않았다는 점도 동일하다. 다만 결론이 같아도 접근 방식은 달랐다. 앤쓰로픽 사건은 데이터 수집 단계와 학습 단계를 분리해 각각 따져보는 ‘개별 분석’을 택했고, 메타 사건은 다운로드부터 학습까지를 한 묶음의 과정으로 보고 판단하는 ‘통합 분석’을 취했다.

이 차이는 ‘해적 행위’ 평가에서 엇갈린 결론으로 이어졌다. 앤쓰로픽 사건에서 법원은 “학습 목적이 변형적이라 해도, 해적 사이트에서 저작물을 내려받아 라이브러리를 구축하는 행위 자체가 변형적 이용이 될 수는 없다”는 태도를 분명히 했다. 즉, 학습이 공정이용으로 볼 여지가 있더라도 불법 수집의 위법성이 자동으로 면책되지는 않는다는 취지다. 반면 메타 사건은 다운로드가 결국 LLM 학습이라는 변형적 목적을 위한 과정이라면, 그 다운로드 역시 변형적 이용의 맥락에서 평가될 수 있다고 보며 해석의 폭을 넓혔다.

또한 모델이 학습 과정에서 보이는 ‘암기(memorization)’나 ‘정보 역류(regurgitation)’ 문제도 공정이용의 ‘변형성’을 곧바로 부정하지는 않는 방향으로 정리됐다. 두 사건 모두 스타일 모방 자체는 저작권 보호 대상이 아니라는 전제를 확인했고, 일부 결과가 기존 표현을 떠올리게 하더라도 “학습의 목적과 성격” 판단을 뒤집을 정도의 요소로 보지는 않았다.

논쟁은 기술적 특성과 법 체계의 간극에서 반복된다. 생성형 AI는 대규모 데이터 학습을 통해 유사한 결과를 만들어내지만, 기존 저작권 체계는 인간의 사상·감정 표현을 중심으로 설계돼 있다. 이 때문에 분쟁은 크게 두 국면으로 나뉜다. 첫째는 개발·학습 단계에서 원저작물을 수집·가공하며 발생할 수 있는 복제권·전송권 침해 문제, 둘째는 결과물 생성·이용 단계에서 산출물이 기존 저작물과 유사할 때 나타나는 침해(표절) 논쟁이다. 같은 생성형 AI라도 단계에 따라 행위 성격과 적용 법리가 달라지므로, 구분해 접근해야 한다는 지적이 나온다.

그림.생성형 AI기술 개발과 이용의 흐름의 알반적인 내용의 도식화(이미지 출처: 메타X)

일본은 학습 단계에 대해 비교적 명확한 제도적 장치를 마련해왔다. 2018년 저작권법 개정으로 신설된 ‘저작물에 표현된 사상 또는 감정의 향유를 목적으로 하지 않는 이용’(제30조의4) 규정이 대표적이다. 핵심은 저작권이 ‘향유(Enjoyment)’ 시장에서의 기회를 보장하는 제도라는 관점이다. AI 학습을 위한 데이터 이용은 감상이나 정서적 만족을 얻기 위한 향유가 아니라, 기계적 분석·처리에 가깝기 때문에 일정 범위에서 권리 제한이 가능하다는 논리다. 다만 특정 작가의 화풍을 그대로 재현하려는 의도로 추가 학습(fine-tuning)을 하는 등, 향유 목적이 섞이는 경우엔 적용 경계가 흔들릴 수 있다는 해석상 쟁점도 남는다.

더 복잡한 쟁점은 결과물 단계다. 저작권 침해가 성립하려면 통상 실질적 유사성뿐 아니라, 기존 저작물에 기초했다는 의거성(접근·참조)이 필요하다. 생성형 AI 환경에선 이용자가 원저작물을 몰라도 모델이 학습 데이터로 접했을 수 있다는 점이 ‘의거성’ 판단을 어렵게 만든다. 이용자가 특정 작가·작품을 인식한 채 “○○ 스타일로” 같은 프롬프트를 입력했다면 의거성은 비교적 명확하지만, 이용자는 몰랐어도 학습 데이터에 해당 저작물이 포함돼 있었다면 ‘객관적 접근 가능성’을 근거로 의거성을 추정할지 여부가 논쟁이 된다. 이 경우 책임 주체 역시 문제다. 이용자의 고의가 없더라도 침해 위험에 노출될 수 있고, 동시에 AI 사업자가 침해 가능성을 알면서도 충분한 억제 조치를 하지 않았다면 사업자 책임으로 확장될 여지도 검토 대상이 된다.

[출처 : METAX, https://metax.kr/article/1065600890145546]

[ⓒ 포커스N전남. 무단전재-재배포 금지]

WEEKLY HOT