# AI 학습 데이터 라이선스 (저작권 보호, 창작자 보상, 공정 사용)

최근 생성형 AI의 폭발적 성장과 함께, AI 모델이 창작자의 작품을 무단으로 학습한다는 논란이 전 세계적으로 화제입니다. ChatGPT, Midjourney 같은 서비스가 일상이 된 지금, 그 이면에는 수백만 창작자의 저작물이 허가 없이 사용되고 있다는 어두운 진실이 존재합니다. 이번 Ed Newton-Rex의 강연에서는 AI 학습 데이터의 라이선스 문제를 데이터와 사례 중심으로 심층 분석하며, 창작자와 AI 기업이 공존할 수 있는 방향을 모색합니다.

저작권 보호: AI는 정말 창작자의 작품을 훔치고 있는가

생성형 AI 모델 구축에는 세 가지 핵심 자원이 필요합니다. 바로 사람(엔지니어), 컴퓨팅 파워(GPU), 그리고 학습 데이터입니다. 수치를 살펴보면 AI 기업들은 엔지니어 한 명당 수백만 달러를, 모델 하나당 최대 10억 달러를 투자합니다. 하지만 세 번째 자원인 학습 데이터에는 거의 비용을 지불하지 않는 경우가 많습니다.

모질라 재단의 2023년 조사 데이터에 따르면, 2019년부터 2023년 사이 발표된 47개 대규모 언어 모델(LLM) 중 64%가 Common Crawl이라는 데이터 세트로 학습되었습니다. Common Crawl에는 주요 언론사의 뉴스 기사를 비롯한 저작권이 있는 작품이 대량 포함되어 있습니다. 더 충격적인 것은 나머지 21%의 모델은 학습 데이터 출처조차 공개하지 않았다는 점입니다.

AI 모델 구축 요소	투자 규모	라이선스 취득 여부
엔지니어(인력)	1인당 수백만 달러	정규 고용 계약
GPU(컴퓨팅)	모델당 최대 10억 달러	정식 구매/임대
학습 데이터	0원 (무단 사용)	대부분 미취득

AI 기업들은 웹 스크래퍼를 동원해 가능한 한 많은 콘텐츠를 수집하고, 무엇을 학습하는지에 대해 비밀스럽게 행동합니다. 사실 저작권법은 창작자에게 자신의 작품 복제를 승인할 수 있는 독점적 권한을 부여하며, AI 학습 과정에는 명백히 복제가 포함됩니다. 그런데도 많은 AI 기업은 '공정 사용(fair use)' 예외 조항을 내세웁니다. 하지만 패러디 제작 같은 제한된 상황을 위한 이 예외 조항이 대량 착취를 정당화할 수는 없습니다. 현재 미국에서만 약 30건의 소송이 진행 중이며, 법원의 판단을 기다리고 있는 상황입니다.

창작자 보상: 생성형 AI가 창작자의 생계를 위협하는 현실

생성형 AI는 학습 데이터와 직접 경쟁합니다. 이건 정말 중요합니다. 단편 소설로 학습된 대규모 언어 모델은 경쟁적인 단편 소설을 만들 수 있습니다. 스톡 이미지로 학습된 AI 이미지 모델은 경쟁적인 스톡 이미지를 생성합니다. TV 프로그램용 음악으로 학습된 AI 음악 모델은 바로 그 시장을 겨냥한 음악을 출력합니다. 데이터에 따르면 이미 현실에서 피해가 발생하고 있습니다.

내슈빌 출신 예술가 켈리 맥커넌의 사례를 보면, 그녀는 10년간 작품 판매로 생계를 유지했습니다. 그런데 2022년 그녀의 작품이 포함된 데이터 세트가 인기 AI 이미지 모델 학습에 사용되면서, 수입이 하룻밤 사이에 33% 감소했습니다. 그녀의 이름은 특정 스타일의 예술 작품을 생성하는 데 빈번히 사용되는 프롬프트가 되었고, 이는 곧 그녀의 작품과 직접 경쟁하는 결과를 낳았습니다.

프리랜서 플랫폼 업워크(Upwork)의 백서도 이를 뒷받침합니다. ChatGPT 도입 이후 플랫폼 내 프리랜서 작문 작업 수요가 8% 감소했으며, 가치가 낮은 작업만 살펴보면 감소율은 18%까지 치솟았습니다. 솔직히 놀라웠습니다. 이는 단순한 시장 변화가 아니라 생계 위협입니다.

직접 겪어본 바로는, 한 친구의 소설 집필을 도왔던 경험이 있습니다. 우리는 오랜 시간 자료를 모으고 창작적 선택을 거듭하며 결과물을 만들었습니다. 그런데 그 결과물이 AI 툴의 입력값으로 무단 사용될 수 있다는 가능성을 접했을 때, 오랜 노력이 '공짜 데이터'로 처리되는 현실이 불공평하게 느껴졌습니다. 이런 일상적 감각은 기술이 인간의 창조적 노력과 어떻게 연관되는가에 대한 근본적 질문을 다시 하게 만들었습니다.

더욱 심각한 것은 AI의 확장성입니다. AI 이미지 생성기는 하루 250만 개의 이미지를 생성하며, AI 노래 생성기는 초당 10곡을 출력하는 것으로 추정됩니다. 인간 예술가가 평생 만들 수 있는 양을 AI는 몇 초 만에 쏟아냅니다. 인도 유명 영화 제작자 람 고팔 바르마는 앞으로 모든 프로젝트에 AI 음악을 사용하겠다고 선언했고, 최근 AI 노래가 독일 차트 48위에 오르기도 했습니다. 이 모든 경우 AI 음악은 학습에 사용된 노래와 직접 경쟁하고 있습니다.

공정 사용: 인간 학습과 AI 학습은 같은가

AI 기업들은 "인간도 라이선스 없이 저작권 있는 작품으로 학습하니 AI도 그래야 한다"고 주장합니다. 하지만 이 논리는 터무니없습니다. 예술가들은 수세기 동안 서로에게서 배워왔고, 창작할 때 다른 이들이 자신에게서 배우기를 기대합니다. 사람은 다양한 출처에서 배우며, 그 과정에서 레슨 비용을 지불하거나 교재를 구매하여 전체 생태계를 지원합니다.

반면 생성형 AI는 수백만, 수십억 달러 가치의 상업적 주체가 가능한 한 많은 콘텐츠를 긁어모아, 창작자의 의지와 무관하게 대가 없이 여러 사본을 만듭니다. 이는 저작권법의 적용을 받으며, 복사 대상에 대한 확장성 뛰어난 경쟁자를 만들기 위함입니다. 초당 10곡을 출력하는 AI와 한 달에 몇 곡 만드는 인간 작곡가를 동일 선상에 놓는 것은 비교 자체가 불공정합니다.

"생성형 AI 트레이닝을 위한 창작물의 무단 사용은 해당 작품 뒤에 있는 사람들의 생계에 대한 중대하고 부당한 위협이며, 허용되어서는 안 됩니다." - AI 트레이닝에 대한 성명, 노벨상 수상 작가 및 아카데미상 수상 배우 등 전 세계 11,000명 이상의 창작자 서명

AI 정책 연구소의 2024년 4월 여론조사 데이터를 보면, 공개적으로 사용 가능한 데이터에 대한 AI 학습에 대해 60%가 허용되어서는 안 된다고 답했고, 허용되어야 한다는 응답은 19%에 불과했습니다. 동일 조사에서 AI 기업이 데이터 제공자에게 보상해야 하는지 묻자 74%가 그렇다고 답했고, 9%만이 아니라고 답했습니다. 대중의 의견은 분명합니다. 공개적으로 사용 가능하다는 것이 공정한 게임을 의미하지 않습니다. 물론 AI 기업들은 라이선스 취득이 비현실적이라고 주장합니다. 너무 많은 학습 데이터를 사용하기 때문에 개별 창작자에게 지불하는 금액이 적을 것이라 말합니다. 다만 이는 많은 콘텐츠 라이선스 시장에서도 마찬가지입니다. 창작자는 지불액이 적더라도 여전히 돈을 받고 싶어합니다. 또한 라이선스를 취득하기에는 너무 많은 데이터를 사용한다는 주장도 있지만, 실제로는 허가 받아 접근 가능한 다양한 데이터 세트가 존재합니다.

라이선스 기반 AI 생태계: 이미 실현되고 있는 대안

무엇보다 중요한 것은, 라이선스 기반 AI가 이미 현실에서 작동하고 있다는 점입니다. Ed Newton-Rex가 설립한 Fairly Trained는 라이선스 없이 저작권 있는 작품으로 학습하지 않는 생성형 AI 기업을 인증하는 비영리 단체입니다. 2025년 1월 출범 이후 이미 18개 기업을 인증했으며, 이들은 다양한 라이선스 접근 방식을 취하고 있습니다. 라이선스된 개별 음성으로 학습된 AI 음성 모델, 40개 이상의 음악 카탈로그를 라이선스한 AI 음악 모델, 주로 정부 문서 및 기록에서 가져온 퍼블릭 도메인 데이터로만 학습된 대규모 언어 모델 등이 그 예입니다.

어떤 회사는 데이터에 대한 선불 수수료를 지불하고, 다른 회사는 데이터 제공업체와 수익을 공유합니다. 특히 그는 10년 넘게 생성형 AI 분야에서 일했으며, Stability AI 팀은 2024년 9월 라이선스된 음악으로 학습된 AI 음악 모델을 출시했습니다. 그에 따르면, 지난 1년간 AI 기업과 권리 보유자 간 27건의 주요 라이선스 계약이 체결되었고, 보고되지 않은 소규모 계약까지 포함하면 더 많다고합니다.

학습 데이터 마켓플레이스도 존재하며, 5천억 단어 데이터 세트인 Common Corpus 같은 저작권 없는 퍼블릭 도메인 데이터로 확장 가능합니다. AI 모델 자체에서 생성된 합성 데이터도 활용할 수 있으며, 여기에는 일반적으로 저작권이 존재하지 않습니다. 라이선스 요구 사항이 혁신을 저해하고 대규모 AI 기업만 막대한 선불 비용을 감당할 수 있다는 주장도 있습니다. 사실 현실은 정반대입니다. 실제로 모든 데이터를 라이선스하는 데 신경 쓰는 것은 소규모 스타트업이며, 종종 막대한 선불 라이선스 비용 없이 수익 공유 같은 모델을 사용하고 있습니다.

또한 트레이닝 데이터 라이선싱에는 중요한 부수 이점이 있습니다. 저작권 있는 작품에 대한 무단 트레이닝은 게시자가 콘텐츠 접근을 차단하도록 강요하고 있습니다. 데이터 출처 이니셔티브 조사에 따르면, AI 트레이닝 세트에서 흔히 사용되는 14,000개 웹사이트 중 가장 가치 있는 도메인만 살펴보았을 때, 옵트아웃 또는 서비스 약관을 통해 제한된 수가 단 1년 동안 3%에서 20~33%로 증가했습니다. 웹은 라이선스 없는 트레이닝으로 인해 점차 폐쇄되고 있으며, 이는 새로운 AI 모델, 시장 신규 진입자, 연구원, 소비자 모두에게 안좋은 영향을 끼칩니다.

생성형 AI의 기술과 비전은 놀랍습니다. 하지만 이를 구축하기 위해 전 세계 창작자의 작품을 훔치는 것은 옳지 않습니다. AI 산업과 창작 산업은 상호 이익이 될 수 있고 또 그래야 합니다. 하지만 이러한 상호 이익 관계가 나타나려면 학습 대상 작품의 가치와 제작자의 권리에 대한 존중에서 시작해야 합니다. 라이선스는 힘든 일이고 단기적으로 속도가 느려지겠지만, 궁극적으로는 똑같이 유능하고 강력한 모델이라는 동일한 지점에 도달할 것입니다. 전 세계 출판사가 덮개를 씌우고 공유지를 파괴하도록 강요하지 않고, 전 세계 창작자를 여러분에게 대항시키지 않으면서 말입니다.

필자의 한 마디

AI 기술의 발전은 멈출 수 없지만, 그 발전이 창작자의 희생 위에 세워져서는 안 됩니다. 라이선스는 단순한 법적 절차가 아니라 존중의 표현입니다. 더 많은 AI 회사가 Fairly Trained에서 인증한 회사의 사례를 따라 모든 학습 데이터에 대한 라이선스를 취득하기를 바래봅니다. 생성형 AI와 인간 창의성이 평화롭게 공존할 뿐만 아니라 공생할 수 있는 미래는 분명 가능합니다. 험난한 시작이었지만, 방향을 바꾸기에는 너무 늦지 않았습니다.

자주 묻는 질문 (FAQ)

Q. 라이선스 기반 AI 모델의 성능은 무단 학습 모델보다 떨어지나요?

A. 아닙니다. Stability AI의 라이선스 음악 모델 사례처럼, 라이선스된 데이터로도 충분히 경쟁력 있는 모델을 만들 수 있습니다. 퍼블릭 도메인 데이터, 학습 데이터 마켓플레이스, 합성 데이터 등 다양한 합법적 데이터 소스가 존재하며, 이를 조합하면 고품질 모델 구축이 가능합니다.

Q. 창작자로서 내 작품이 AI 학습에 사용되는 것을 막으려면 어떻게 해야 하나요?

Q. 일반 소비자로서 윤리적인 AI를 지원하려면 무엇을 할 수 있나요?

A. 사용하는 AI 모델이 어떤 데이터로 학습되었는지 물어보세요. Fairly Trained 인증을 받은 서비스를 우선적으로 선택하고, AI 기업에 라이선스 취득을 요구하는 피드백을 보내세요. 소비자의 선택이 시장을 움직입니다.

--- [출처] 영상 제목/채널명: How AI Models Steal Creative Work — and What to Do About It | Ed Newton-Rex / TED https://youtu.be/U9d0p96N1iw?si=1iYx8Evdv273pApK

Interview Insight's Blog