해외동향

Vol.47  2023. 09.

게시물 상세

 

전 세계 생성형 AI 저작권 논란

 

 

 

이상덕(〈매일경제〉 기자)

 

2023. 09.


 

“훌륭한 예술가는 가까운 곳에서 베끼고, 위대한 예술가는 멀리서 훔친다.”
- 파블로 피카소(Pablo Picasso) -

 

파블로 피카소의 화풍으로 그린 AI 로봇(미드저니(Midjourney)로 제작)

파블로 피카소의 화풍으로 그린 AI 로봇(미드저니(Midjourney)로 제작)

 

 

생성형 AI는 기회인가 위기인가?

 

생성형 인공지능(AI)이 급부상하면서 전 세계 곳곳에서 저작권 침해 논란이 일고 있다. 막대한 분량의 문장과 그림을 학습한 생성형 AI가 크리에이터의 업무를 빠르게 잠식하고 있기 때문이다. 대표적인 사례는 할리우드다. 미국 배우·방송인 노동조합(Screen Actors Guild - American Federation of Television and Radio Artists, SAG - AFTRA)은 올해 7월 총파업에 돌입했다. 파업의 다양한 이유 중 하나는 인공지능으로 인한 저작권 침해다. 〈로스앤젤레스 타임스(Los Angeles Times)〉 등에 따르면, 이들은 스튜디오가 AI를 활용해 이미지를 재가공하는 것을 염려하고 있다. 제작사로 구성된 제작자연맹(Alliance of Motion Picture and Television Producers, AMPTP)은 회사가 촬영 이미지를 소유하고 이를 AI로 작업할 수 있는 권리를 요구했다. 이에 반해 배우들은 초상권 보호를 요구하고 나섰다.

 

할리우드의 배우와 작가는 생성형 AI가 크리에이터 시장을 송두리째 바꿀지 모른다고 염려하고 있다. 현재의 기술만으로도 인공지능을 활용해 대본을 다듬을 수 있고, 죽은 배우의 모습을 딥페이크(Deep fake)로 살려낼 수 있다. 이러한 움직임은 배우들의 빈익빈 부익부를 초래할 수 있다. 1급 배우들은 연기를 하지 않고도 오히려 수입을 올릴 수 있는 데 반해, 무명 배우들은 유명세를 얻기 힘들어질 수 있다는 것이다. 배우 톰 행크스(Tom Hanks)는 “내가 당장 교통사고로 죽어도 계속 연기할 수 있다는 이야기”라며 여운을 남기기도 했다. 음악은 또 어떠한가. 유튜브에서는 고인이 된 퀸(Queen)의 보컬리스트 프레디 머큐리(Freddie Mercury)가 마이클 잭슨(Michael Jackson)의 “스무스 크리미널(Smooth Criminal)”을 부른다. 인공지능 목소리다. 또 아마존 전자책 서점에는 챗GPT(ChatGPT)를 활용해 생성한 책 500여 종이 출판돼 있다. 장르는 동화책과 소설책 등 가리지 않는다.

 

저작권 논란이 일어날 수밖에 없다. 저작권은 창작물을 만든 저작자가 본인의 저작물에 대해 갖는 배타적인 법적 권리로, 대부분의 국가에서 인정되는 권리다. 하지만 문제는 인공지능이 어떤 저작물을 침해했는지 알기 어렵다는 데 있다. 특히 현재는 관련법이 정비돼 있지 않아, 소송으로 해결할 수밖에 없는 상태다.

 

유튜브에 올라 온 AI 프레디 머큐리

유튜브에 올라 온 AI 프레디 머큐리

 

 

소송으로 이어진 저작권 논란… 관련 입법 제정 현황은?

 

저작권 침해 논란은 곧 소송으로 이어진다. 대표적인 곳이 챗GPT 개발사인 오픈AI(OpenAI)와 바드(Bard)를 만든 구글(Google)이다. 올해 6월 미국의 법률회사 클라크슨(Clarkson Law Firm)은 오픈AI를 상대로 집단 소송을 걸었다. 오픈AI가 법을 위반하고 데이터를 모아 생성 AI 모델 훈련에 사용했다는 주장이다. 이들은 총 157페이지에 걸친 문서를 통해 오픈AI를 문제 삼았다. 특히 온라인 정보, 쿠키, 키 입력, 채팅 내용, 결제 정보 등을 불법 수집해 인공지능을 학습시켰다고 주장한다. 클라크슨은 원고를 대신해 “오픈AI는 그 많은 데이터를 어디서, 어떻게 수집했는지 투명하게 공개해야 한다”면서 “데이터 소유자 동의 없이 활용했을 경우, 오픈AI는 처벌받아야 한다”고 주장했다.

 

이들은 더 나아가 올해 7월 구글을 상대로도 집단 소송을 걸었다. 구글이 수억 명의 사용자가 인터넷에서 만들고 공유한 모든 것을 훔쳐 생성형 AI를 훈련시켰다는 주장이다. 빅테크 기업을 향한 저작권 소송은 구글이나 오픈AI에 그치지 않는다. 미국 작가인 사라 실버맨(Sarah Silverman) 등 3명은 라마2(LLaMA)를 개발한 메타(Meta)에 소송을 걸었다. 인공지능 업체를 상대로 한 소송은 작년부터 이어졌지만 올해 들어 그 속도와 대상이 더 빨라지고 넓어지고 있다.

 

지난해에도 소송이 있었지만 올해처럼 전방위적이지는 않았다. 지난해에는 오픈 소스 기반 생성형 AI인 스테이블 디퓨전(Stable Diffusion)을 만들어낸 스태빌리티 AI(Stability AI)가 유럽과 미국에서 잇따라 소송을 당했다. 또 게티 이미지(Getty Images)는 이와 별도로 스태빌리티 AI를 상대로 미국 델라웨어주 법원과 영국 법원에 소송을 걸었다. 지난해에는 스타트업 대상 소송이 많았는데 올해는 빅테크로 넘어온 것을 확인할 수 있는 대목이다. 그만큼 인공지능의 발전으로 저작권을 침해받고 있다고 믿는 사람들이 늘어난 셈이다.

 

이러한 사람들의 분노에 전 세계 정부는 관련 입법을 준비 중이다. 생성형 AI는 프롬프트(prompt) 창에 문장만 입력하면 글과 이미지를 만들어 내는데, 이는 수많은 데이터를 학습한 결과이고, 따라서 인공지능이 만들어 낸 창작물이 누구 소유인지 밝혀야 한다는 것이다. 현재 저작권 문제 해결에 가장 앞장선 곳은 유럽연합(EU)이다. 유럽연합은 회원국 내에서 생성형 AI 모델을 배포하는 기업을 상대로 ‘라이선스 현황’을 공개하는 방안을 추진하고 있다. 챗GPT를 비롯한 수많은 AI 기업이 부상하면서 저작권 논란이 일자 이를 사전에 차단하겠다는 메시지다.

 

이는 유럽연합에 미국처럼 빅테크 기업이 없다보니 자국 산업 보호보다는 자국 데이터 보호에 앞장서고 있어서다. 유럽연합의 인공지능법(Artificial Intelligence Act, AIA) 초안에 따르면, 챗GPT와 같은 인공지능 개발 업체는 시스템 구축에 사용된 ‘저작권 현황 자료’를 공개해야 한다. 어떤 데이터를 학습했는지 인공지능 개발 기업이 스스로 밝혀, 향후 저작권 논란 발생 시 보다 소송을 쉽게 하겠다는 메시지다. 유럽연합의 생성형 AI 규제안이 최종 문턱을 넘을 경우 빅테크 기업은 상당한 타격을 받을 수밖에 없다. 오픈AI는 막대한 데이터를 챗GPT에 학습시켰지만 구체적으로 어떤 자료를 사용했는지는 함구했기 때문이다. 그동안 빅테크 기업은 학습에 사용한 원자료의 출처를 밝힌 적이 없다. 만약 유럽연합의 새로운 AI 규제 법안이 마련된다면 오픈AI와 같은 생성형 AI업체는 데이터 출처를 밝혀야 하고, 저작권 동의가 없는 데이터를 학습했을 경우 소송에 직면할 수 있다. 자칫하면 소송 비용으로 파산할 수도 있는 대목이다. 빅테크 기업은 인공지능이 학습한 데이터를 밝히고 하나하나에 저작권 수수료를 지급할 경우 인공지능 개발 자체가 불가능하다고 판단한다.

 

또 유럽연합은 인공지능 법안 초안에서 ‘허용 불가 위험’, ‘고위험’, ‘제한된 위험’, ‘최소 위험’으로 나누고 각 분류에 따라 법적 의무를 부과하는 한편, 특정 분야의 AI 기술 자체를 금지하는 등 강도 높은 규제 방안을 예고하고 있다. 유럽연합은 이런 내용을 인공지능법에 담아 단계별 협상을 진행할 방침이다. 현재 유럽의회를 통과해 유럽연합의 집행위원회와 의회, 각료이사회의 3개 기관 간 협상 절차를 기다리고 있는 상태다. 올해 안에 최종안을 만들어낸다는 목표를 갖고 있다. 다만, 미국의 입김이 작용할 여지는 있다. 미국은 빅테크 기업을 보유하고 있어 자국 산업 보호에도 신경을 써야 한다. 빅테크 기업으로서는 방대한 훈련 데이터에 대해 저작권을 일일이 밝혀서 문서로 공개하도록 의무화하는 조항은 사실상 받아들이기 어려울 것으로 보인다.

 

이는 초거대 인공지능(파라미터 수가 10억 개 이상인 인공지능)이 학습한 데이터의 양이 상상을 초월하기 때문이다. 챗GPT의 근간이 되는 초거대 인공지능인 GPT-3.5는 엄청난 데이터를 학습했다. 공개된 것만 웹에서 수집한 말뭉치 토큰이 4,100억 개, 추가 웹 텍스트 190억 개, 책에 있는 문장 670억 개, 위키피디아 단어 30억 개에 달한다. 이런 데이터에 대한 목록을 작성할 수 있는 기업은 드물다. 미국의 빅테크 기업은 방대한 데이터의 저작권 추적이 불가능하다고 호소하고 있어서 최종 조율 결과를 지켜봐야 한다. 또 공포 시점도 이르진 않다. 유럽연합은 연내 법안을 목표로 하고 있지만, 도입은 2025년이 될 전망이다. 유예 기간을 둘 수도 있고 각국의 개별법과 통합하는 과정이나 규제 실무 역량 마련 등이 다르기 때문이다. 하지만 유럽연합은 저작권 목록 공개에 대한 의지를 거듭 밝힌 상태라 원칙은 지키지 않겠느냐는 전망이 우세하다.

 

미국은 유럽연합에 비해 속도가 더디다. 빅테크 기업을 보호하는 방안을 함께 고민하고 있기 때문이다. 〈로이터(Reuters) 통신〉과 〈월스트리트 저널(The Wall Street Journal)〉 등 언론에 따르면 미국 상무부 산하 통신정보관리청(National Telecommunications and Information Administration, NTIA)은 인공지능 규제안에 대한 여론을 수렴했다. 앨런 데이비드슨(Alan Davidson) NTIA 청장은 “합법적, 효율적, 윤리적이면서 안전하고 믿을 수 있는 인공지능 시스템을 보장하려는 방안이 있는지 살펴보려고 한다”고 설명했다. NTIA는 여론조사 결과를 조 바이든(Joe Biden) 대통령에게 보고하며, 보고서는 인공지능에 대한 정책 권고안 형태로 이뤄진다.

 

생성형 AI에 대한 규제 도입이 어려운 이유는?

 

미국의 접근법은 유럽연합과 다소 다르다. 유럽이 규제 일변도라면 빅테크 기업을 보유한 미국은 미국과 중국 간 대립 구도로 인공지능을 바라보고 있다. 바이든 행정부가 유럽연합에 비해 시장 공급자 목소리에 귀를 기울이며 훨씬 신중한 정책 행보를 보이는 것은 ‘AI 패권’이라는 중요한 국가 이익이 걸려 있기 때문이다. 현재 미국과 중국이 AI 주도권을 놓고 치열한 경쟁을 벌이고 있는 가운데 미국이 AI 서비스의 미래 위험성에 무게를 두고 서비스 출현 초기부터 지나친 규제를 앞세우면 AI 패권 경쟁에서 스스로 경쟁력을 포기하는 오판을 할 수 있다는 위기의식이 팽배해 있다. 이와 관련해 에릭 슈미트(Eric Schmidt) 전 구글 회장은 “가능한 한 빨리 모여 적절한 가드레일(안전장치)을 만드는 것이 필요하다”면서도 “일부의 주장처럼 개발 유예를 준다는 것은 단순히 중국에 이익이 될 것이기 때문에 찬성하지 않는다”고 말했다. 또 레이스 캐피털(Race Capital)의 파트너인 에디스 영(Edith Yeung)은 “AI 모델은 학습할 수 있는 데이터가 좋아야 더 좋아진다”면서 “중국은 미국보다 규제가 덜해 (AI가 학습할 수 있는) 데이터가 훨씬 많다”라고 강조했다. 유럽연합과 시각 차이가 있는 대목이다.

 

중국 역시 규제를 준비하고 있지만, 관심은 정보 통제에 있다. 중국은 올해 4월 중국 국가인터넷정보판공실(Cyberspace Administration of China, CAC)을 중심으로 AI 규제 초안을 마련했다. 초안에 따르면 생성형 AI 서비스 이용자는 반드시 실명을 사용해야 하고, AI를 개발하는 업체는 제품을 출시하기 전에 보안 평가를 실시해 당국에 결과를 제출하도록 했다. 특히 국가 통합을 저해하지 않도록 ‘핵심 사회주의 가치’가 반영될 것을 명시하고 있다. 생성형 AI를 미·중 기술 전쟁의 중요한 무기로 인식하면서 서비스 자체를 규제하기보다는 콘텐츠를 관리하는 접근법이다. AI 확산으로 자칫 ‘핵심 사회주의 가치’가 흔들릴 수 있다는 우려에서 서비스 이용자의 실명 사용 등을 규정하고 있는 것이다.

 

인공지능 기업이 저작권에 대한 침해 여부를 공개하더라도 이를 법으로 해결하는 것은 쉽지 않을 것이라는 전망도 있다. 미국에서는 저작권 소송에 최소 50만 달러 이상이 필요한 것으로 알려졌다. 그만큼 영세한 크리에이터들에게 소송은 어려운 일이다. 또 다른 문제는 구체적인 상황, 소송이 제기된 관할 지역, 적용 가능한 법률과 규정 등 다양한 요인에 따라 판결이 달라진다는 데 있다. 특히 블로그 글, 수많은 이메일 편지, 소셜미디어에 올린 직접 그린 그림, 디지털 카메라로 촬영한 사진 등은 법의 보호를 받을 수 없다. 미국의 경우 저작권청에 등록된 콘텐츠만이 저작권 보호 대상이기 때문이다.

 

만약 생성형 AI가 공개 자료와 저작권청 미등록 문장 및 이미지만 학습했다면, 실제 법적 다툼에서는 원저작자를 보호하기 힘들어질 수 있다. 또 불법으로 데이터를 학습한 인공지능이 생성한 그림이나 문장을 의도치 않게 뉴스 미디어에 사용할 경우에도 면책될 가능성이 높다. 바로 ‘공정한 사용(Fair use)’이라는 조항 때문이다. 미국은 허락 없이 저작물을 연구하거나, 학문이나 비평용으로 쓰거나, 알 권리인 저널리즘을 위해 쓰는 데 있어 관대하다. 즉 ‘변형적(transformative)’ 목적으로 사용한 경우 면책이 가능한 것이다. 만약 법원이 이를 ‘공정한 사용’으로 판단하면 침해에 대해 책임을 피할 수 있다.

 

현재 빅테크 기업들은 저작권 보호에는 일정 부분 동의하면서도 전 세계적으로 통일된 지침이 제정되기를 희망하고 있다. 앞서 샘 올트먼(Sam Altman) 오픈AI 최고경영자(CEO)는 ‘AI에 과도한 규제 경계’ 메시지를 강조하면서 전 세계 투어에 나섰고, 닉 클레그(Nick Clegg) 메타 사장은 기자와의 인터뷰에서 “생성형 AI에 대한 규제는 전 세계적인 현상”이라면서 “중요한 것은 규제를 통일하는 것이며 각각 규제를 만든다면 개발자들은 AI를 만들기 어려워질 것”이라고 염려했다.

 

생성형 AI 부상으로 관련 법안이 향후 수년 내 정비가 되겠지만, 인공지능의 데이터 침해 논란에 대해 명쾌한 답을 얻기란 한동안 어려울 것으로 보인다.

 

이상덕

이상덕 〈매일경제〉 기자

실리콘밸리 특파원을 거쳐 현재 디지털테크부 기자로 활동하고 있다. 대한민국 CEO들이 가장 애독하는 테크 뉴스레터 “미라클레터”를 집필하고 있으며, 테크업계의 새해 행사로 불리는 CES에서 딥테크 기술을 판정하는 혁신상 심사위원으로 활동 중이다.
rexjuris@gmail.com

 

해외동향 다른 기사보기 View More