[칼럼]고양이와 인공지능

양자역학의 사고실험인 '슈뢰딩어의 고양이'는 관측되기 전까지 고양이가 살아 있는지 죽어 있는지 알 수 없다는 역설을 통해, 상태가 확정되지 않은 세계를 보여준다. 최근 논의되고 있는 인공지능(AI) 학습과 저작권 문제를 보면 자꾸 이 고양이가 떠오른다.

국가인공지능전략위원회가 최근 발표한 '대한민국 인공지능 행동계획'은 문화체육관광부에게 "인공지능 학습 시 사전 동의를 원하는 창작자의 권리를 존중하면서, 기업이 학습 목적으로 불확실성 없이 저작물을 활용할 수 있도록" 하는 저작권법 개정안을 마련하라고 요구한다. 그냥, 따뜻한 아이스아메리카노 한 잔만 부탁하는 것이다.

AI가 학습 대상으로 삼기 전까지 저작물은 분명 저작권법의 보호를 받는다. 그러나 기업이 이를 'AI 학습 목적'으로 이용하겠다고 하는 순간, 그 저작물의 법적 지위는 갑자기 불분명해진다. 보호되는 저작물인지, 아니면 예외적으로 자유롭게 이용할 수 있는 데이터인지조차 알기 어렵다. 마치 상자를 열기 전의 고양이처럼, 저작권은 있는 것 같기도, 없는 것 같기도 한 상태에 놓인다.

법은 원래 행위 이전에 권리와 의무의 범위를 예측할 수 있도록 설계돼야 한다. 그런데 AI 학습이라는 행위 앞에서 저작물의 법적 성격이 유동적으로 변한다면, 이는 기술 친화적 유연성이 아니라 법적 안정성의 후퇴에 가깝다. 창작자는 자신의 권리가 언제 사라지는지 알 수 없고, 기업은 어디까지가 안전한 이용인지 사전에 확신할 수 없게 된다. 그렇다고 "텍스트 데이터마이닝"(TDM)과 같은 규정을 신설하여 인공지능 기업에게 포괄적인 면책을 해주는 것이 답일까?

이 장면은 우리에게 낯설지 않다. 1990년대 말과 2000년대 초, 미국은 인터넷 산업을 키운다는 명분 아래 두 개의 강력한 면책 조항을 만들었다. 하나는 DMCA의 저작권 면책 조항이고, 다른 하나는 통신품위법(CDA) 제230조였다. 인터넷 플랫폼은 타인의 콘텐츠에 대해 책임지지 않아도 된다는 이 규정들은 당시 혁신의 촉매제로 찬사를 받았다. 실제 인터넷 기업들은 이 면책 위에서 폭발적으로 성장했다.

그러나 20여 년이 지난 지금, 그 면책 조항들은 더 이상 중립적인 보호막으로만 평가되지 않는다. 저작권 침해의 구조적 방치, 허위정보와 혐오 표현의 확산, 플랫폼의 과도한 권력 집중은 모두 "성장을 위해 일단 면책부터 해주자"는 선택의 후과로 지적된다. 최근 미국에서 DMCA와 CDA 제230조를 재검토하거나 축소해야 한다는 논의가 본격화되고 있는 이유도 여기에 있다.

AI 학습을 둘러싼 현재의 논의는 이 오래된 유혹을 다시 반복하려는 듯 보인다. 산업 경쟁력과 기술 주도권을 이유로, 학습 단계에서의 광범위한 저작권 침해에 대한 면책을 부여하자는 목소리가 커지고 있다. 하지만 한 번 주어진 면책은 되돌리기 어렵고, 그 부작용은 언제나 시간이 지난 뒤에야 모습을 드러낸다.

AI 학습은 인터넷 플랫폼보다 훨씬 더 광범위한 창작물과 산업을 흡수한다. 텍스트, 음악, 영상, 그림, 코드 등 거의 모든 창작물이 학습 대상이 된다. 기업들은 흔히 인공지능 학습을 '패턴 학습'이라며 독서에 비유하지만, 수십억 건의 데이터를 상업적으로 복제·가공해 원작자의 현존하는 시장뿐만 아니라 잠재적 시장까지 잠식하는 행위를 단순한 '학습'으로 볼 수 없다.

방대한 면책을 통해 가능해진 광범위한 자료의 '학습'으로 AI가 학습 데이터 원본을 재생할 수 있다면, 이는 원본에 대한 저작권 침해다. 설령 AI기업이 원본의 복제에 가까운 재생은 불가능하도록 장치를 마련하더라도, 학습된 저작물의 보호 여부가 사후적으로 결정되는 구조라면 문제의 본질은 달라지지 않는다. 그 순간 저작권법은 기술 작동의 논리에 종속되어, 슈뢰딩어의 고양이처럼 살아있기도 하고, 죽어있기도 한 정체불명의 법으로 전락한다.

게다가 이미 '커먼 크롤'(Common Crawl)과 같이 대규모로 인터넷을 긁어서 확보한 웹 스크래핑 데이터가 인공지능 학습의 핵심연료로 사용되던 시기는 지났다. 무분별하게 수집한 데이터는 생성형 인공지능의 치명적 문제인 환각을 키운다. 지금은 고품질의 관리된 데이터가 AI 성능을 좌우하는 시대다.

AI 기업은 이미 돈을 주고 고품질 데이터를 사서 쓴다. 출판사와 학술지, 글쓰기 플랫폼, 전문가가 제작한 데이터, 큐레이션 데이터 등은 계약을 통해 이용 허락을 받는다. 그렇다면 이제 필요한 것은 더 넓은 면책이 아니라, 이러한 계약의 대가가 실제 창작자에게 돌아가도록 하는 제도다. 유럽은 이미 그 방향으로 나아가고 있고, 미국도 시장을 중심으로 유사한 흐름이 나타나고 있다.

AI 산업의 성장은 중요하다. 그러나 우리는 알고 있다. 법의 예외와 면책은 혁신을 촉진할 수 있지만, 그 설계가 조악할 경우 사회 전체가 오랜 시간 비용을 치르게 된다. 면책조항을 우선하기보다는, 최소한 어떤 데이터를 썼는지 밝히는 투명성의 의무화와, 나아가 이를 바탕으로 한 공정한 보상 체계 같은 안전장치를 먼저 논의해야 한다. 그것이 과거의 면책이 남긴 교훈이다.

/조희경 홍익대학교 법과대학 부교수