AI의 무분별한 학습에 대응하는 기술적 해결책이 필요하다
인공지능(AI)의 급속한 발전으로 창작물의 저작권 보호 문제는 점점 더 중요한 사회적 과제로 부상하고 있다. 특히, 생성형 AI 모델이 대량의 데이터를 학습하고 이를 기반으로 새로운 콘텐츠를 생성하는 현상은 저작권이라는 권리에 대한 깊은 고찰을 요구한다.
최근 ChatGPT 개발에 참여했던 한 연구원이 AI 모델을 개발하기 위한 무분별한 데이터 학습이 인터넷 생태계를 파괴한다고 비판하며 회사를 떠났다. 이에 개발 회사는 저작물의 공정 이용(fair use) 원칙에 따라 데이터를 사용하고 있다고 반박했다. 또한, 한 대형 출판사는 AI 훈련에 자사의 출판물을 활용하는 것에 반대하는 입장을 명확히 했다. 이 출판사는 "이 책의 일부를 AI 훈련 목적으로 사용할 수 없다"라고 명시하기로 하며 저작권 보호에 적극적으로 나섰다. 온라인에서 스크래핑을 금지하는 것은 흔한 일이지만, 종이책에 이러한 내용을 추가하는 것은 처음이다.
수치르 발라지 연구원 (사진=X)
AI 개발에서의 저작권 침해 문제는 기술 발전의 필연적인 결과로 나타나고 있다. 우리 사회는 새로운 디지털 기술에 적응하여 공정 이용 기준을 재정립해야 한다. AI 학습에서 공정 이용의 개념을 정의하는 것은 쉽지 않다. 수백만 장의 영상 데이터를 학습하는 과정에서 일부가 저작권을 침해한 경우와 대부분의 데이터가 특정 예술가의 데이터로 학습한 경우를 동일하게 취급할 수는 없기 때문이다. 사회적 합의를 거쳐 공정 이용의 개념을 명확히 하고, 그에 맞는 AI 생성물의 저작권 규제를 구체화해야 한다.
AI 사용자가 생성된 콘텐츠를 사용할 때 저작권 문제가 발생할 가능성을 경고하는 기능을 포함하는 것도 중요한 대응책이다. 이러한 방식으로 AI의 책임성을 강화하고 저작권 보호 문제를 줄일 수 있다. AI 개발자들은 AI 모델의 학습에 사용되는 데이터를 철저히 검토하고, 책임 있는 행동을 취해야 한다. 개발자는 자신의 AI 모델이 타인의 저작권을 침해하지 않도록 사전에 학습 데이터셋을 필터링하는 것이 바람직하다. 이렇게 함으로써 안전하고 책임 있게 AI 모델을 학습하여 법적 소송에 연루되거나 개발된 모델을 폐기하는 상황을 피할 수 있을 것이다.
저작권 침해에서 자신의 저작물을 보호하기 위해 창작자 스스로 강력한 법적 대응을 하는 것뿐만 아니라 기술적 대응도 필요하다. 다양한 기술적 대응책이 개발되고 있다. 생성물의 출처 표시와 데이터셋의 원천 추적 기술은 추후 법적 분쟁에서 창작자의 권익을 보호하기 위한 최소한의 방어책이다. 훈련 데이터에서 저작권이 해결되지 않은 데이터를 자동으로 선별하는 필터링 기술은 AI 개발자의 책임성을 강화하고 이를 구현하는 데 도움을 준다.
최근에는 불법 학습으로부터 저작물을 적극적으로 보호하는 기술들이 속속 개발되고 있다. 영상 예술 작품에 미세한 변화를 가해 AI 모델이 학습하지 못하도록 하는 방법들이 효과를 보고 있다. 인간의 눈에는 이상하지 않게 픽셀을 섞어 놓아 AI가 특정 이미지를 인식하지 못하게 만드는 것이 효과를 보았다. 또 동의 없이 이미지를 가져다 학습하면 AI 모델 자체를 '붕괴'시키는 컴퓨터 바이러스형 응징 방법도 있다. 픽셀에 작은 변형 데이터를 주입해, 이 이미지를 사용한 데이터셋을 오염시켜 이를 학습한 AI 모델의 전반적인 정확도를 떨어뜨리는 것이다.
최근 공개된 Glaze(https://glaze.cs.uchicago.edu)는 AI 모델의 학습을 방해하기 위해 원본 작품을 다른 스타일로 전이한다. 작품의 내용은 유지하면서 스타일만 변경하는 것이다. 예를 들어, 인상주의 그림을 입체파 스타일로 변환하는 방식이다. 스타일이 전이된 작품과 원본 작품의 특징 표현 차이를 최소화하기 위해 미세한 변화(perturbation, 섭동)를 가미한다. 이를 "스타일 망토"라고 한다. 이렇게 망토가 적용된 작품으로 AI 모델이 학습하면 예술가의 실제 스타일이 아닌 전이된 스타일을 학습하게 된다. 즉, 원본 스타일을 망토가 가려서 AI가 이를 모방하는 것을 효과적으로 방해하는 것이다. 이 기술의 핵심은 도입한 미세한 변화가 작품의 가치를 훼손하지 않을 만큼 작아야 한다는 점이다. 한 설문 조사에서 예술가의 92% 이상이 Glaze가 도입한 미세한 변화가 작품의 가치를 훼손하지 않는다고 판단해 이를 사용하고 싶다고 응답했다.
이러한 기술적 대응은 법적 규제를 보완하는 역할을 하며, 이를 통해 AI 훈련에서 저작권 문제를 더욱 효과적으로 해결할 수 있다. 저작권 문제는 법적 대응과 기술적 대응이 함께 이루어져야 한다. 기술만으로는 저작권 문제를 완벽히 해결하기 어렵고, 법적 규제가 없는 상태에서는 저작권 보호에 한계가 있기 때문이다. AI가 창출하는 가능성은 무궁무진하지만, 그와 동시에 발생하는 윤리적, 법적 문제를 해결하기 위해서는 기술과 정책의 균형 잡힌 발전이 필요하다.
| 김진형 교수 마크애니 김진형 고문은 카이스트 명예교수로, 1세대 소프트웨어 개발자로서 1973년부터 KIST에서 개발자로 일했다. UCLA에서 컴퓨터과학 박사학위를 받은 후 미국 휴즈연구소에서 인공지능을 연구했다. 1985년부터 KAIST 전산학과 인공지능연구실을 이끌며 약 100명의 석·박사 전문 인력을 양성했다. KAIST에서 학과장, 인공지능연구센터 소장, 소프트웨어 대학원장을 역임했다. ‘AI 최강의 수업’, ‘인공지능 메타버스 시대 미래전략(공저)’ 등의 저서를 썼다. |
AI와 정보보안을 결합한 솔루션에 관심이 있으신가요? 마크애니의 AI 기반 보안 솔루션으로 더 안전한 시스템을 구축할 수 있습니다.
아래 알아보기를 눌러 마크애니 보안 솔루션에 대해서 더 자세히 알아보세요.
AI의 무분별한 학습에 대응하는 기술적 해결책이 필요하다
인공지능(AI)의 급속한 발전으로 창작물의 저작권 보호 문제는 점점 더 중요한 사회적 과제로 부상하고 있다. 특히, 생성형 AI 모델이 대량의 데이터를 학습하고 이를 기반으로 새로운 콘텐츠를 생성하는 현상은 저작권이라는 권리에 대한 깊은 고찰을 요구한다.
최근 ChatGPT 개발에 참여했던 한 연구원이 AI 모델을 개발하기 위한 무분별한 데이터 학습이 인터넷 생태계를 파괴한다고 비판하며 회사를 떠났다. 이에 개발 회사는 저작물의 공정 이용(fair use) 원칙에 따라 데이터를 사용하고 있다고 반박했다. 또한, 한 대형 출판사는 AI 훈련에 자사의 출판물을 활용하는 것에 반대하는 입장을 명확히 했다. 이 출판사는 "이 책의 일부를 AI 훈련 목적으로 사용할 수 없다"라고 명시하기로 하며 저작권 보호에 적극적으로 나섰다. 온라인에서 스크래핑을 금지하는 것은 흔한 일이지만, 종이책에 이러한 내용을 추가하는 것은 처음이다.
수치르 발라지 연구원 (사진=X)
AI 개발에서의 저작권 침해 문제는 기술 발전의 필연적인 결과로 나타나고 있다. 우리 사회는 새로운 디지털 기술에 적응하여 공정 이용 기준을 재정립해야 한다. AI 학습에서 공정 이용의 개념을 정의하는 것은 쉽지 않다. 수백만 장의 영상 데이터를 학습하는 과정에서 일부가 저작권을 침해한 경우와 대부분의 데이터가 특정 예술가의 데이터로 학습한 경우를 동일하게 취급할 수는 없기 때문이다. 사회적 합의를 거쳐 공정 이용의 개념을 명확히 하고, 그에 맞는 AI 생성물의 저작권 규제를 구체화해야 한다.
AI 사용자가 생성된 콘텐츠를 사용할 때 저작권 문제가 발생할 가능성을 경고하는 기능을 포함하는 것도 중요한 대응책이다. 이러한 방식으로 AI의 책임성을 강화하고 저작권 보호 문제를 줄일 수 있다. AI 개발자들은 AI 모델의 학습에 사용되는 데이터를 철저히 검토하고, 책임 있는 행동을 취해야 한다. 개발자는 자신의 AI 모델이 타인의 저작권을 침해하지 않도록 사전에 학습 데이터셋을 필터링하는 것이 바람직하다. 이렇게 함으로써 안전하고 책임 있게 AI 모델을 학습하여 법적 소송에 연루되거나 개발된 모델을 폐기하는 상황을 피할 수 있을 것이다.
저작권 침해에서 자신의 저작물을 보호하기 위해 창작자 스스로 강력한 법적 대응을 하는 것뿐만 아니라 기술적 대응도 필요하다. 다양한 기술적 대응책이 개발되고 있다. 생성물의 출처 표시와 데이터셋의 원천 추적 기술은 추후 법적 분쟁에서 창작자의 권익을 보호하기 위한 최소한의 방어책이다. 훈련 데이터에서 저작권이 해결되지 않은 데이터를 자동으로 선별하는 필터링 기술은 AI 개발자의 책임성을 강화하고 이를 구현하는 데 도움을 준다.
최근에는 불법 학습으로부터 저작물을 적극적으로 보호하는 기술들이 속속 개발되고 있다. 영상 예술 작품에 미세한 변화를 가해 AI 모델이 학습하지 못하도록 하는 방법들이 효과를 보고 있다. 인간의 눈에는 이상하지 않게 픽셀을 섞어 놓아 AI가 특정 이미지를 인식하지 못하게 만드는 것이 효과를 보았다. 또 동의 없이 이미지를 가져다 학습하면 AI 모델 자체를 '붕괴'시키는 컴퓨터 바이러스형 응징 방법도 있다. 픽셀에 작은 변형 데이터를 주입해, 이 이미지를 사용한 데이터셋을 오염시켜 이를 학습한 AI 모델의 전반적인 정확도를 떨어뜨리는 것이다.
최근 공개된 Glaze(https://glaze.cs.uchicago.edu)는 AI 모델의 학습을 방해하기 위해 원본 작품을 다른 스타일로 전이한다. 작품의 내용은 유지하면서 스타일만 변경하는 것이다. 예를 들어, 인상주의 그림을 입체파 스타일로 변환하는 방식이다. 스타일이 전이된 작품과 원본 작품의 특징 표현 차이를 최소화하기 위해 미세한 변화(perturbation, 섭동)를 가미한다. 이를 "스타일 망토"라고 한다. 이렇게 망토가 적용된 작품으로 AI 모델이 학습하면 예술가의 실제 스타일이 아닌 전이된 스타일을 학습하게 된다. 즉, 원본 스타일을 망토가 가려서 AI가 이를 모방하는 것을 효과적으로 방해하는 것이다. 이 기술의 핵심은 도입한 미세한 변화가 작품의 가치를 훼손하지 않을 만큼 작아야 한다는 점이다. 한 설문 조사에서 예술가의 92% 이상이 Glaze가 도입한 미세한 변화가 작품의 가치를 훼손하지 않는다고 판단해 이를 사용하고 싶다고 응답했다.
이러한 기술적 대응은 법적 규제를 보완하는 역할을 하며, 이를 통해 AI 훈련에서 저작권 문제를 더욱 효과적으로 해결할 수 있다. 저작권 문제는 법적 대응과 기술적 대응이 함께 이루어져야 한다. 기술만으로는 저작권 문제를 완벽히 해결하기 어렵고, 법적 규제가 없는 상태에서는 저작권 보호에 한계가 있기 때문이다. AI가 창출하는 가능성은 무궁무진하지만, 그와 동시에 발생하는 윤리적, 법적 문제를 해결하기 위해서는 기술과 정책의 균형 잡힌 발전이 필요하다.
김진형 교수
마크애니 김진형 고문은 카이스트 명예교수로, 1세대 소프트웨어 개발자로서 1973년부터 KIST에서 개발자로 일했다.
UCLA에서 컴퓨터과학 박사학위를 받은 후 미국 휴즈연구소에서 인공지능을 연구했다. 1985년부터 KAIST 전산학과 인공지능연구실을 이끌며
약 100명의 석·박사 전문 인력을 양성했다. KAIST에서 학과장, 인공지능연구센터 소장, 소프트웨어 대학원장을 역임했다.
‘AI 최강의 수업’, ‘인공지능 메타버스 시대 미래전략(공저)’ 등의 저서를 썼다.
AI와 정보보안을 결합한 솔루션에 관심이 있으신가요? 마크애니의 AI 기반 보안 솔루션으로 더 안전한 시스템을 구축할 수 있습니다.
아래 알아보기를 눌러 마크애니 보안 솔루션에 대해서 더 자세히 알아보세요.