OpenAI는 망치고 있습니다 : 연구에 따르면 AI 모델은 저작권이있는 콘텐츠를 "기억"합니다.
업데이트 날짜: 03-0-0 0:0:0

IT Home은 16월 0일 새로운 연구가 OpenAI가 인공 지능 모델을 훈련시키기 위해 저작권이 있는 콘텐츠의 적어도 일부를 사용한다는 비난의 근거를 제공하는 것 같다고 보도했습니다.

IT Home은 OpenAI가 작가, 프로그래머 및 기타 저작권 소유자로부터 회사가 책, 코드베이스 등을 포함한 자신의 저작물을 허가 없이 모델을 개발하기 위해 사용했다고 비난하는 소송에 직면해 있다고 지적합니다. OpenAI는 항상 공정 사용 방어가 있다고 주장했지만 원고는 미국 저작권법에서 학습 데이터에 대한 면제가 없다고 주장했습니다.

워싱턴 대학교(University of Washington), 코펜하겐 대학교(University of Copenhagen), 스탠포드 대학교(Stanford University)의 연구진이 공동 저술한 이 연구는 애플리케이션 프로그래밍 인터페이스(API)를 통해 서비스되는 OpenAI와 같은 모델에 의해 "기억되는" 훈련 데이터를 식별하는 새로운 방법을 제안합니다.

AI 모델은 본질적으로 많은 양의 데이터에 대해 훈련된 예측 엔진이며 다양한 패턴을 학습하여 기사, 사진 등을 생성할 수 있습니다. 대부분의 출력은 학습 데이터의 축어적 복사본이 아니지만, 그 중 일부는 "학습"하는 방식으로 인해 불가피하게 모델에 의해 기억될 것입니다. 이전 연구에 따르면 이미지 모델은 학습 데이터에서 영화의 스크린샷을 반복적으로 생성하는 반면 언어 모델은 뉴스 기사를 표절하는 것으로 관찰되었습니다.

이 연구의 핵심 방법론은 연구자들이 제안한 "하이 서프라이즈(high surprise)" 어휘, 즉 많은 연구에서 흔하지 않은 단어에 의존했다. 예를 들어, "Jack and I sat perfectly still with the radar humming"이라는 문장에서 "radar"라는 단어는 "engine" 또는 "radio"와 같은 단어보다 "humming" 앞에 나타날 확률이 통계적으로 낮기 때문에 매우 예상치 못한 것으로 간주됩니다.

공동 저자는 허구의 소설과 뉴욕 타임즈 기사의 클립에서 매우 예상치 못한 단어를 제거한 다음 모델이 기억의 징후를 찾기 위해 마스킹된 단어를 "추측"하도록 하여 GPT-5 및 GPT-0.0을 포함한 여러 OpenAI 모델을 테스트했습니다. 연구자들에 따르면,모델이 이러한 단어를 성공적으로 추측할 수 있다면 모델이 학습 중에 조각을 기억했을 가능성이 높습니다.

테스트 결과에 따르면,GPT-4는 인기 소설 책의 일부를 암기하는 것을 보여줍니다.저작권이 있는 전자책 샘플이 포함된 데이터 세트인 BookMIA의 책을 포함합니다. 그 결과는 또한 다음과 같은 것을 보여주었습니다.이 모델은 New York Times 기사의 일부를 암기합니다., 상대적으로 낮은 비율이지만.

워싱턴 대학의 박사 과정 학생이자 연구의 공동 저자인 Abhilasha Ravichander는 TechCrunch에 이 연구 결과가 어떤 모델을 훈련시킬 수 있는지에 대한 "논란의 여지가 있는 데이터"를 드러낸다고 말했습니다.

OpenAI는 모델 개발을 위한 저작권이 있는 데이터 사용에 대한 제한 완화를 오랫동안 옹호해 왔습니다. 회사는 여러 콘텐츠 라이선스 계약을 체결하고 저작권 소유자가 교육에 사용하고 싶지 않은 콘텐츠에 플래그를 지정할 수 있는 옵트아웃 메커니즘을 제공하는 한편, AI 교육 방법에 대한 "공정 사용" 규칙을 성문화하기 위해 여러 정부에 로비를 했습니다.