IETF(Internet Engineering Task Force)는 콘텐츠 제작자가 AI 개발자에게 자신의 작업을 사용할 수 있는지 알릴 수 있는 표준을 개발하기 위해 실무 그룹을 설립했습니다.
AIPREF(AI Preference Working Group)라고 불리는 이 조직은 두 가지 영역에서 콘텐츠를 개발하라는 요청을 받았습니다.
첫 번째는 AI 교육 및 관련 작업을 위한 콘텐츠 사용에 대한 저자와 출판사의 선호도를 표현하는 공통 어휘를 개발하는 것입니다.
두 번째는 이러한 어휘를 콘텐츠에 포함시키거나 robots.txt와 같은 형식을 채택하고 여러 선호 표현을 조정하는 표준 메커니즘을 구축하여 인터넷 콘텐츠에 첨부하는 방법을 개발하는 것입니다.
AIPREF 헌장은 이러한 목표를 "콘텐츠 데이터에 선호도를 포함하거나 콘텐츠를 전달하는 프로토콜을 통해 선호도 신호를 전송"하여 달성할 것을 권장합니다.
AIPREF의 공동 의장인 마크 노팅엄(Mark Nottingham)은 현재 시스템이 잘 작동하지 않기 때문에 이러한 조치가 필요하다고 생각합니다.
그는 크롤러가 웹 콘텐츠에 대한 액세스를 허용하는지 여부를 정의하는 데 사용되는 구문을 정의하는 IETF 표준인 robots.txt 문서의 "비표준 신호"가 더 이상 유효하지 않다고 주장합니다.
"그 결과, 저자와 출판사는 자신의 선호 사항이 준수될 것인지에 대한 확신을 잃게 되고, [AI 공급업체의] IP 주소를 마스킹하는 등의 조치를 취해야 합니다."
콘텐츠 제작자는 주요 모델 개발자가 AI 교육을 위해 인터넷 콘텐츠를 스크랩할 때 허가를 요청하거나 승인을 구하지 않기 때문에 IP 차단을 사용하고 있습니다.
OpenAI는 현재 비용을 지불하지 않고 더 많은 콘텐츠를 긁어모을 수 있기를 희망하며 저작권 개혁을 위한 로비를 하고 있습니다.
저작권자들은 저작권이 있는 자료를 사용하여 모델을 만드는 사람들을 고소하는 동시에 AI 회사가 콘텐츠에 액세스하기 위해 비용을 지불할 수 있도록 하는 라이선스 계약에 서명함으로써 반격하고 있습니다.
AI 크롤러는 또한 퍼블리셔에게 재정적 부담을 줍니다. 위키미디어 재단(Wikimedia Foundation)은 최근 이미지 검색 요청을 처리하는 데 사용되는 대역폭이 지난 한 해 동안 50% 증가했다고 불평했는데, 이는 주로 AI 크롤러가 자료를 다운로드하기 때문입니다.
IETF는 이러한 법적 및 운영적 문제에 신경 쓰지 않습니다: 그들은 단지 사람들이 자신의 선호를 표현할 수 있는 기술을 구축하기를 원하며, 크롤러 운영자가 제작자가 AI에게 제공할 의사가 있는 콘텐츠만 수락하고 얻기를 원합니다.
이 작업을 진전시키기 위해 AIPREF는 3월 중순 IETF 122 회의에 소집되어 이미 두 개의 초안을 개발했습니다. 하나는 "자동화된 처리를 위한 짧은 사용 기본 설정 문자열"을 제안하여 이러한 문자열을 robots.txt 파일 또는 HTTP 헤더 필드에 사용할 수 있다고 제안합니다.
커먼 크롤 재단(Common Crawl Foundation)의 또 다른 제안인 'AI 훈련을 위한 콘텐츠 선호 표현 어휘(Content Preference Expression Vocabulary for AI Training)'도 robots.txt 파일이나 HTTP 헤더 필드에 선호 구문을 저장하고 메타 태그에 제안된 어휘를 사용할 것을 권장한다.
AIPROF는 이번 주에 회의를 가질 예정이지만, 계획된 회의는 취소된 것으로 보인다.
실무 그룹은 제안서를 제출하기 위해 8년 0개월의 기한을 설정했습니다. 참가자들은 마감 시간이 촉박하기 때문에 조직이 더 빨리 움직여야 한다는 것을 알고 있는 것 같았습니다.