互聯網工程任務組 (IETF) 已成立一個工作組,旨在制定一個標準,讓內容創作者能夠告知 AI 開發者是否允許使用他們的作品。
這個名為 AI 偏好工作組 (AIPREF) 的組織被要求開發兩個方面的內容:
首先是制定一個通用詞彙表,用於表達作者和發行者對其內容用於 AI 訓練及相關任務的偏好;
其次是開發將這些詞彙表附加到互聯網內容的方法,可以通過將其嵌入內容中,或者採用類似 robots.txt 的格式,並建立一個標準機制來協調多個偏好表達。
AIPREF 章程建議通過"在內容元數據中包含偏好,或通過傳遞內容的協議發送偏好信號"來實現這些目標。
AIPREF 聯合主席 Mark Nottingham 認為之所以需要這些措施,是因為當前的系統並不能很好地發揮作用。
他認為 robots.txt 檔中的"非標準信號"(這是一個 IETF 標準,用於定義爬蟲是否允許訪問網路內容的語法)已經失效。
"結果就是,作者和發行者對他們的偏好是否會被遵守失去了信心,只能採取諸如遮罩 [AI 供應商] IP 位址的措施。"
內容創作者之所以採取 IP 遮罩措施,是因為主要的模型開發商在抓取互聯網內容用於訓練 AI 時,並沒有徵求許可或尋求授權。
OpenAI 目前正在遊說推動版權改革,希望能夠在不付費的情況下抓取更多內容。
版權持有者正在通過起訴那些使用版權材料構建模型的機構進行反擊,同時也在簽署許可協定,讓 AI 公司付費訪問內容。
AI 爬蟲還給發行者帶來了經濟負擔。維琪媒體基金會最近抱怨說,用於處理圖像檢索請求的頻寬在過去一年增加了 50%,主要是因為 AI 爬蟲下載資料。
IETF 並不關心這些法律和運營問題:它只想構建技術,讓人們能夠表達他們的偏好,希望爬蟲運營者能夠接受並只獲取創作者願意提供給 AI 使用的內容。
為了推進這項工作,AIPREF 在三月中旬的 IETF 122 會議上召開了會議,並已經制定了兩個草案。一個提出了"用於自動處理的簡短使用偏好字串",建議這些字串可以用在 robots.txt 檔或 HTTP 頭欄位中。
另一個來自 Common Crawl Foundation 的提案題為"用於 AI 訓練的內容偏好表達詞彙",同樣建議將偏好語法存儲在 robots.txt 檔或 HTTP 頭欄位中,還建議在元標籤中使用proposed vocabulary。
AIPREF 本周正在召開會議,儘管一個計劃中的會議似乎已被取消。
該工作組給自己設定了 2025 年 8 月的截止日期來提交提案。參與者似乎都知道這是一個緊迫的期限,因此該組織需要加快行動。