IT之家 4 月 2 日消息,IT之家從國家知識產權局中國專利公佈公告網獲悉,DeepSeek 關聯公司杭州深度求索人工智慧基礎技術研究有限公司申請的“一種廣度數據採集的方法及其系統”專利於 4 月 1 日公佈。
專利摘要顯示:
該發明的有益效果在於:發現盡可能多的網頁連結,並減少對網站的流量衝擊;對已經下載的內容進行分析,對未下載的鏈接進行品質推斷,通過擇優下載分配額度的方式,減少低品質網頁下載和重複下載,提高數據品質及下載效率,減少在數據採集過程中網路資源的消耗;採用單獨的資訊回灌佇列,保證網頁元資訊庫修改操作的原子性和穩定性。
背景技術稱:近年來,隨著人工智慧技術的進展,NLP 自然語言領域取得了巨大的進步。許多大語言模型 (Large Language Models,LLMs) 被訓練應用於自然語言處理領域,用於研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
大語言模型的訓練需要構建一個高品質、多樣化的大語言模型數據集,這需要將網頁數據採集並處理后得到大量高品質的文本資訊作為模型的輸入,用於大語言模型進行訓練。
然而,現有的數據採集技術存在諸多問題,比如對複雜網站進行採集時,無法獲取完整連結;容易過量下載,造成對方網站崩潰;對下載頁面不進行內容品質分析和推斷,造成重複下載或低質下載、影響數據採集的效率。
因此,在大量網頁數據獲取的過程中,如何快速、精準、安全、高效地採集互聯網數據變得至關重要。