DeepSeek 新專利公佈：減少數據採集時網路資源消耗_港資訊

DeepSeek 新專利公佈：減少數據採集時網路資源消耗

DeepSeek IT之家

更新于：2025-04-02 13:54:04

IT之家 4 月 2 日消息，IT之家從國家知識產權局中國專利公佈公告網獲悉，DeepSeek 關聯公司杭州深度求索人工智慧基礎技術研究有限公司申請的“一種廣度數據採集的方法及其系統”專利於 4 月 1 日公佈。

專利摘要顯示：

該發明的有益效果在於：發現盡可能多的網頁連結，並減少對網站的流量衝擊；對已經下載的內容進行分析，對未下載的鏈接進行品質推斷，通過擇優下載分配額度的方式，減少低品質網頁下載和重複下載，提高數據品質及下載效率，減少在數據採集過程中網路資源的消耗；採用單獨的資訊回灌佇列，保證網頁元資訊庫修改操作的原子性和穩定性。

背景技術稱：近年來，隨著人工智慧技術的進展，NLP 自然語言領域取得了巨大的進步。許多大語言模型 (Large Language Models,LLMs) 被訓練應用於自然語言處理領域，用於研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。

大語言模型的訓練需要構建一個高品質、多樣化的大語言模型數據集，這需要將網頁數據採集並處理后得到大量高品質的文本資訊作為模型的輸入，用於大語言模型進行訓練。

然而，現有的數據採集技術存在諸多問題，比如對複雜網站進行採集時，無法獲取完整連結；容易過量下載，造成對方網站崩潰；對下載頁面不進行內容品質分析和推斷，造成重複下載或低質下載、影響數據採集的效率。

因此，在大量網頁數據獲取的過程中，如何快速、精準、安全、高效地採集互聯網數據變得至關重要。

外星人推出 16/18 英寸Area-51 遊戲本，首發 RTX 5080 顯卡

外星人推出 16/18 英寸Area-51 遊戲本，首發 RTX 5080 顯卡

2025-03-27 05:30:08

飛智 B8X 手機散熱器發佈：創新吸風架構、雙重降噪，239 元起

飛智 B8X 手機散熱器發佈：創新吸風架構、雙重降噪，239 元起

2025-03-27 05:50:46

央視關注果味電子煙盯上未成年人，銷售“密碼”曝光

央視關注果味電子煙盯上未成年人，銷售“密碼”曝光

2025-03-27 05:50:51

積核推出IT13 2025迷你電腦主機：搭載酷睿i9-13900HK，659美元起

積核推出IT13 2025迷你電腦主機：搭載酷睿i9-13900HK，659美元起

2025-03-27 06:01:33

《明末：淵虛之羽》宣布 2025 年夏季發售，登陸 PC、PS5 及 Xbox

《明末：淵虛之羽》宣布 2025 年夏季發售，登陸 PC、PS5 及 Xbox

2025-03-27 06:19:08

三星最薄旗艦Galaxy S25 Edge手機渲染圖曝光：超薄設計+雙攝配置

三星最薄旗艦Galaxy S25 Edge手機渲染圖曝光：超薄設計+雙攝配置

2025-03-27 07:16:02

小鵬副總裁陳永海回應增程車型規劃

小鵬副總裁陳永海回應增程車型規劃

2025-03-27 07:20:23

鑫谷預告數智系列電源：將先進數位電源技術帶給更多使用者

鑫谷預告數智系列電源：將先進數位電源技術帶給更多使用者

2025-03-27 07:25:36

古爾曼：蘋果無計劃推出螢幕小於 6 英寸的 iPhone 機型

古爾曼：蘋果無計劃推出螢幕小於 6 英寸的 iPhone 機型

2025-03-27 07:25:47

台鈴首創 V6 扁線輪毂電機亮相，號稱續航里程增加 10% 以上

台鈴首創 V6 扁線輪毂電機亮相，號稱續航里程增加 10% 以上

2025-03-27 07:29:27

《無人深空》“遺跡”上線，玩家可挖掘外星生物遺骸並打造博物館

《無人深空》“遺跡”上線，玩家可挖掘外星生物遺骸並打造博物館

2025-03-27 07:52:47

位元組跳動創始人張一鳴登頂中國首富，馬化騰、鍾睒睒緊隨其後

位元組跳動創始人張一鳴登頂中國首富，馬化騰、鍾睒睒緊隨其後

2025-03-27 07:57:44

小米雷軍回母校仙桃中學講話：志存高遠、腳踏實地

小米雷軍回母校仙桃中學講話：志存高遠、腳踏實地

2025-03-27 08:01:20

2025 款騰勢 D9 迎來首次 OTA 升級：城市領航全量推送

2025 款騰勢 D9 迎來首次 OTA 升級：城市領航全量推送

2025-03-27 08:10:19

天鏈二號04星發射成功

天鏈二號04星發射成功

2025-03-27 08:20:03

蘋果顛覆行業慣例，頂配機型成銷量王牌

蘋果顛覆行業慣例，頂配機型成銷量王牌

2025-03-27 09:20:15

跨越地球的創意交融：AX電競叛客推出瑪雅風格塗鴉 RTX 5070 顯卡

跨越地球的創意交融：AX電競叛客推出瑪雅風格塗鴉 RTX 5070 顯卡

2025-03-27 09:37:39

諾獎得主羅傑·彭羅斯：人工智慧不會有意識，因此不應被視為智慧

諾獎得主羅傑·彭羅斯：人工智慧不會有意識，因此不應被視為智慧

2025-03-27 09:53:55

支援 WeChat 賬號登錄，微信鴻蒙版 App 獲 1.0.5.32 邀測升級

支援 WeChat 賬號登錄，微信鴻蒙版 App 獲 1.0.5.32 邀測升級

2025-03-27 09:58:22

漫威超英電影《復讎者聯盟 5》開拍，27 名演員公佈

漫威超英電影《復讎者聯盟 5》開拍，27 名演員公佈

2025-03-27 10:15:51

微軟 Win11 預覽版裝機介面可選擇 ReFS 替代 NTFS 格式

微軟 Win11 預覽版裝機介面可選擇 ReFS 替代 NTFS 格式

2025-03-27 10:28:45

微軟部署全新帳號登錄介面：支援深色模式和 Passkey

微軟部署全新帳號登錄介面：支援深色模式和 Passkey

2025-03-27 10:49:42

時創意推出 PCIe 5.0 固態硬碟 S14000 Pro：慧榮 SM2508 主控

時創意推出 PCIe 5.0 固態硬碟 S14000 Pro：慧榮 SM2508 主控

2025-03-27 11:23:01

OPPO Find X8 Ultra 真機曝光：居中深色相機模組、哈蘇聯名影像

OPPO Find X8 Ultra 真機曝光：居中深色相機模組、哈蘇聯名影像

2025-03-27 11:23:03