Deep Cogito 推出混合型 AI "推理"模型
更新于:2025-04-10 09:31:55

一家名為 Deep Cogito 的新公司近期揭開面紗,推出了一系列可以在"推理"和非推理模式之間切換的開放 AI 模型。

像 OpenAI 的 o1 這樣的推理模型在數學和物理等領域展現出巨大潛力,這要歸功於它們能夠通過逐步解決複雜問題來進行自我驗證的能力。然而,這種推理能力是有代價的:更高的計算成本和延遲。這就是為什麼像 Anthropic 這樣的實驗室正在追求"混合"模型架構,將推理元件與標準的非推理元素相結合。混合模型可以快速回答簡單問題,同時在處理更具挑戰性的問題時投入更多時間思考。

Deep Cogito 的所有模型(稱為 Cogito 1)都是混合模型。該公司聲稱,這些模型的性能優於同等規模的最佳開放模型,包括來自 Meta 和中國 AI 初創公司 DeepSeek 的模型。

該公司在博客文章中解釋道:"每個模型都可以直接回答問題,或在回答前進行自我反思(類似推理模型)。所有這些都是由一個小團隊在大約 75 天內開發完成的。"

Cogito 1 模型的參數規模從 30 億到 700 億不等,該公司表示,在未來幾周和幾個月內,將會推出參數規模達到 6710 億的模型。參數數量大致對應於模型的問題解決能力,通常參數越多越好。

需要說明的是,Cogito 1 並非從零開始開發。Deep Cogito 是在 Meta 的開源 Llama 和阿裡巴巴的 Qwen 模型基礎上構建的。該公司表示,他們應用了新穎的訓練方法來提升基礎模型的性能,並實現可切換的推理能力。

根據 Cogito 的內部基準測試結果,最大的 Cogito 1 模型——啟用推理功能的 Cogito 70B,在某些數學和語言評估中的表現優於 DeepSeek 的 R1 推理模型。在禁用推理功能的情況下,Cogito 70B 在通用 AI 測試 LiveBench 上的表現也超過了 Meta 最近發佈的 Llama 4 Scout 模型。

所有 Cogito 1 模型都可以通過 Fireworks AI 和 Together AI 這兩家雲服務提供者的 API 下載或使用。

"目前,我們仍處於擴展曲線的早期階段,僅使用了傳統大語言模型後期/持續訓練所需計算資源的一小部分,"Cogito 在其博客文章中寫道。"展望未來,我們正在研究互補的後期訓練方法來實現自我提升。"

根據加利福尼亞州的文件顯示,總部位於三藩市的 Deep Cogito 成立於 2024 年 6 月。該公司的 LinkedIn 頁面列出了兩位聯合創始人:Drishan Arora 和 Dhruv Malhotra。Malhotra 此前是 Google AI 實驗室 DeepMind 的產品經理,負責生成式搜索技術。Arora 曾是 Google 的高級軟體工程師。

根據 PitchBook 的資訊,Deep Cogito 的投資方包括 South Park Commons,該公司雄心勃勃地致力於構建"通用超級智慧"。公司創始人將這個術語理解為能夠比大多數人更好地完成任務,並"發現我們尚未想像到的全新能力"的 AI。