Amazon Nova Act 重磅發佈:挑戰 OpenAI、Microsoft 和 Salesforce 的全新 AI 代理 SDK
更新于:2025-04-06 01:01:46

沉睡的巨人已經覺醒!

一段時間以來,亞馬遜似乎一直在追趕競爭者,致力於為其使用者——尤其是建立在 Amazon Web Services (AWS) 雲基礎設施之上的數百萬開發者——提供具有競爭力的自主 AI 模型和工具。

然而,在 2024 年終,亞馬遜推出了自家的內部基礎模型家族 Amazon Nova,該家族具備文本、圖像甚至視頻生成能力;並且在上個月,亞馬遜推出了一款部分由 Anthropic 的 Claude 模型家族支持的全新 Amazon Alexa 語音助手。

緊接著,本週一,這家電商及雲計算巨頭的通用人工智慧部門 Amazon AGI 宣佈推出 Amazon Nova Act,這是一個實驗性的開發者工具包,旨在構建能夠自主瀏覽網路並完成任務的 AI 代理,其核心由亞馬遜 Nova 大語言模型 (LLM) 的定製專有版本提供支援。哦,對了,這個標準開發者工具包 (SDK) 是在 Apache 2.0 開源許可下發佈的,不過該 SDK 僅設計用於亞馬遜內部定製的 Nova 模型,而無法用於第三方模型。

其目標是讓第三方開發者能夠構建出能在網頁瀏覽器中可靠執行任務的 AI 代理。

那麼,亞馬遜的 Nova Act 與市場上其他代理構建平臺(例如 Microsoft 的 AutoGen、Salesforce 的 Agentforce,以及最近 OpenAI 發佈的開源 Agents SDK)相比究竟如何?

不同且更為深思熟慮的 AI 代理方式

自從大語言模型 (LLM) 公開崛起以來,大多數“代理”系統僅限於以自然語言作出回應或通過查詢知識庫提供資訊。

Nova Act 是整個行業向基於行為的代理轉變中的一部分——這種系統能夠在數位環境中,代表使用者完成實際任務。OpenAI 新推出的 Responses API 就是一個領先的例子,它為使用者提供了訪問自主瀏覽器導航功能的能力,開發者可以通過 OpenAI Agents SDK 將這一功能集成到 AI 代理中。

亞馬遜 AGI 強調,目前的代理系統雖然頗具前景,但在可靠性方面存在短板,且在處理多步驟或複雜工作流程時往往需要人工監管。

Nova Act 正是針對這些局限性而設計,提供了一系列原子性、可指令的命令,這些命令能夠串聯成一個可靠的工作流程。

亞馬遜技術成員 Deniz Birlikci 在一段介紹 Nova Act 的視頻中描述了這一更巨集大的願景:不久之後,在線瀏覽網頁的 AI 代理數量將超過實際流覽的使用者,替使用者執行各項任務。

亞馬遜自主團隊副總裁兼 AGI SF 實驗室主管 David Luan 在近期與 VentureBeat 的視頻通話訪談中更直截了當地闡述了這一使命:“我們創建了這一全新的實驗性 AI 模型,經過訓練后能夠在網頁瀏覽器中執行操作。根本上來說,我們認為代理是計算的基本構件,”他說。

Luan 曾是 Adept AI 的聯合創始人兼 CEO,並於 2024 年通過人才收購的方式加入亞馬遜。Luan 表示,他一直是 AI 代理的堅定支援者。“在 Adept,我們是第一批真正開始研究 AI 代理的公司。如今,人人都認識到代理的重要性,能夠稍微領先時代一點,真讓人感到興奮,”他補充道。

Nova Act 為開發者提供的功能

Nova Act SDK 為開發者提供了一個框架,可以利用自然語言提示將複雜的網頁自動化任務拆分為明確可控的步驟,從而構建基於網頁的自動化代理。

與那些依靠單一提示嘗試一氣呵成完成整個工作流程、因而往往表現不穩定的 LLM 驅動代理不同,Nova Act 的設計理念是逐步執行較小且可驗證的任務。

Nova Act 的一些主要特性包括:

細粒度任務分解:

開發者可以將複雜的數位工作流程拆分成多個較小的 act() 調用,每個調用用於指導代理執行特定的用戶介面交互。

通過 Playwright 直接操控瀏覽器:

Nova Act 與由 Microsoft 開發的開源瀏覽器自動化框架 Playwright 集成。Playwright 允許開發者以程式設計方式控制網頁瀏覽器——執行點擊、填寫表單、頁面導航等操作——而不僅完全依賴 AI 預測。該集成對於處理諸如輸入密碼或信用卡資訊等敏感任務尤為有用。例如,開發者可以指示 Nova Act 只聚焦於密碼輸入欄位,然後通過 Playwright API 安全地輸入密碼,而無需將敏感信息傳遞給模型,從而提升自動化網頁交互時的安全和隱私保護。

Python 集成:

該 SDK 允許開發者將 Python 代碼與 Nova Act 命令交織使用,包括斷點、斷言或利用線程池進行並行執行等標準 Python 工具。

結構化資訊提取:

通過 Pydantic 模型,該 SDK 支援結構化數據提取,使代理能夠將螢幕內容轉換成結構化格式。

並行化與調度:

開發者可以同時運行多個 Nova Act 實例,並調度自動化工作流程,無需持續的人工干預。

Luan 強調,Nova Act 是專為開發者設計的工具,而非供娛樂的通用聊天機器人。“Nova Act 是為開發者打造的工具,它並不是一個可以隨意聊天的機器人,而是用來讓開發者構建實用產品的,”他說。

例如,亞馬遜文檔中展示的一個示例工作流程說明了 Nova Act 如何自動化公寓搜索:通過抓取租賃清單、計算到火車站的騎行距離,最終將結果整理成結構化表格。

另一個展示的例子則利用 Nova Act 每週二全自動、無須手動操作地從 Sweetgreen 訂購特定沙拉,充分說明了開發者如何以一種既可靠又可定製的方式自動化重複性的數字任務。

基準性能與對可靠性的關注

亞馬遜此次發佈的核心資訊是:可靠性,而不僅僅是智慧,是普及代理應用的主要障礙。

據亞馬遜介紹,目前最先進的模型在驅動 AI 代理方面相當脆弱,在基於瀏覽器的多步驟任務中,其代理成功率通常僅有 30% 到 60%。

而 Nova Act 則強調構件化方法,在一些對其他模型構成挑戰的任務(如與下拉功能表、日期選擇器或彈出視窗交互)的內部測試中,其得分超過 90%。

Luan 強調了為何可靠性至關重要,“我們真正關注的是如何讓代理變得可靠。如果你讓它去更新 Salesforce 中的一條記錄,但它每十次操作中就有一次把你的資料庫刪掉,那你大概再也不會用它了。”

亞馬遜 AGI 將 Nova Act 與包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 CUA 模型在內的競爭對手進行了對比測試。在 ScreenSpot Web Text 基準測試中(用於測試對文字螢幕元素的指令遵循情況),Nova Act 獲得了 0.939 的得分,優於 Claude 3.7 Sonnet(0.900)和 OpenAI CUA(0.883)。

在專注於視覺使用者介面元素的 ScreenSpot Web Icon 基準測試中,Nova Act 同樣達到了 0.879 的得分,再次領先於其他模型。

不過,在測試一般用戶介面交互的 GroundUI Web 基準測試中,Nova Act 的得分為 0.805,略遜於其他競爭模型。

上述分數均由亞馬遜在內部使用一致的提示和評估標準測量得出。

亞馬遜還強調了 Nova Act 在超出標準環境泛化能力方面的初步成果。

例如,團隊成員 Rick Liu 展示了該代理如何在未經明確訓練的情況下與一款以鴿子為主題的網頁遊戲成功互動——完成屬性分配、對戰並推動遊戲進程。

Luan 表示,這種泛化能力正是其長期願景的核心所在,“我們推出 Nova Act 的目標是成為一款通用的瀏覽器使用解決方案,我們希望能有一個代理替你在電腦上完成任何你想做的事情。”

適用於不同雲環境,但依賴於亞馬遜的 Nova 模型

儘管 Nova Act 通過 nova.amazon.com 面向全球開發者開放,Luan 也明確指出,該系統與亞馬遜內部的 Nova 基礎模型緊密耦合。

與 OpenAI 的 Agents SDK 不同,開發者無法接入外部大語言模型,如 OpenAI 的 GPT-4 或 Anthropic 的 Claude 3.7 Sonnet;而在一定程度上,Microsoft 的 AutoGen 和 Salesforce 的 Agentforce 平臺允許切換到不同供應商和模型家族。

“Nova Act 是 Nova 模型的定製訓練版本,”他說。“它不像是只搭建在通用大語言模型之上的框架,而是經過專門訓練,能夠在互聯網上替你執行操作。”

不過,Nova Act 並不局限於 AWS 環境。開發者可以下載該 SDK,並在本地、雲端或任意平台上運行。“你不必一定要在 AWS 上使用它,”Luan 表示。

因此,對於那些希望其代理具備最高底層模型靈活性的企業來說,Nova Act 可能並非最佳選擇;然而,對於那些尋求專門設計用於瀏覽網頁、能夠在擁有各種不同使用者介面的網站上執行操作的解決方案的企業來說——尤其是如果你已經融入了亞馬遜或 AWS 開發者生態系統——這款產品則值得一試。

安全性、許可與定價

Nova Act SDK 根據 Apache License, Version 2.0(2004 年 1 月版)發佈,這是一個開源許可。但該許可僅適用於 SDK 軟體部分。

Nova Act 模型及其權重和訓練數據均為專有且閉源。正如 Luan 解釋的,這種做法是有意為之,因為該模型與 SDK 緊密集成並共同訓練,以實現高可靠性。

在推出初期,Nova Act 以免費研究預覽版形式提供。目前尚未公佈生產環境使用的定價。

Luan 將這一階段描述為開發者試驗和構建技術的機會,“我們相信,大多數最有用的代理產品尚未誕生。我們希望讓任何人都能構建真正有用的代理,無論是為自己還是作為產品。”

從長期來看,亞馬遜計劃引入適合生產環境的條款,包括基於使用量的計費和擴展性保證,但這些目前尚未推出。

Nova Act 的未來展望

Nova Act 的發佈彰顯了亞馬遜的巨集大願景:使基於行動的 AI 代理成為計算的基礎構件。

Luan 總結了未來的機會:“我個人的夢想是讓代理成為計算的構件,最酷的新創業公司和產品正建立在我們團隊正在開發的這一技術之上。”

目前,開發者可通過亞馬遜官網及 GitHub 獲取 Nova Act SDK,並用於實驗與原型製作。