眾所周知,隨著生成式AI技術的走紅,它已經開始在一些企業的業務流程里“大放異彩”。無論是用於輔助設計、還是智慧客服、亦或內部的管理,這些最新的AI大模型都帶來了驚人的效率提升。
但與此同時,對於AI大模型而言,其訓練和推理所需的龐大算力,往往也成為了潛在使用者都不得不面對的一大難題。
在這樣的背景下,使用公有雲IaaS(基礎設施即服務)、而非自建算力基礎設施,就成為了許多企業降本增效、擁抱AI大模型時代的重要舉措。例如在近日公布的《2025年IDC MarketScape:全球公有雲基礎設施即服務(IaaS)報告》中,全球市場分析機構國際數據公司(IDC)就明確指出,隨著企業將更多工作負載遷移到雲端、並創建新的雲原生應用,公有雲IaaS繼續快速增長,預計2025年IaaS的整體規模將達到1880億美元。
不過正如IDC報告中所闡述的那樣,由於AI正在通過多種方式“重塑”雲基礎設施,也就意味著並非所有的IaaS服務商都已經針對AI時代的需求做好準備。在現有的IaaS行業中,無論從能力、還是戰略的維度進行考量,亞馬遜雲科技都以顯著的優勢被IDC評為了行業領導者。
那麼,為什麼會是亞馬遜雲科技,在如今的IaaS行業里,他們又到底有著怎樣的獨特優勢呢?結合IDC的這份報告以及更多的公開資訊,其實並不難找到這個問題的答案。
遍佈全球的可靠基礎設施,是亞馬遜雲科技的底氣
對於任何一家IaaS服務商而言,安全、穩定,且能夠保證足夠可用性的基礎設施節點,無疑是一切的基礎。而說到對於基礎設施的建設,這確實也是亞馬遜雲科技相當突出的“底氣”。
根據公開信息顯示,截至目前為止,亞馬遜雲科技的基礎設施已遍及36個地理區域的114個可用區。同時,他們已經公佈了包括紐西蘭、沙特等在內的4個新建區域、12個可用區的建設計劃。
針對數據中心本身的硬體穩定性,亞馬遜雲科技還進行了諸多創新設計。比如,他們成功簡化了數據中心的電氣和機械設計,將潛在的電氣問題減少了89%,同時令基礎設施可用性提高到99.9999%。而通過集成風冷與液冷功能的新設計冷卻系統,亞馬遜雲科技不僅大幅降低了數據中心的冷卻成本,促進本身算力的“降本增效”,同時還使得他們的數據中心能夠支撐起用於AI的超級計算解決方案,即便在持續的超大規模壓力下也長期穩定無虞。
當然,對於許多企業來說,他們的業務可能遍及多個區域,再加上大模型的訓練往往也需要用到超大規模的算力集群,這就對IaaS的網路性能也提出了更高的需求。
針對這一點,亞馬遜雲科技一方面允許多區域之間的實時數據一致性,為大規模的跨國業務做好了網路基礎設施的準備。另一方面,就在2024年的re:Invent上,亞馬遜雲科技還推出了第二代UltraCluster網路架構(也稱為"10p10u"網路),支持超過20000個GPU協同工作,帶寬達10Pb/s,延遲低於10μs。如此一來,對於需要超大規模集群訓練的任務來說,僅僅這一個網路性能的躍升,便可以將訓練時間縮短至少15%。再加上能在不到1秒內恢復網路的全新SIDR網路協定,令亞馬遜雲科技的分散式計算網路無論是效率還是可靠性,都成為了絕對的業界標杆。
當然,在先進的數據中心和網路硬體基礎上,亞馬遜雲科技更是將“安全性”放在了系統根基的位置。無論是基礎設施還是服務,它們從一開始被設計的時候就會以安全作為首要目標,並在運營過程中不斷引入新技術,進一步提高安全性。舉例而言,通過運用自動推理技術,亞馬遜雲科技為旗下關鍵系統的運行提供了嚴格的數學保證。而且值得一提的是,這些安全設計和技術,並不會因客戶類型而有所差異。無論是初創企業還是大公司,它們都可以享受到同樣安全的基礎設施創新。
持續反覆運算的自研晶片,讓AI算力更唾手可得
如果說遍佈全球、既先進又穩定的基礎設施,是亞馬遜雲科技能夠承擔起IaaS行業領導者地位的“基本因素”,那麼在算力實現方式上的持續創新與領先,則可以稱得上是助推亞馬遜雲科技能夠始終領跑AI雲計算時代的“長遠優勢”。
早在2024年3月,亞馬遜雲科技就與英偉達共同宣佈,將結合亞馬遜雲科技的Nitro系統、Amazon KMS金鑰管理服務、千萬億比特級的Elastic Fabric Adapter(EFA)網路和Amazon EC2 UltraCluster超大規模集群等技術,與英偉達最新的Blackwell平臺和AI軟體共同打造包括Project Ceiba在內的多個雲端AI超級計算機系統。
需要注意的是,不同於其他的IaaS服務商,亞馬遜雲科技不僅能夠提供基於NVIDIA GPU,以及Intel和AMD x86 CPU的常見雲端算力,他們還在行業里率先對自研晶元進行了持續投入。從旨在提升網路與存儲能力的Nitro系統,自研處理器Graviton、到機器學習訓練晶元Trainium和推理晶元Inferentia。截至目前,所有的這些亞馬遜雲科技自研晶元都經過了多次反覆運算,並且每次更新均能提供兩位數以上百分比的性價比提升。
其中以Trainium2為例,這是亞馬遜雲科技在re:Invent 2024期間剛推出的最新款自研訓練晶元。在使用該晶元的Amazon EC2 Trn2實例中,16顆Trainium2就可提供高達20.8 Petaflops浮點算力的性能,同時性價比比基於GPU的實例提高了30-40%,非常適合訓練和推理數十億參數的AI大模型。
不僅如此,由於是自研晶片,也就意味著亞馬遜雲科技可以根據業務需求,對Trainium2的集群進行更大規模的擴展。在Amazon EC2 Trn2 UltraServers伺服器里,它使用64塊Trainium2進行互聯,可提供高達83.2 Petaflops浮點算力。而且亞馬遜雲科技方面還在打造名為Project Rainier的EC2 UltraCluster超級電腦,其中包含數十萬顆Trainium2 晶片,足可達到相當於最新、最領先的AI大模型所需訓練算力的5倍以上水準。
這還沒完,就在2024年年底,亞馬遜雲科技還官宣了下一代的AI訓練晶元Trainium3。作為他們的第一款3nm製程自研晶元,Trainium3預計將在UltraServers伺服器中提供相當於前代4倍的性能。最為重要的是,預計今年年內,我們就會看到亞馬遜雲科技的新一代推理晶元正式上線,不出意外,他們必將再次重新定義雲端AI訓練的“性價比新高”。
雖然已成“領導者”,但亞馬遜雲科技仍在進行自我革命
從各方面的公開資訊來看,全球覆蓋的高可靠性基礎設施,以及以自研晶元為代表的硬體持續創新,可以說很好地代表了亞馬遜雲科技如今在IaaS業內“基礎能力”與“長期戰略”兩個方面的突出競爭力。
正如IDC分析師、報告作者Dave McCarthy所說的那樣,“亞馬遜雲科技通過廣泛的服務組合和持續的創新,在公有雲IaaS市場中處於領導地位。廣泛的全球基礎設施,結合Amazon Graviton等定製晶片計劃以及在AI領域的重大投資,使其在滿足企業需求方面獨具優勢。其在可擴充性方面的卓越表現、成熟的開發者社區以及對AI基礎設施的積極投入,使其成為需要先進雲能力的企業的首選。”
但即便如此,亞馬遜雲科技也還沒有停止繼續領跑的腳步。就在今年2月的財報電話會議上,亞馬遜首席執行官Andy Jassy確認,他們在2025年的資本投資預計達1000億美元,其中大部分將用於亞馬遜雲科技AI基礎設施的建設。
當然,對於全球渴望“上雲”體驗最尖端生成式AI技術的企業來說,這絕對是一件好事。因為這不僅意味著亞馬遜雲科技本身還將繼續提高旗下AI基礎設施的能力與性價比,同時這種由亞馬遜雲科技“帶頭”的IaaS AI算力競爭,也有望促進整個行業的持續良性發展。