華為景聯文科技聯手,打造AI數據湖新引擎,賦能行業智能升級
更新于:2025-03-26 12:24:35

在2025年度的華為中國合作夥伴大會上,一場科技界的強強聯手震撼上演。華為攜手景聯文科技,共同推出了面向AI數據湖的數據工程聯合解決方案,這一創新方案旨在為AI行業注入強大的數據動能,推動智能化升級。

景聯文科技的CEO劉雲濤在會上發表演講,他深刻指出:“AI的成功離不開高質量的數據支援。數據的優劣直接決定了AI大模型的表現。因此,提供高質量的數據集是AI行業發展的關鍵,也是數據要素交易繁榮的基石。”劉雲濤還強調,精準全面的數據治理與可靠高效的數據基礎設施,在智能化進程中扮演著不可或缺的角色。

面向AI的數據處理,通常需歷經三大關鍵階段:從海量原始數據中提煉結構化數據集,再經過精細標註形成語料集,最終構建知識庫以支撐模型訓練及業務應用。然而,在這一過程中,業界面臨著多重嚴峻挑戰。數據擁有者往往缺乏便捷安全的數據彙聚託管系統,導致數據共享壁壘重重;原始數據類型多樣、格式複雜,增加了語料處理的難度;同時,數據作為風險資源,在流通中缺乏端到端的安全管控,存在被篡改、擴散的風險,加之區域間數據基礎設施發展不均,數據跨域流通效率低下。

針對這些挑戰,華為與景聯文科技攜手推出了創新的數據工程聯合解決方案。依託景聯文科技多年的數據工程經驗,以及華為在數據存儲領域的領先地位,這一方案將全方位提升數據處理效率。

在數據處理的全流程中,景聯文科技的Solar Data平台採用AI Agent理念,與華為的全閃數據湖存儲緊密協作,支援異構數據的高效加工。平臺能自動或半自動化地清洗、解析、預處理30多種格式的數據,進行特徵提取與初步分析。結合AI預標註與專業手工標註,最終整合出高質量的數據產品,全流程效率提升高達70%。

在數據流通與資源調度方面,華為DME(Omni-Dataverse)全域文件系統與可信數據空間的結合,實現了多源數據的無縫歸集,全域數據可視、可管、可流,確保了數據交換過程的可信、可證、可控。基於華為DCS的統一資源調度,Solar Data平台的計算、存儲、網路等資源實現了彈性服務與統一管理。通過ModelEngine AI使能工具鏈框架,數據集的開發進程得以加速。

該方案還採用了基於華為OceanStor Pacific分散式存儲底座的統一數據底座。在先進介質、協定互通、負載優化、分散式並行客戶端等領域,軟硬體協同創新,打造了業界領先的高密綠色數據基礎設施。這一基礎設施使得海量數據能夠更持久地存儲、更高效地訪問。

華為數據存儲部門表示,將持續深化與業界夥伴的合作,共同推動AI時代應用生態的繁榮發展。秉持“以數據為中心”的產業理念,華為將充分發揮數據在數字經濟中的核心驅動力作用,攜手合作夥伴共同開創AI數據處理的新篇章。