近年來,所有關於人工智慧的炒作和所寄予的厚望都集中在引人注目的使用案例上,比如創造新藥、接管客戶服務等等。然而,如果沒有管理完善、來源可靠的數據,所有的關於AI的努力都將一事無成,這是企業在 2025 年的經濟競爭中面臨的主要挑戰。
Quest Software 和企業戰略集團對 220 名業務和 IT 專業人士進行的一項調查發現,要達到令人滿意的數據管理水準以推動人工智慧的發展,對許多企業來說都是一個問題。33%的受訪者認為,所面臨的三大挑戰包括有將數據和治理提升到人工智慧就緒狀態、瞭解源數據的品質以及查找和識別和收穫數據資產。
受訪者表示,在數據映射、數據來源和數據政策方面存在挑戰,難以適用於新興的人工智慧模型和數據。Presidio 對 1000 名 IT 高管進行的另一項調查發現,86% 的人報告了與數據有關的障礙,如難以獲得有意義的見解和實時數據訪問問題。研究報告的作者指出,這正在減緩人工智慧投資計劃。
“我們這個價值800多億美元的行業目前大多建立在過時的關係架構上,難以滿足現代應用的需求。”MongoDB首席資訊官Mindy Lieberman表示,“隨著人工智慧驅動的創新步伐不斷加快,企業必須對其應用程式進行現代化改造,不僅要跟上步伐,還要超越不斷變化的期望。”
缺失的要素
SAS 數據管理高級總監 Gordon Robinson 表示,擁有高質量的數據 “就好比食用營養豐富的食物”。“正如高品質的食物有助於我們的身體發育和保持健康一樣,好的數據也是建立有效人工智慧模型的基礎。”
雖然人工智慧正在迅速改變各行各業,但企業幾十年來一直面臨的問題依然存在:數據品質。
由於人工智慧的數據品質可能存在欠缺,因此可能無法建立對人工智慧輸出的信任。“沒有可信的數據,人工智慧就無從談起,因為不可靠的數據會導致不可靠的模型,”Cloudera 首席人工智慧架構師 Manasi Vartak 說。“如果企業缺乏信任基礎,其人工智慧計劃失敗的可能性就會大大增加,因為輸出不準確、決策有缺陷等等。”
數據孤島和分散的數據環境也阻礙了提供性能良好的人工智慧應用的努力。“集成和統一的數據系統往往是缺失的。”埃森哲技術公司創新中心網路常務董事兼全球負責人Mary Hamilton說,“數據孤島阻礙了信息的流動,導致難以有效地構建和訓練人工智慧模型。”
“數據到人工智慧戰略需要整合人工智慧應用所需的所有要素:半結構化數據和非結構化數據、實時數據 API、知識庫管理和數位化流程,”MassMutual 公司數據科學負責人 Alex Baldenko 說。“一般來說,企業數據環境側重於管理結構化數據,最常見的是表格數據。許多新興的人工智慧功能依賴於對半結構化、非結構化數據的訪問,其覆蓋範圍、管理和治理水準與已成功應用於結構化數據倉庫的數據相同。”
知識庫管理也是數據到人工智慧部署的重要工具,Baldenko 繼續說道。“知識庫通常不被視為企業數據環境的一部分。然而,許多人工智慧功能都利用了知識庫,這為企業提供了應用數據管理實踐的機會,包括許可權、存儲庫結構、維護和品質控制。”
Nasuni 數據智慧和人工智慧首席創新官 Jim Liddle 表示:“缺乏統一的數據框架造成了嚴重的差距,尤其是在處理非結構化數據時。”
缺乏系統的數據分類方法也阻礙了從數據到人工智慧的管道。“明確的分類法可以區分各種類型的數據,與人工智慧相關的數據和不相關的數據。此外,實施針對人工智慧特定要求的管理政策也至關重要,例如數據來源跟蹤、偏差檢測和敏感數據的處理。沒有這些基礎要素,幾乎不可能為人工智慧創建可靠、彈性和可擴展的數據管道。”
同樣存在問題的是,數據管理人員沒有完整的數據資產清單。“大多數組織低估了其環境中存在的‘未知’數據的數量。”Proofpoint DSPM 的 GVP 兼首席技術官 Ravi Ithal 說,“這不僅關係到找到數據,還關係到瞭解哪些數據是有價值的、敏感的以及與人工智慧相關的。如果沒有這個基礎,你要麼在不完整的資訊上進行訓練,要麼就會面臨數據洩露或違反法規等風險。”
數據+人工智慧的成功步驟
準備好數據環境以有效支援人工智慧的實施需要強大的組織基礎。
凱捷加拿大公司數據、人工智慧和洞察力主管 Steven Karan 建議,從自上而下的方法入手。他說:“重點是確保組織的人工智慧戰略能夠與業務優先成果直接挂鉤。其次,實施適當規模的安全和治理框架,通過最大限度地減少對人工智慧的意外或未經許可的使用來保護組織的品牌。第三,進行整體架構審查,確保數據平臺、工具和所需的人工智慧服務就位,以維持人工智慧解決方案。”
SolarWinds 工程高級副總裁 Krishna Sai 說:“制定一個人工智慧框架,”創建一個標準化的方法,供整個組織遵循。“框架必須確保合規性、公平性和透明度,包括實施可觀察性工具,以監控數據品質、脈絡和漂移,從而保持模型性能。”
數據治理至關重要,這首先要瞭解您擁有哪些數據、數據的品質以及數據是否可信。“一個強大的數據治理計劃可以確保用於人工智慧專案的數據是準確、一致和可靠的,這對於建立有效的人工智慧模型至關重要,”Robinson說,“沒有強有力的數據治理,企業可能會遇到數據質量問題,導致洞察力不準確和決策失誤。此外,全面的數據治理框架有助於確定企業擁有哪些數據,為人工智慧應用做好充分準備,並確保符合監管要求。”
Liddle敦促成立一個專門的 “人工智慧戰略委員會”,由 “首席執行官、營業單位領導、技術領導、法律顧問和財務代表 ”組成,以制定公司的人工智慧願景和治理框架。該委員會將對實現人工智慧應用所必需的數據到人工智慧的流程進行監督。“IT和數據領導者將與董事會合作,重新評估企業架構,確保其適合人工智慧。這包括統一數據孤島、實施強大的數據分類框架,以及自動化處理非結構化數據的數據整理管道。”
Baldenko 解釋說,要超越 “試點煉獄 ”並部署人工智慧工具,數據領導者就必須找出並解決數據環境中存在的差距。他建議說,這包括遵循 “目的驅動型創新手冊”。“鑒於生成式人工智慧和代理式人工智慧的發展引起了熱議,技術專家要避免被每一個令人興奮的新發展所干擾,可能會很有挑戰性。但是,將人工智慧投資與推進公司的長期和短期戰略目標結合起來至關重要。”
Karan敦促道,要實現大規模的人工智慧開發,需要精心構建一個以現代數據Lakehouse架構標準為核心的 “數據資產”。“Lakehouse標準能夠實現跨結構化和非結構化數據的統一數據存儲、可擴展的數據湖、商業智慧(BI)與人工智慧工作負載的無縫集成,借助諸如原子性、一致性、隔離性和持久性(ACID)事務等特性來加強數據治理,以及強大的元數據管理。”
Sai建議從試點項目入手,“利用自動化並設計具有可擴充性的系統,以幫助簡化工作流程、降低風險並確保人工智慧的長期成功。”
可擴展的基礎設施是向前發展的關鍵。哈裡斯堡科技大學(Harrisburg University of Science and Technology)的數據科學助理教授Maria Vaida表示:“資訊技術(IT)和數據領域的領導者必須投資於可擴展的基礎設施,比如基於雲的系統;確保高速的數據管道;並支援大規模的運營。”
Vaida補充道:“不要從頭開始構建模型,而是利用現有的預訓練模型,將它們集成到工作流程中以提取最 佳特徵。可以針對獨特的專有數據開發內部模型,從而最大限度地挖掘專業數據集的價值。整合來自多學科領域的數據可以增強模型的穩健性並拓寬其適用性。讓團隊學習圖神經網路等新興技術,提升他們的技能水準,並通過可解釋的人工智慧框架來增強透明度,從而建立利益相關者的信任。嵌入保護隱私的演算法可確保人工智慧得到負責任的部署。”
當然,在為人工智慧應用和系統建立健康的數據流方面,文化是決定性因素。Vartak表示:“長期以來,資訊技術團隊和業務團隊一直各自為政,業務使用者在不瞭解所需技術範圍的情況下向資訊技術團隊提出要求,而資訊技術團隊在不清楚這些見解將用於解決什麼業務問題的情況下生成見解。”
為了彌合這一差距,“首先要採用集中式數據架構,以確保整個組織內的可見性,並在全組織範圍內建立數據和人工智慧監管框架以及開展相關教育。”
具備必要的技能也是從數據到人工智慧領域所需的一部分。Robinson表示,最主要的挑戰是熟練數據工程師的嚴重短缺,而這些數據工程師是 “為人工智慧、分析管理和處理大量數據所必需的人才”。“數據工程師負責設計、構建和維護能夠讓數據被高效收集、存儲和分析的基礎設施,這使得各組織很難填補這些職位空缺。”
Robinson繼續說道,應對這一問題的一個解決辦法是 “平民數據工程師”,即那些可能沒有接受過數據工程方面的正規培訓,但具備處理數據任務所需技能和知識的人。“這些平民數據工程師通常來自不同的背景,他們需要能夠簡化數據工程流程的工具和平臺。”
衡量數據與人工智慧的成功
與所有關鍵技術一樣,如果你無法衡量,就無法進行管理:瞭解從數據到人工智慧管道的交付情況至關重要。
真正的考驗是在實施之後,這時需要審視數據管理舉措對人工智慧發展進程的影響。Hamilton表示:“這涉及確定特定的業務成果和指標,這些指標可用於衡量人工智慧專案的投資回報率(ROI)。” 一種 “跟蹤的方法是監控智慧體的行為,以評估其性能、準確性以及安全和透明度保障措施的應用情況。這有助於發現需要改進的地方,並確保人工智慧系統按預期運行。”
Lieberman表示:“在做其他所有事情之前,至關重要的是,人工智慧指標的定義要與更廣泛的資訊技術和業務目標保持一致。這能確保對人工智慧的投資直接解決特定的業務需求,並且在每個項目開始時就明確確定期望的成果。雖然從工程的角度去探索最新的人工智慧技術很有吸引力,但最終,專注於簡單、有效的解決方案,直接支援你的目標,而不是讓實施過程過於複雜或追逐各種功能特性,這樣做會更有效。”
Liddle表示,一個監督委員會在跟蹤人工智慧的數據恢復能力方面也能起到重要作用。“公司應該跟蹤在出現數據中斷的情況下,他們能夠多快、多有效地恢復數據。由委員會監督的人工智慧計劃與業務目標的一致性,為衡量成功提供了一個更高層面的指標。通過確保人工智慧的用例能夠帶來可衡量的商業價值,公司可以評估其數據環境是否有效地支援了更廣泛的人工智慧戰略。”
Karan表示,還有各種關鍵績效指標可以應用,從性能指標到數據品質都有。對於將數據輸入人工智慧解決方案,他建議關注成本優化、運營效率和商業價值。“成本優化關鍵績效指標衡量和監控計算、消耗和存儲的成本。運營效率指標監控數據處理任務所需的時間,而價值指標衡量由人工智慧洞察支持的業務決策數量,或者由人工智慧提升的業務成果。”
Vaida將生產力、數據利用率、工作流程優化和模型性能提升確定為衡量從數據到人工智慧性能的關鍵指標(KPI)。
她說:“生產力不僅應該減少數據準備、模型訓練和部署所需的時間,還應該提高領域專家的工作效率。通過為他們提供可靠且透明的工具,組織可以培養信任,並加強技術團隊與領域專家之間的合作關係。”
Ithal表示,成功始於提出這些問題:“我們是否能更快地做出更好的決策?我們是否避免了人工智慧模型中出現數據洩露或意外偏差等風險?” “如果你的數據生態系統正在推動產生更明智的結果,並且保持在道德和法規的範圍內,那麼你就做對了。像數據訪問速度、合規遵守情況和人工智慧性能基準等指標可以告訴你是否走在正軌上。”
原作者:Joe McKendrick