Google Cloud今日(3/25)分析,企業擁抱生成式AI前,得先創建集成的數據基礎,包括制定AI優先的數據策略、構建統一的數據平臺、運用AI將流程自動化、確保數據安全和數據治理,以及提高數據平臺效率並降低數據成本等5步驟。尤其,企業得要有套集成式的數據分析平臺,來彙集整理數據源、與其他包括AI在內的系統串聯,才能發揮AI效用。Google Cloud也觀察到,台灣企業大都有成熟的數據搜集模式,但將這些數據實際用於GenAI應用仍有段距離。
步驟1:制定AI優先的數據策略
要讓AI發揮效益,首先得要制定AI優先的數據策略,包括創建數據策略、創建數據擁有權和使用藍圖,以及形成數據生態系,來支援跨部門、跨場景的AI應用。
Google Cloud數據分析專家黃介榮解釋,就好比企業內不同部門的員工,都有其運用數據和AI來解決問題的場景,比如人資單位可將自己的數據,如員工會議次數、進辦公室的時長、工作績效等,來運用AI模型預測其離職率,並儘早應對。
此時,企業就可根據這些需求和場景來制定數據策略,解決以往發展AI時,必須經歷的數據收集、數據清洗、創建數據分析模型並落地的冗長階段。
步驟2:構建統一的數據平臺,連接數據與AI
有了策略,下一步是構建集成式的數據平臺,來連接數據和AI。黃介榮指出,常見的企業情況是許多資料庫和系統獨立,有些可能為了許可權管理,有些為了業務方便。但到了大數據和AI分析時代,需處理的數據量和數據類型(模態)大幅增加,數據平臺就得重新設計,需構建一套統一的數據平臺。
這種數據平臺,要能支持結構化、半結構化和非結構化數據,比如零售業的多維度客戶數據,來優化營銷與庫存管理。這套平台還要能集成各系統數據,以及有能力快速分析即時數據串流媒體並反應。
Google Cloud的自家數據平台產品BigQuery,也針對這類需求,在今年提供新功能,如支援多模態表格和自動探索、編目,來簡化多模態數據的截取與管理;集成大型語言模型(LLM)與SQL查詢的AI查詢引擎;以及即時RAG功能,來讓LLM提供能精確的回答。
步驟3:運用AI將流程自動化
有了統一的數據平臺,企業就可用來發展AI代理來自動化數據整理流程、產出洞察,來提高員工生產力。比如,運用AI代理來處理數據翻譯、提供個人化建議,或是用於電子商務的商品分析、提供精準營銷建議等。
不過,AI代理還能扮演一種數據分析角色,能協助使用者分析數據,打破以往數據分析的高門檻。這種代理又稱為數據代理。Google Cloud自己也在3月推出一套數據科學代理Data Science Agent,使用Gemini模型來為開發協作平臺Collab用戶簡化數據分析流程。
步驟4:確保數據安全和數據治理
另一方面,為發展AI,尤其是生成式AI應用,企業也要做好數據治理和安全管理。Google Cloud建議,企業可從數據品質、法規遵循和安全性下手,比如數據品質部分,需設置機制確保數據的正確性、完整性和一致性,安全性部分則需查看,數據平臺是否具備加密、訪問控制和威脅偵測等安全措施。
黃介榮指出,Google Cloud和財團法人人工智慧科技基金會在去年做了項《台灣企業AI準備度調查報告》,並發現,在發展AI所需的數據準備度中,超過半數的台灣企業具備良好的數據搜集能力,但是,只有17.8%的企業擁有集成的數據平臺或明確定義的數據管理解決方案,來快速處理多個來源的數據,顯示台灣企業從搜集到實例還有段距離。
他也表示,有些高機密敏感性的產業,如金融、特定製造業,在發展AI數據治理上步調較慢,因為得先創建規範,才能進一步實例。
步驟5:提高數據平臺效率並降低數據成本
最後一步隨著AI應用的規模擴大,企業使用的數據平臺,也要能夠擴展這些AI工作負載、極小化非必要成本,比如簡化數據處理流程、提高資源利用率。
Google Cloud也建議,這個階段的企業應考慮將工作負載自動化,比如數據平臺來自動化數據管理任務(配置、擴展和備份等);另也需考量平臺是否有自動化工具或功能,來監控、分析或優化數據存儲狀況和運算成本;以及考慮平臺能否無縫擴展,來處理不斷增長的數據量和AI工作負載,且兼顧性能和成本。