機器學習是一項價值數十億美元的業務,看似潛力無窮,但也存在一些風險,以下是如何避免最常見的機器學習錯誤。
隨著機器學習技術的應用越來越廣泛,它正在許多領域佔據一席之地。研究公司 Fortune Business Insights 預測,全球機器學習市場將從 2023 年的 260.3 億美元擴大到 2030 年的 2259.1 億美元。機器學習的用例包括產品推薦、圖像識別、欺詐檢測、語言翻譯、診斷工具等。
作為人工智慧的一個子集,機器學習指的是利用大量數據集訓練演算法以做出預測性決策的過程。機器學習的潛在優勢似乎是無限的,但它也帶來了一些風險。
我們向技術領導者和分析師詢問了他們所見過的機器學習專案最常見的失敗方式。以下是他們告訴我們的內容。
機器學習項目失敗的 10 種方式:
人工智慧幻覺
模型偏差
法律和道德風險
數據品質差
模型過擬合和欠擬合
遺留系統集成問題
性能和可擴充性問題
缺乏透明度和信任
特定領域知識不足
機器學習技能短缺
人工智慧幻覺
在機器學習中,幻覺是指大型語言模型(LLM)感知到不存在或人類無法感知的模式或物件。當幻覺在生成的代碼或聊天機器人響應中表現出來時,就會導致無用的輸出。
“在當今的環境中,幻覺之類的問題達到了前所未有的高度。“統一數據平臺供應商 New Relic 的人工智慧/機器學習主管Camden Swita說,他指出,最近的研究表明,絕大多數機器學習工程師觀察到了幻覺的跡象。
Swita說,要消除幻覺,就不能只關注生成內容。“相反,開發人員必須強調總結任務,並利用檢索增強生成(RAG)等先進技術,這可以大大減少幻覺。”此外,將人工智慧的輸出固定在真實、經過驗證和規範的數據源上,可以降低產生誤導性資訊的可能性。
模型偏差
企業需要注意模型偏差,即模型中存在系統誤差,可能導致其持續做出不正確的預測。這些錯誤可能來自用於演算法、訓練數據的選擇、創建模型時使用的特徵選擇或其他問題。
“用於訓練機器學習模型的數據必須包含準確的群體代表性和多樣化的數據集,”StaffDNA 公司首席執行官 Sheldon Arora 說,該公司利用人工智慧幫助醫療保健行業的求職者匹配工作崗位。“任何一個特定群體的代表性過高,都會導致無法準確反映整個群體。持續監控模型性能可確保所有人口群體的公平代表性。”
解決偏見問題是現代人工智慧領域取得成功的關鍵,Swita 說,最 佳做法包括實施持續監控、警報機制和內容過濾,以幫助主動識別和糾正有偏見的內容。“通過這些方法,企業可以制定人工智慧框架,優先處理經過驗證的內容。”
要解決偏見問題,企業需要採用動態方法,包括不斷完善系統,以跟上快速發展的模式,Swita 說,需要為消除偏見精心定製戰略。
法律和道德風險
機器學習存在一定的法律和道德風險。法律風險包括因模型偏差導致的歧視、數據隱私侵犯、安全洩露和智慧財產權侵犯。這些風險和其他風險會對機器學習系統的開發者和用戶產生影響。
道德風險包括潛在的傷害或利用、濫用數據、缺乏透明度和缺乏問責制。基於機器學習演算法做出的決策可能會對個人產生負面影響,即使這並非其本意。
Swita重申,必須將模型和輸出建立在可信、經過驗證和受監管的數據之上。他說,通過遵守有關數據使用和隱私的法規和標準,企業可以降低與機器學習相關的法律和道德風險。
數據品質差
與任何依賴數據產生積極結果的技術一樣,機器學習需要高質量的數據才能取得成功。數據品質差會導致模型缺陷和無法接受的結果。
研究公司 Gartner 的市場分析表明,大多數組織的數據都存在問題,許多組織將數據不可靠和不準確作為不信任人工智慧的首要原因。Gartner分析和人工智慧團隊高級總監兼分析師Peter Krensky說:“領導者和從業者都在為原型準備數據和確保為現實世界做好準備之間掙扎。”
“為了應對這些挑戰,企業必須務實,採用與數據預期目的相一致的管理方法,促進信任和適應性,"Krensky 說。
在線娛樂網站 Online Games 的首席執行官 Marin Cristian-Ovidiu 表示,機器學習在很大程度上依賴於數據品質。他說,糟糕的數據[導致]不準確的預測,就像一個推薦系統因為有偏見的輸入而推廣不相關的內容一樣。
要解決這個問題,企業必須採用強大的數據清理流程和多樣化的數據集,Cristian-Ovidiu 說。Arora補充說,高質量的數據對於建立可靠的機器學習模型至關重要。他說,應定期對數據進行清洗,並採用預處理技術以確保準確性,良好的數據是有效訓練模型並獲得可靠輸出的關鍵。
除了不準確或存在其他缺陷的數據外,企業還可能發現自己需要處理一些對特定任務沒有意義的數據點。團隊可以利用數據可視化和統計分析等功能識別無關數據。一旦識別出這些數據,就可以在訓練模型之前將其從數據集中刪除。
模型過擬合和欠擬合
除了使用的數據外,模型本身也可能成為機器學習專案中的故障源。
當模型在訓練時過於貼近訓練集,就會出現過度擬合的情況。這會導致模型在新數據上表現不佳。模型通常在已知數據集上進行訓練,以便對新數據進行預測,但過度擬合的模型無法很好地泛化到新數據上,也就無法完成預期任務。
谷歌軟體工程師、PressPulse 公司創始人Elvis Sun說:“如果一個模型在訓練數據上表現良好,但在新數據上表現不佳,那麼這個模型就被稱為過擬合模型。”PressPulse 是一家利用人工智慧幫助記者和專家建立聯繫的公司。“當模型變得過於複雜時,它就會'記憶'訓練數據,而不是找出模式。”
欠擬合是指模型過於簡單,無法準確捕捉輸入和輸出變數之間的關係。結果是模型在訓練數據和新數據上表現不佳。Sun 說,“當模型過於簡單,無法代表數據的真實複雜性時,就會出現欠擬合。”
Sun 說,團隊可以使用交叉驗證、正則化和適當的模型架構來解決這些問題。他說,交叉驗證可以評估模型在保留數據上的表現,從而證明模型的泛化能力。企業可以在模型的複雜性和泛化之間取得平衡,從而產生可靠、準確的機器學習解決方案。他說,L1 或 L2 等正則化技術通過懲罰模型的複雜性和促進更簡單、更廣泛適用的解決方案來阻止過度擬合。
遺留系統集成問題
將機器學習集成到遺留IT系統中可能需要評估現有基礎設施對機器學習的適應性、創建整合流程、使用應用程式程式設計介面(API)進行數據交換以及其他步驟。無論涉及什麼內容,確保現有系統能夠支援新的基於機器學習的產品至關重要。
軟體人才中介機構Scalable Path的創始人兼首席執行官Damien Filiatrault表示:“遺留系統可能無法滿足機器學習工具的基礎設施要求,這可能會導致效率低下或集成不完整。”
Filiatrault說:“例如,一個需求預測機器學習模型可能與零售公司當前使用的庫存管理軟體不相容。因此,要進行此類實施,必須先對系統進行徹底評估。”
Filiatrault表示,可以通過API和微服務將機器學習模型與舊系統集成,這些API和微服務能夠實現它們之間的交互。“此外,數據科學家和IT團隊跨職能協作,分階段推出,可以確保更平穩的採用。”
性能和可擴充性問題
可擴展性是另一個問題,特別是隨著機器學習的使用時間逐漸延長。如果系統無法在處理顯著更大的數據集、增加的複雜性和更高的計算需求時保持其性能和效率,那麼結果可能無法接受。
機器學習模型必須能夠在處理不斷增長的數據量時保持性能或速度不會大幅下降。Arora說:“除非公司使用可擴展的雲計算資源,否則將無法處理波動的數據量。根據數據集的大小,可能需要更複雜的模型。分散式計算框架允許對大型數據集進行並行計算。”
缺乏透明度和信任
Filiatrault說,機器學習應用程式往往像“黑箱”一樣運作,這使得解釋其結果具有挑戰性。
Filiatrault說:“在醫療保健和其他注重保密性的環境中,這種缺乏透明度可能會損害使用者的信心。盡可能使用可解釋模型或採用SHAP(SHapley Additive exPlanations)等解釋框架可能有助於解決這個問題。”
Filiatrault表示,對決策過程進行適當的文檔記錄和可視化也有助於建立使用者信任並遵守法規,以保證人工智慧的倫理使用。
Cristian-Ovidiu說:“模型通常只給出結果,而不解釋原因。例如,一個玩家參與度模型可能會提高留存率,但無法明確哪些因素起到了作用。使用易於理解的模型,並請專家幫忙檢查結果。”
特定領域知識不足
Sun說,有效使用機器學習通常需要對所解決的問題或領域有深入瞭解。團隊中缺乏合適人才的公司可能會發現,這種領域專業知識是一個重大問題。
Sun說:“根據行業特定的數據結構、業務程式以及法律和法規等因素,機器學習解決方案可能會成功,也可能不會成功。”
為了彌合這一差距,機器學習專業人員必須與相關領域的人員密切合作。“通過將機器學習團隊的技術專長與領域專家的具體情況知識相結合,企業可以創建更好的機器學習模型,”他說,“這種合作可以採取問題定義、訓練數據集創建或在模型開發和部署期間建立持續反饋迴圈的形式。”
機器學習技能短缺
與許多其他技術領域一樣,組織面臨著所需的機器學習技能短缺問題。
Krensky說:“人才挑戰通常源於技能短缺以及需要彌合技術和非技術利益相關者之間的鴻溝。許多組織在變革管理方面遇到困難,這對於推動採用和使團隊與不斷發展的能力保持一致至關重要。”
Krensky說,組織通過專注於技能再培訓、促進跨學科協作和接受新角色(如AI翻譯人員)來克服這些挑戰。