기계 학습은 많은 잠재력이 있는 것처럼 보이는 수십억 달러 규모의 비즈니스이지만 몇 가지 위험이 있으며 가장 일반적인 기계 학습 실수를 피하는 방법은 다음과 같습니다.
隨著機器學習技術的應用越來越廣泛,它正在許多領域佔據一席之地。研究公司 Fortune Business Insights 預測,全球機器學習市場將從 2023 年的 260.3 億美元擴大到 2030 年的 2259.1 億美元。機器學習的用例包括產品推薦、圖像識別、欺詐檢測、語言翻譯、診斷工具等。
인공 지능의 하위 집합인 기계 학습은 예측 결정을 내리기 위해 대규모 데이터 세트에서 알고리즘을 활용하는 프로세스를 나타냅니다. 기계 학습의 잠재적인 이점은 무한해 보일 수 있지만 몇 가지 위험도 따릅니다.
기술 리더와 분석가에게 머신 러닝 프로젝트가 실패하는 가장 일반적인 방식에 대해 물었습니다. 그들이 우리에게 말한 내용은 다음과 같습니다.
기계 학습 프로젝트가 실패하는 10가지 방법:
인공 지능 환각
모델 바이어스
법적, 도덕적 해이
낮은 데이터 품질
과적합(overfitting) 및 과소적합(underfitting) 모델
레거시 시스템 통합 문제
성능 및 확장성 문제
투명성과 신뢰의 부족
특정 영역에 대한 지식 부족
기계 학습 기술이 부족합니다
인공 지능 환각
기계 학습에서 환각은 대규모 언어 모델(LLM)이 존재하지 않거나 인간이 인식할 수 없는 패턴이나 물체를 인식하는 경우입니다. 생성된 코드나 챗봇 응답에서 환각이 나타나면 쓸모없는 출력으로 이어집니다.
"오늘날의 환경에서는 환각과 같은 문제가 사상 최고치에 달하고 있습니다." 통합 데이터 플랫폼 공급업체인 뉴렐릭(New Relic)의 AI/머신 러닝 책임자인 캠든 스위타(Camden Swita)는 최근 연구에 따르면 대다수의 머신러닝 엔지니어가 환각 징후를 관찰하고 있다고 지적했다.
Swita는 환상을 없애려면 콘텐츠 생성에만 집중해서는 안 된다고 말합니다. "대신, 개발자들은 작업을 요약하는 것을 강조하고, 환각을 크게 줄일 수 있는 RAG(Retrieval Enhanced Generation)와 같은 첨단 기술을 활용해야 합니다." 또한 AI의 출력을 실제, 검증된 및 표준 데이터 소스에 고정하면 오해의 소지가 있는 정보가 발생할 가능성이 줄어듭니다.
모델 바이어스
기업은 모델 편향을 인식해야 하며, 이는 모델에 지속적으로 잘못된 예측으로 이어질 수 있는 체계적인 오류가 있는 것입니다. 이러한 오류는 사용된 알고리즘 선택, 학습 데이터, 모델을 만들 때 사용된 기능 선택 또는 기타 문제로 인해 발생할 수 있습니다.
AI를 사용하여 의료 산업의 구직자를 연결하는 데 도움을 주는 회사인 StaffDNA의 CEO인 Sheldon Arora는 "머신 러닝 모델을 훈련하는 데 사용되는 데이터에는 정확한 인구 대표와 다양한 데이터 세트가 포함되어야 합니다"라고 말했습니다. "특정 집단을 과도하게 대표하면 전체 집단을 부정확하게 대표할 수 있습니다. 모델 성능에 대한 지속적인 모니터링은 모든 인구 통계 그룹의 공정한 대표성을 보장합니다. ”
Swita는 편향을 해결하는 것이 현대 AI 환경에서 성공의 핵심이며, 편향된 콘텐츠를 사전에 식별하고 수정하는 데 도움이 되는 지속적인 모니터링, 경고 메커니즘 및 콘텐츠 필터링을 구현하는 것이 모범 사례라고 말했습니다. "이러한 접근 방식을 통해 기업은 입증된 콘텐츠의 우선 순위를 정하는 AI 프레임워크를 개발할 수 있습니다."
Swita는 편향을 해결하기 위해서는 빠르게 진화하는 패턴을 따라잡기 위해 시스템의 지속적인 개선을 포함한 역동적인 접근 방식이 필요하며, 편향을 제거하기 위한 잘 맞춤화된 전략이 필요하다고 말합니다.
법적, 도덕적 해이
기계 학습과 관련된 특정 법적 및 윤리적 위험이 있습니다. 법적 위험에는 차별, 데이터 개인 정보 보호 위반, 보안 위반 및 모델 편향으로 인한 지적 재산권 위반이 포함됩니다. 이러한 위험 및 기타 위험은 기계 학습 시스템의 개발자와 사용자에게 영향을 미칠 수 있습니다.
도덕적 해이에는 잠재적인 피해 또는 착취, 데이터 오용, 투명성 부족 및 책임 부족이 포함됩니다. 기계 학습 알고리즘을 기반으로 내린 결정은 의도하지 않았더라도 개인에게 부정적인 영향을 미칠 수 있습니다.
Swita는 모델과 출력이 신뢰할 수 있고 검증되고 규제된 데이터를 기반으로 구축되어야 한다고 반복해서 강조합니다. 그는 데이터 사용 및 개인 정보 보호에 관한 규정 및 표준을 준수함으로써 기업은 기계 학습과 관련된 법적 및 윤리적 위험을 줄일 수 있다고 말했습니다.
낮은 데이터 품질
긍정적인 결과를 얻기 위해 데이터에 의존하는 모든 기술과 마찬가지로 기계 학습이 성공하려면 고품질 데이터가 필요합니다. 데이터 품질이 좋지 않으면 모델 결함과 용납할 수 없는 결과가 발생할 수 있습니다.
리서치 회사인 Gartner의 시장 분석에 따르면 대부분의 조직이 데이터에 문제가 있으며, 많은 조직이 AI를 신뢰하지 않는 가장 큰 이유로 신뢰할 수 없고 부정확한 데이터를 꼽습니다. 가트너(Gartner)의 분석 및 인공 지능 팀의 수석 이사 겸 애널리스트인 피터 크렌스키(Peter Krensky)는 "리더와 실무자들은 프로토타입을 위한 데이터를 준비하는 것과 현실 세계에 대한 준비를 하는 것 사이에서 고군분투하고 있다. ”
Krensky는 "이러한 과제를 해결하기 위해 기업은 실용적이어야 하며 데이터의 의도된 목적과 일치하는 관리 접근 방식을 채택하여 신뢰와 적응력을 촉진해야 합니다"라고 말합니다.
온라인 게임 사이트인 온라인 게임즈(Online Games)의 CEO인 마린 크리스티안-오비디우(Marin Cristian-Ovidiu)는 머신러닝이 데이터 품질에 크게 의존한다고 말했다. 그는 잘못된 데이터는 부정확한 예측으로 이어지며, 이는 추천 시스템이 편향된 입력으로 인해 관련 없는 콘텐츠를 조장하는 것과 같다고 말합니다.
이 문제를 해결하기 위해 조직은 강력한 데이터 정리 프로세스와 다양한 데이터 세트를 채택해야 한다고 Cristian-Ovidiu는 말합니다. Arora는 신뢰할 수 있는 머신 러닝 모델을 구축하기 위해서는 고품질 데이터가 필수적이라고 덧붙였습니다. 그는 데이터를 정기적으로 정리하고 정확성을 보장하기 위해 전처리 기술을 사용해야 하며, 좋은 데이터는 모델을 효과적으로 훈련하고 신뢰할 수 있는 결과를 얻는 열쇠라고 말했습니다.
부정확하거나 결함이 있는 데이터 외에도 기업은 특정 작업에 적합하지 않은 데이터 포인트를 처리해야 할 수도 있습니다. 팀은 데이터 시각화 및 통계 분석과 같은 기능을 사용하여 관련 없는 데이터를 식별할 수 있습니다. 이 데이터가 식별되면 모델을 학습하기 전에 데이터 세트에서 제거할 수 있습니다.
과적합(overfitting) 및 과소적합(underfitting) 모델
사용된 데이터 외에도 모델 자체도 기계 학습 프로젝트에서 실패의 원인이 될 수 있습니다.
과대적합은 모델이 학습 세트에 너무 가깝게 학습될 때 발생합니다. 이로 인해 새 데이터에 대해 모델 성능이 저하됩니다. 모델은 새로운 데이터에 대한 예측을 수행하기 위해 알려진 데이터 세트에 대해 훈련되는 경우가 많지만 과잉 맞춤 모델은 새로운 데이터로 잘 일반화되지 않으므로 예상 작업을 수행하지 못합니다.
구글의 소프트웨어 엔지니어이자 프레스펄스(PressPulse)의 창립자인 엘비스 선(Elvis Sun)은 "모델이 훈련 데이터에서는 잘 수행되지만 새로운 데이터에서는 잘 수행되지 않는 경우 해당 모델을 과적합 모델이라고 합니다. "PressPulse는 인공 지능을 사용하여 언론인과 전문가의 연결을 돕는 회사입니다." 모델이 너무 복잡해지면 패턴을 파악하는 대신 학습 데이터를 '기억'합니다. ”
과소적합은 모델이 너무 단순하여 입력 변수와 출력 변수 간의 관계를 정확하게 캡처할 수 없는 경우입니다. 그 결과 모델은 학습 데이터 및 새 데이터에 대해 제대로 수행되지 않습니다. "과소적합은 모델이 너무 단순하여 데이터의 실제 복잡성을 나타낼 수 없을 때 발생합니다. ”
Sun은 팀이 교차 검증, 정규화 및 적절한 모델 아키텍처를 사용하여 이러한 문제를 해결할 수 있다고 말합니다. 그는 교차 검증(cross-validation)은 보존된 데이터에서 모델이 얼마나 잘 수행되는지 평가하여 모델의 일반화 능력을 입증할 수 있다고 말합니다. 기업은 모델의 복잡성과 일반화 사이의 균형을 유지하여 신뢰할 수 있고 정확한 기계 학습 솔루션을 생성할 수 있습니다. L2 또는 L0와 같은 정규화 기술은 모델의 복잡성을 제한하고 더 간단하고 널리 적용할 수 있는 솔루션을 촉진하여 과적합을 억제한다고 그는 말했습니다.
레거시 시스템 통합 문제
머신 러닝을 레거시 IT 시스템에 통합하려면 머신 러닝에 대한 기존 인프라의 적응성을 평가하고, 통합 프로세스를 생성하고, 데이터 교환을 위한 API(애플리케이션 프로그래밍 인터페이스)를 사용하는 등의 단계가 필요할 수 있습니다. 어떤 일이 발생하든 기존 시스템이 새로운 머신 러닝 기반 제품을 지원할 수 있는지 확인하는 것이 중요합니다.
소프트웨어 인재 에이전시인 Scalable Path의 설립자 겸 CEO인 Damien Filiatrault는 "레거시 시스템은 머신 러닝 도구의 인프라 요구 사항을 충족하지 못할 수 있으며, 이는 비효율성이나 불완전한 통합으로 이어질 수 있습니다. ”
"예를 들어, 수요 예측 기계 학습 모델은 현재 소매 회사에서 사용하는 재고 관리 소프트웨어와 호환되지 않을 수 있습니다"라고 Filiatrault는 말합니다. 따라서 이러한 구현이 수행되려면 시스템을 철저히 평가해야 합니다. ”
Filiatrault에 따르면 머신 러닝 모델은 서로 상호 작용할 수 있는 API 및 마이크로서비스를 통해 레거시 시스템과 통합될 수 있습니다. "또한 데이터 사이언티스트와 IT 팀은 부서 간에 협업하고 단계적으로 롤아웃하여 보다 원활한 채택을 보장합니다."
성능 및 확장성 문제
확장성은 특히 시간이 지남에 따라 기계 학습이 사용되기 때문에 또 다른 관심사입니다. 시스템이 훨씬 더 큰 데이터 세트, 증가된 복잡성 및 더 높은 컴퓨팅 요구를 처리하면서 성능과 효율성을 유지할 수 없는 경우 결과를 수용할 수 없을 수 있습니다.
기계 학습 모델은 성능이나 속도의 심각한 저하 없이 증가하는 데이터를 처리할 수 있어야 합니다. "기업이 확장 가능한 클라우드 컴퓨팅 리소스를 사용하지 않으면 변동하는 데이터 볼륨을 처리할 수 없을 것"이라고 Arora는 말했습니다. 데이터 세트의 크기에 따라 더 복잡한 모델이 필요할 수 있습니다. 분산 컴퓨팅 프레임워크는 대규모 데이터 세트의 병렬 계산을 허용합니다. ”
투명성과 신뢰의 부족
기계 학습 애플리케이션은 "블랙 박스"처럼 작동하는 경향이 있어 결과를 해석하기가 어렵다고 Filiatrault는 말했습니다.
"기밀 유지가 중요한 의료 및 기타 환경에서 이러한 투명성 부족은 사용자의 신뢰를 떨어뜨릴 수 있습니다"라고 Filiatrault는 말했습니다. 가능하면 설명 가능한 모델을 사용하거나 SHAP(SHapley Additive exPlanations)와 같은 설명 프레임워크를 사용하면 이 문제를 해결하는 데 도움이 될 수 있습니다. ”
필리아트로는 의사 결정 과정에 대한 적절한 문서화와 시각화가 사용자 신뢰를 구축하고 AI의 윤리적 사용을 보장하는 규정을 준수하는 데 도움이 될 수 있다고 말했습니다.
크리스티안 오비디우(Cristian-Ovidiu)는 "모델은 종종 결과만 제공할 뿐 그 이유는 설명하지 않습니다. 예를 들어, 플레이어 참여 모델은 유지율을 향상시킬 수 있지만 어떤 역할을 했는지는 알 수 없습니다. 이해하기 쉬운 모델을 사용하여 전문가에게 결과 확인을 요청하십시오. ”
특정 영역에 대한 지식 부족
기계 학습을 효과적으로 사용하려면 해결해야 할 문제나 영역에 대한 깊은 이해가 필요한 경우가 많다고 Sun은 말합니다. 팀에 적합한 인재가 부족한 기업은 이 도메인 전문 지식이 심각한 문제임을 알게 될 수 있습니다.
"산업별 데이터 구조, 비즈니스 절차, 법률 및 규정과 같은 요인에 따라 기계 학습 솔루션이 성공할 수도 있고 성공하지 못할 수도 있습니다"라고 Sun은 말했습니다. ”
이 격차를 해소하기 위해 기계 학습 전문가는 해당 분야의 사람들과 긴밀하게 협력해야 합니다. 그는 "머신 러닝 팀의 기술 전문 지식과 도메인 전문가의 상황별 지식을 결합함으로써 조직은 더 나은 머신 러닝 모델을 만들 수 있다"며 "이러한 협업은 문제 정의, 훈련 데이터 세트 생성 또는 모델 개발 및 배포 중 지속적인 피드백 루프 구축의 형태를 취할 수 있다"고 말합니다. ”
기계 학습 기술이 부족합니다
다른 많은 기술 영역과 마찬가지로 조직은 필요한 기계 학습 기술이 부족합니다.
Krensky는 "인재 문제는 종종 기술 부족과 기술 이해 관계자와 비기술 이해 관계자 간의 격차를 해소해야 할 필요성에서 비롯됩니다"라고 말했습니다. 많은 조직이 변경 관리에 어려움을 겪고 있으며, 이는 채택을 촉진하고 진화하는 기능에 맞게 팀을 조정하는 데 매우 중요합니다. ”
Krensky는 조직이 재교육에 집중하고 분야 간 협업을 촉진하고 AI 번역가와 같은 새로운 역할을 수용함으로써 이러한 문제를 극복하고 있다고 말했습니다.