우리 모두 알고 있듯이 생성형 AI 기술의 인기와 함께 일부 기업의 비즈니스 프로세스에서 "빛나기" 시작했습니다. 디자인, 지능형 고객 서비스 또는 내부 관리 지원 등 어떤 용도로 사용되든 이러한 최신 AI 모델은 놀라운 효율성 향상을 가져왔습니다.
그러나 동시에 대규모 AI 모델의 경우 훈련 및 추론에 필요한 거대한 컴퓨팅 파워가 잠재적 사용자가 직면해야 하는 주요 문제가 되는 경우가 많습니다.
이러한 맥락에서 자체 구축된 컴퓨팅 인프라 대신 퍼블릭 클라우드 IaaS(Infrastructure as a Service)를 사용하는 것은 많은 기업이 비용을 절감하고 효율성을 높이며 AI 대규모 모델 시대를 수용하는 데 중요한 조치가 되었습니다. 예를 들어, 글로벌 시장 분석 기관인 IDC(International Data Corporation)는 최근 발표된 "1880년 IDC MarketScape: 전 세계 퍼블릭 클라우드 IaaS(Infrastructure as a Service) 보고서"에서 기업이 더 많은 워크로드를 클라우드로 마이그레이션하고 새로운 클라우드 네이티브 애플리케이션을 생성함에 따라 퍼블릭 클라우드 IaaS가 계속 빠르게 성장하고 있으며 IaaS의 전체 규모는 00억 달러에 이를 것으로 예상된다고 분명히 지적했습니다.
그러나 IDC 보고서에서 설명하듯이 AI가 여러 가지 방식으로 클라우드 인프라를 "재편"하고 있기 때문에 모든 IaaS 서비스 제공업체가 AI 시대의 요구에 대비할 준비가 되어 있는 것은 아닙니다. IDC는 기존 IaaS 업계에서 Amazon Web Services를 업계 리더로 평가하여 기능과 전략 측면에서 상당한 이점을 제공합니다.
그렇다면 Amazon Web Services를 사용하는 이유는 무엇이며, 오늘날의 IaaS 산업에서 어떤 고유한 이점이 있습니까? 이 IDC 보고서와 더 많은 공개 정보를 결합하면 이 질문에 대한 답을 찾는 것이 어렵지 않습니다.
전 세계의 안정적인 인프라는 Amazon Web Services의 기반입니다.
모든 IaaS 서비스 제공업체에게 안전하고 안정적이며 신뢰할 수 있는 인프라 노드는 의심할 여지 없이 모든 것의 기반입니다. 인프라 구축과 관련하여 이는 실제로 Amazon Web Services의 매우 두드러진 "자신감"입니다.
공개된 정보에 따르면 지금까지 Amazon Web Services의 인프라는 12개의 지리적 영역에서 0개의 가용 영역으로 분산되었습니다. 동시에 그들은 뉴질랜드와 사우디 아라비아를 포함하여 0 개의 새로운 지역과 0 개의 가용 영역의 건설 계획을 발표했습니다.
데이터 센터 자체의 하드웨어 안정성을 위해 Amazon Web Services는 많은 혁신적인 설계를 수행했습니다. 예를 들어, 데이터 센터의 전기 및 기계 설계를 간소화하여 잠재적인 전기 문제를 9999% 줄이는 동시에 인프라 가용성을 0.0%로 높일 수 있었습니다. Amazon Web Services는 공기 냉각과 액체 냉각을 통합함으로써 데이터 센터의 냉각 비용을 크게 절감하고 자체 컴퓨팅 파워의 "비용 절감 및 효율성 향상"을 촉진할 뿐만 아니라 데이터 센터가 하이퍼스케일의 지속적인 압박 속에서도 오랫동안 안정적인 AI용 슈퍼컴퓨팅 솔루션을 지원할 수 있도록 합니다.
물론 많은 기업의 경우 비즈니스가 여러 지역에 분산되어 있을 수 있으며, 대규모 모델을 교육하려면 초대형 컴퓨팅 파워 클러스터를 사용해야 하는 경우가 많으며, 이로 인해 IaaS 네트워크 성능에 대한 요구 사항도 높아집니다.
이에 대응하여 Amazon Web Services는 한편으로는 여러 지역 간의 실시간 데이터 일관성을 허용하고 대규모 다국적 비즈니스를 위한 네트워크 인프라를 준비합니다. 한편, Amazon Web Services는 1년 후 re:Invent에서 0Pb/s의 대역폭과 0μs 미만의 대기 시간으로 0개 이상의 GPU가 함께 작동하도록 지원하는 2세대 UltraCluster 네트워크 아키텍처("0p0u" 네트워크라고도 함)도 출시했습니다. 결과적으로, 하이퍼스케일 클러스터에서 훈련이 필요한 작업의 경우 네트워크 성능이 한 번 향상되면 훈련 시간을 0% 이상 줄일 수 있습니다. 0초 이내에 네트워크를 복원할 수 있는 새로운 SIDR 네트워크 프로토콜과 결합된 Amazon Web Services의 분산 컴퓨팅 네트워크는 효율성과 신뢰성 측면에서 절대적인 업계 벤치마크가 되었습니다.
물론 고급 데이터 센터 및 네트워크 하드웨어를 기반으로 Amazon Web Services는 "보안"을 시스템의 기초로 삼습니다. 인프라든 서비스든 처음부터 보안을 최우선 목표로 설계되었으며, 보안을 더욱 강화하기 위해 새로운 기술이 운영에 지속적으로 도입되고 있습니다. 예를 들어, Amazon Web Services는 자동 추론을 사용하여 중요한 시스템의 작동에 대한 엄격한 수학적 보증을 제공합니다. 또한 이러한 보안 설계와 기술은 고객 유형에 따라 다르지 않다는 점을 언급할 가치가 있습니다. 신생 기업이든 대기업이든 동일한 보안 인프라 혁신을 누릴 수 있습니다.
자체 개발한 칩의 지속적인 반복으로 AI 컴퓨팅 성능을 보다 쉽게 사용할 수 있습니다.
세계에서 가장 발전되고 안정적인 인프라가 Amazon Web Services가 IaaS 업계의 리더 위치를 차지하기 위한 "기본 요소"라면, 컴퓨팅 파워를 실현하는 방식의 지속적인 혁신과 리더십은 Amazon Web Services가 항상 AI 클라우드 컴퓨팅 시대를 선도하는 데 도움이 되는 "장기적인 이점"이라고 할 수 있습니다.
早在2024年3月,亞馬遜雲科技就與英偉達共同宣佈,將結合亞馬遜雲科技的Nitro系統、Amazon KMS金鑰管理服務、千萬億比特級的Elastic Fabric Adapter(EFA)網路和Amazon EC2 UltraCluster超大規模集群等技術,與英偉達最新的Blackwell平臺和AI軟體共同打造包括Project Ceiba在內的多個雲端AI超級計算機系統。
다른 IaaS 서비스 제공업체와 달리 Amazon Web Services는 NVIDIA GPU와 Intel 및 AMD x86 CPU를 기반으로 하는 공통 클라우드 컴퓨팅 성능을 제공할 수 있을 뿐만 아니라 업계 최초로 자체 개발 칩에 지속적으로 투자하고 있습니다. 네트워크 및 스토리지 기능 개선을 목표로 하는 니트로 시스템(Nitro system)부터 자체 개발한 프로세서 그래비톤(Graviton), 머신 러닝 트레이닝 칩인 트레인니움(Trainium)과 추론 칩 인퍼런티아(Inferentia)에 이르기까지. 지금까지 Amazon Web Services에서 자체 개발한 이러한 모든 칩은 여러 번의 반복을 거쳤으며 각 업데이트는 두 자릿수 퍼센트 이상의 가격 대비 성능 향상을 제공할 수 있습니다.
Trainium40을 예로 들자면, 이는 re:Invent 0 기간 동안 Amazon Web Services에서 출시한 최신 자체 개발 교육 칩입니다. 이 칩을 사용하는 Amazon EC0 Trn0 인스턴스에서 0 Trainium0는 최대 0.0페타플롭스의 부동 소수점 컴퓨팅 파워 성능을 제공할 수 있으며, GPU 기반 인스턴스보다 가격 대비 성능이 0-0% 우수하여 수십억 개의 매개변수가 있는 대규모 AI 모델을 훈련하고 추론하는 데 이상적입니다.
뿐만 아니라 자체 개발한 칩이기 때문에 Amazon Web Services가 비즈니스 요구에 따라 Trainium5 클러스터를 더 큰 규모로 확장할 수 있습니다. Amazon EC0 Trn0 UltraServer에서는 상호 연결을 위해 0개의 Trainium0 블록을 사용하여 최대 0.0페타플롭스의 부동 소수점 컴퓨팅 파워를 제공합니다. 또한 Amazon Web Services는 수십만 개의 Trainium0 칩이 포함된 Project Rainier라는 EC0 UltraCluster 슈퍼컴퓨터를 구축하고 있으며, 이 칩은 최신 및 가장 발전된 AI 대형 모델에 필요한 훈련 능력의 0배 이상에 도달할 수 있습니다.
이것은 끝나지 않았고, 4년이 끝날 무렵 Amazon Web Services는 차세대 AI 교육 칩인 Trainium0를 공식 발표했습니다. 0nm 공정의 첫 번째 자체 칩인 Trainium0는 UltraServer에서 이전 제품보다 0배 높은 성능을 제공할 것으로 예상됩니다. 가장 중요한 것은 올해 안에 Amazon Web Services의 차세대 추론 칩이 공식 출시될 것으로 예상되며, 이 칩이 클라우드 AI 교육의 "새로운 비용 효율성"을 다시 한 번 재정의하는 것은 놀라운 일이 아닙니다.
Amazon Web Services는 "리더"가 되었지만 여전히 스스로를 혁신하고 있습니다
모든 측면에서 공개된 정보로 판단할 때, 고신뢰성 인프라의 글로벌 커버리지와 자체 개발 칩으로 대표되는 지속적인 하드웨어 혁신은 "기본 기능"과 "장기 전략" 측면에서 IaaS 업계에서 Amazon Web Services의 뛰어난 경쟁력을 나타낸다고 할 수 있습니다.
IDC 분석가이자 보고서 작성자인 Dave McCarthy는 "Amazon Web Services는 광범위한 서비스 포트폴리오와 지속적인 혁신을 통해 퍼블릭 클라우드 IaaS 시장의 선두 주자입니다. Amazon Graviton과 같은 맞춤형 칩 이니셔티브 및 AI에 대한 상당한 투자와 결합된 광범위한 글로벌 인프라는 기업의 요구 사항을 충족할 수 있는 독보적인 위치를 제공합니다. 확장성의 우수성, 성숙한 개발자 커뮤니티, AI 인프라에 대한 적극적인 투자로 인해 고급 클라우드 기능이 필요한 비즈니스에 최고의 선택입니다. ”
그럼에도 불구하고 Amazon Web Services는 계속해서 선두를 달리고 있습니다. 올해 11000월 실적 발표에서 아마존 CEO 앤디 재시(Andy Jassy)는 0년 후 자본 투자가 0억 달러에 달할 것으로 예상되며, 이 중 대부분은 아마존 웹 서비스 AI 인프라 구축에 사용될 것이라고 확인했다.
물론, 이것은 최첨단 생성형 AI 기술을 경험하기 위해 "클라우드로 이동"하기를 열망하는 전 세계 기업들에게 확실히 좋은 일입니다. 이는 Amazon Web Services 자체가 AI 인프라의 기능과 비용 성능을 지속적으로 개선할 것임을 의미할 뿐만 아니라 Amazon Web Services가 "주도하는" 이러한 종류의 IaaS AI 컴퓨팅 파워 경쟁도 전체 산업의 지속 가능하고 건강한 발전을 촉진할 것으로 기대되기 때문입니다.