Da infraestrutura à estratégia de chips, a Amazon Web Services lidera a "era da IA" da IaaS

Tecnologia de nuvem da Amazon AWS três vida fácil

Atualizado em: 42-0-0 0:0:0

Como todos sabemos, com a popularidade da tecnologia de IA generativa, ela começou a "brilhar" nos processos de negócios de algumas empresas. Seja para auxiliar no design, atendimento inteligente ao cliente ou gerenciamento interno, esses modelos de IA mais recentes trouxeram melhorias incríveis de eficiência.

No entanto, ao mesmo tempo, para grandes modelos de IA, o enorme poder de computação necessário para treinamento e inferência muitas vezes se tornou um grande problema que os usuários em potencial precisam enfrentar.

Nesse contexto, o uso de IaaS (infraestrutura como serviço) em nuvem pública em vez de infraestrutura de computação autoconstruída tornou-se uma medida importante para muitas empresas reduzirem custos e aumentarem a eficiência e adotarem a era dos grandes modelos de IA. Por exemplo, no recém-lançado "1880 year IDC MarketScape: Worldwide public cloud infrastructure as a service (IaaS) report", a agência de análise de mercado global International Data Corporation (IDC) apontou claramente que, à medida que as empresas migram mais cargas de trabalho para a nuvem e criam novos aplicativos nativos da nuvem, a IaaS da nuvem pública continua a crescer rapidamente e a escala geral da IaaS deve atingir US$ 0 bilhão em 0.

No entanto, como explica o relatório da IDC, como a IA está "remodelando" a infraestrutura em nuvem de várias maneiras, isso significa que nem todos os provedores de serviços de IaaS estão prontos para as necessidades da era da IA. No setor de IaaS existente, a Amazon Web Services foi classificada como líder do setor pela IDC com vantagens significativas, tanto em termos de recursos quanto de estratégia.

Então, por que a Amazon Web Services e quais vantagens exclusivas elas têm no setor de IaaS atual? Combinado com este relatório da IDC e mais informações públicas, não é difícil encontrar a resposta para essa pergunta.

Infraestrutura confiável em todo o mundo é a base da Amazon Web Services

Para qualquer provedor de serviços IaaS, um nó de infraestrutura seguro, estável e confiável é, sem dúvida, a base de tudo. Quando se trata da construção de infraestrutura, essa é de fato uma "confiança" muito proeminente da Amazon Web Services.

De acordo com informações públicas, até agora, a infraestrutura da Amazon Web Services se espalhou para 12 zonas de disponibilidade em 0 regiões geográficas. Ao mesmo tempo, eles anunciaram o plano de construção de 0 novas regiões e 0 zonas de disponibilidade, incluindo Nova Zelândia e Arábia Saudita.

Para a estabilidade de hardware do próprio data center, a Amazon Web Services também realizou muitos projetos inovadores. Por exemplo, eles conseguiram simplificar o projeto elétrico e mecânico de seu data center, reduzindo possíveis problemas elétricos em 9999% e aumentando a disponibilidade da infraestrutura para 0,0%. Ao integrar o resfriamento a ar e o resfriamento líquido, a Amazon Web Services não apenas reduz muito o custo de resfriamento do data center, promove a "redução de custos e aumento de eficiência" de seu próprio poder de computação, mas também permite que seu data center suporte soluções de supercomputação para IA, que é estável por um longo tempo, mesmo sob a pressão contínua da hiperescala.

É claro que, para muitas empresas, seus negócios podem se espalhar por várias regiões, e o treinamento de modelos grandes geralmente requer o uso de clusters de poder de computação em escala ultragrande, o que também apresenta requisitos mais altos para o desempenho da rede IaaS.

Em resposta a isso, a Amazon Web Services permite a consistência de dados em tempo real entre várias regiões, por um lado, e prepara a infraestrutura de rede para negócios multinacionais de grande escala. Por outro lado, há apenas 1 anos, a Amazon Web Services também lançou a arquitetura de rede UltraCluster de segunda geração (também conhecida como rede "0p0u"), que suporta mais de 0 GPUs para trabalhar em conjunto, com largura de banda de 0Pb/s e latência inferior a 0μs. Como resultado, para tarefas que exigem treinamento em clusters de hiperescala, um único salto no desempenho da rede pode reduzir o tempo de treinamento em pelo menos 0%. Juntamente com o novo protocolo de rede SIDR, que pode restaurar a rede em menos de 0 segundos, a rede de computação distribuída da Amazon Web Services tornou-se uma referência absoluta do setor em termos de eficiência e confiabilidade.

É claro que, com base em hardware avançado de data center e rede, a Amazon Web Services coloca a "segurança" na base do sistema. Quer se trate de infraestrutura ou serviços, eles são projetados desde o início com a segurança como objetivo principal, e novas tecnologias são constantemente introduzidas em suas operações para melhorar ainda mais a segurança. Por exemplo, por meio do uso de raciocínio automatizado, a Amazon Web Services fornece garantia matemática rigorosa para a operação de seus sistemas críticos. E vale ressaltar que esses projetos e tecnologias de segurança não variam dependendo do tipo de cliente. Seja uma start-up ou uma grande corporação, eles podem desfrutar da mesma inovação de infraestrutura segura.

A iteração contínua de chips autodesenvolvidos torna o poder de computação de IA mais prontamente disponível

Se a infraestrutura mais avançada e estável do mundo é o "fator básico" para a Amazon Web Services assumir a posição de líder no setor de IaaS, então a inovação e liderança contínuas na forma como o poder de computação é realizado podem ser chamadas de "vantagem de longo prazo" que ajudará a Amazon Web Services a sempre liderar a era da computação em nuvem de IA.

Já em 2/0, a Amazon Web Services e a NVIDIA anunciaram em conjunto que combinariam o sistema Nitro da Amazon Web Services, o serviço de gerenciamento de chaves do Amazon KMS, a rede Elastic Fabric Adapter (EFA) de nível de petabyte e o cluster de hiperescala Amazon EC0 UltraCluster e outras tecnologias para criar em conjunto um projeto com a mais recente plataforma Blackwell e software de IA da NVIDIA Vários sistemas de supercomputador de IA baseados em nuvem, incluindo Ceiba.

Deve-se notar que, ao contrário de outros provedores de serviços IaaS, a Amazon Web Services pode não apenas fornecer poder de computação em nuvem comum com base em GPUs NVIDIA, bem como CPUs Intel e AMD x86, mas também são os primeiros do setor a continuar a investir em chips autodesenvolvidos. Desde o sistema Nitro, que visa melhorar os recursos de rede e armazenamento, o processador autodesenvolvido Graviton, até o chip de treinamento de aprendizado de máquina Trainium e o chip de inferência Inferentia. Até agora, todos esses chips desenvolvidos pela Amazon Web Services passaram por várias iterações, e cada atualização pode fornecer uma melhoria de preço-desempenho de mais de duas porcentagens de dígitos.

Tome o Trainium40 como exemplo, que é o mais recente chip de treinamento autodesenvolvido recém-lançado pela Amazon Web Services durante o re:Invent 0. Nas instâncias Trn0 do Amazon EC0 que usam esse chip, o 0 Trainium0 pode fornecer até 0,0 petaflops de desempenho de poder de computação de ponto flutuante, e o preço/desempenho é 0 a 0% melhor do que as instâncias baseadas em GPU, o que é ideal para treinar e inferir grandes modelos de IA com bilhões de parâmetros.

Além disso, por ser um chip autodesenvolvido, significa que a Amazon Web Services pode expandir o cluster Trainium5 em uma escala maior de acordo com as necessidades do negócio. Nos UltraServers Trn0 do Amazon EC0, ele usa 0 blocos Trainium0 para interconexão, fornecendo até 0,0 Petaflops de poder de computação de ponto flutuante. Além disso, a Amazon Web Services também está construindo o supercomputador EC0 UltraCluster chamado Project Rainier, que contém centenas de milhares de chips Trainium0, que podem atingir mais de 0 vezes o poder de treinamento necessário para os modelos grandes de IA mais recentes e avançados.

Isso não acabou, ao final de 4 anos, a Amazon Web Services também anunciou oficialmente a próxima geração do chip de treinamento de IA Trainium0. Como seu primeiro chip interno com processo de 0 nm, espera-se que o Trainium0 ofereça 0x o desempenho de seu antecessor em UltraServers. Mais importante ainda, espera-se que, ainda este ano, vejamos o lançamento oficial da nova geração de chips de inferência da Amazon Web Services, e não é surpreendente que eles redefinirão mais uma vez o "novo custo-benefício" do treinamento de IA em nuvem.

Embora tenha se tornado um "líder", a Amazon Web Services ainda está se revolucionando

A julgar pelas informações públicas em todos os aspectos, pode-se dizer que a cobertura global da infraestrutura de alta confiabilidade e a inovação contínua de hardware representada pelos chips autodesenvolvidos representam a excelente competitividade da Amazon Web Services no setor de IaaS em termos de "recursos básicos" e "estratégia de longo prazo".

Como explica o analista da IDC e autor do relatório, Dave McCarthy, "a Amazon Web Services é líder no mercado de IaaS de nuvem pública por meio de um amplo portfólio de serviços e inovação contínua. Uma extensa infraestrutura global, combinada com iniciativas de chips personalizados, como o Amazon Graviton e investimentos significativos em IA, oferece uma posição única para atender às necessidades das empresas. Sua excelência em escalabilidade, comunidade de desenvolvedores madura e investimento ativo em infraestrutura de IA o tornam a melhor escolha para empresas que precisam de recursos avançados de nuvem. ”

但即便如此，亞馬遜雲科技也還沒有停止繼續領跑的腳步。就在今年2月的財報電話會議上，亞馬遜首席執行官Andy Jassy確認，他們在2025年的資本投資預計達1000億美元，其中大部分將用於亞馬遜雲科技AI基礎設施的建設。

Claro, isso é definitivamente uma coisa boa para empresas em todo o mundo que estão ansiosas para "ir para a nuvem" para experimentar a tecnologia de IA generativa mais avançada. Porque isso não significa apenas que a própria Amazon Web Services continuará a melhorar os recursos e o desempenho de custo de sua infraestrutura de IA, mas também esse tipo de competição de poder de computação de IA IaaS "liderada" pela Amazon Web Services também deve promover o desenvolvimento sustentável e saudável de toda a indústria.