Com o rápido desenvolvimento do treinamento de grandes modelos de IA, da computação de alto desempenho e da computação em nuvem, a demanda das empresas por potência de computação de GPU de servidor e desempenho de armazenamento apresentou uma tendência de crescimento explosivo. No entanto, as arquiteturas de servidor tradicionais têm muitos gargalos nos recursos de expansão, como slots PCIe limitados, dificuldade em equilibrar a implementação de GPU e SSD e falta de flexibilidade nas soluções de expansão. Esses problemas restringiram muito a inovação nos negócios. Este documento analisará profundamente esses pontos problemáticos do setor e demonstrará como o LR-LINK LRSV9500-4I oferece às empresas uma solução de expansão em um único local por meio de modos flexíveis de bifurcação X4/X8/X16.
I. Grave escassez de recursos de slots PCIe
1.1 Situação atual
As placas-mãe de servidores modernos geralmente oferecem apenas 4 a 8 slots PCIe, que precisam atender aos requisitos de vários periféricos, como placas de rede, GPUs, SSDs NVMe e placas RAID ao mesmo tempo. Em cenários de treinamento de IA, um único servidor pode exigir de 4 a 8 placas gráficas de GPU, além de dispositivos de armazenamento de alta velocidade, o que faz com que o número de slots PCIe seja a maior restrição.
1.2 Impactos nos negócios
É difícil implementar GPU e SSD ao mesmo tempo, e é preciso fazer concessões entre a capacidade de computação e o armazenamento
As empresas precisam comprar mais servidores, o que leva a um aumento significativo no TCO
O espaço do gabinete se esgota rapidamente, resultando em baixa utilização de recursos dos data centers
1.3 Solução LRSV9500-4I
Com base no chip Broadcom PEX89048 PCIe Switch, o LRSV9500-4I expande um único slot PCIe GEN 5.0 x16 em 4 interfaces MCIO 8I. Ele pode conectar 8 SSDs NVMe no modo X4 e 2 placas gráficas de GPU de ponta no modo X16. Apenas um slot PCIe é ocupado, alcançando uma melhoria de 800% na eficiência da expansão.
Os cenários de treinamento de IA têm requisitos extremamente altos para GPU e armazenamento de alta velocidade. As GPUs precisam processar grandes quantidades de dados, enquanto a largura de banda e os IOPS do armazenamento SAS/SATA tradicional não conseguem atender à demanda. No entanto, depois que os slots PCIe na placa-mãe são ocupados por GPUs, não há interfaces suficientes para implantar matrizes de SSDs NVMe.
· Durante o treinamento de modelos grandes, a taxa de utilização da potência de computação da GPU geralmente é menor do que a potência de computação de pico. Por exemplo, a taxa de utilização é de cerca de 59% em um cluster de 1000 GPUs e de cerca de 55,2% em um cluster de 10000 GPUs.
· A leitura dos dados de treinamento torna-se um fator restritivo, levando a ciclos mais longos de iteração do modelo
Por meio do modo híbrido X8, o LRSV9500-4I pode suportar GPU e SSD NVMe ao mesmo tempo. Por exemplo, 2×X8 é usado para conectar GPUs e o 2×X8 restante é conectado a 2 SSDs NVMe como cache local. Dessa forma, as GPUs podem ler dados diretamente do armazenamento local de alta velocidade, melhorando a eficiência do treinamento em 3 a 5 vezes.
A taxa de sinal do padrão PCIe 5.0 chega a 32GT/s. Essa velocidade dobrada significa requisitos extremamente rigorosos de integridade de sinal para garantir a precisão e a eficiência da transmissão de dados. A transmissão de longa distância, os cabos ou conectores de qualidade inferior levarão à atenuação do sinal e ao aumento da taxa de erro de bits e, em casos graves, o equipamento não poderá ser identificado ou será frequentemente desconectado.
· No processo de treinamento da GPU, se uma placa for desconectada, dias de resultados de computação serão perdidos
· Os dispositivos de armazenamento são executados em uma velocidade reduzida, de PCIe 5.0 para 4.0, ou até mesmo 3.0
· Ocorre instabilidade do sistema e tela azul da morte, afetando assim a continuidade dos negócios
O LRSV9500-4I adota um design de PCB de alta especificação, conectores de alta qualidade e tecnologia de otimização de sinal para garantir a operação estável do PCIe 5.0 em taxa total. A tecnologia PCIe 5.0 pode oferecer velocidades sequenciais de leitura e gravação de até 14.000 MB/s e desempenho ideal sob a configuração correta. A interface MCIO fornece uma conexão física confiável e, com cabos certificados, pode reduzir efetivamente a taxa de erro de bits e garantir uma operação estável de 7×24 horas.
Em cenários de treinamento com várias GPUs, a topologia de interconexão entre as GPUs afeta diretamente a eficiência do treinamento. As soluções tradicionais dependem dos canais PCIe fornecidos pela CPU, e a comunicação entre várias placas precisa passar pela CPU, o que resulta em largura de banda limitada e alta latência.
· A eficiência do treinamento distribuído é baixa devido à largura de banda de comunicação insuficiente entre as GPUs
· São encontradas dificuldades na expansão de clusters em grande escala
No modo X16, o LRSV9500-4I permite que as GPUs obtenham uma comunicação P2P eficiente por meio do Switch, melhorando efetivamente a eficiência do treinamento com várias placas.
Para clusters entre hosts, com a ajuda de placas de rede compatíveis com RoCE v2 (RDMA over Converged Ethernet), as GPUs podem ignorar a CPU e gravar dados diretamente na memória de vídeo de GPUs remotas por meio do adaptador de rede. Vários servidores são interconectados diretamente para obter compartilhamento de memória e troca de dados em alta velocidade.
Os pontos problemáticos da GPU do servidor e da expansão do armazenamento são essencialmente a contradição entre recursos limitados e demanda ilimitada. Por meio da tecnologia PCIe Switch e dos modos flexíveis de bifurcação X4/X8/X16, o LRSV9500-4I oferece às empresas um caminho de solução eficiente. Seja para treinamento em IA, computação de alto desempenho, análise de big data ou produção de vídeo, LRSV9500-4I pode proporcionar excelentes recursos de expansão e proteção do investimento.
Como o principal produto da LR-LINK no campo do PCIe 5.0, o LRSV9500-4I, com base no desempenho líder do chip Broadcom PEX89048 e no suporte perfeito ao ecossistema, está se tornando a solução de expansão preferida para a construção de servidores e data centers de IA. Escolher o LRSV9500-4I significa escolher uma arquitetura de expansão flexível, eficiente e voltada para o futuro.