Com o rápido desenvolvimento de grandes modelos de linguagem e tecnologias de IA generativa, os serviços de inferência de IA estão se tornando o negócio principal da computação em nuvem e dos data centers. Este artigo usa um projeto de atualização da plataforma de inferência de IA de uma empresa da Internet como exemplo para demonstrar a aplicação prática da placa de expansão LRSV9501-2E PCIe 5.0 Retimer em cenários de expansão de armazenamento de servidor de IA, fornecendo referência para empresas que enfrentam desafios de infraestrutura semelhantes.
Uma empresa de Internet opera um assistente de IA e plataformas inteligentes de atendimento ao cliente para usuários finais C. Com o rápido crescimento dos usuários, as solicitações de inferência de IA da plataforma explodiram, exigindo mais do desempenho e da escalabilidade da infraestrutura subjacente.
1. Gargalo no desempenho do armazenamento
Os serviços de inferência de IA exigem carregamento rápido de arquivos de modelos grandes (um único modelo pode chegar a dezenas de GB) e acesso eficiente a bancos de dados vetoriais durante a inferência. Os servidores originais usavam SSDs PCIe 4.0 NVMe. Embora o desempenho já fosse excelente, em cenários de alta simultaneidade, a latência de acesso ao armazenamento tornou-se um gargalo do sistema, afetando a velocidade de resposta da inferência.
2. Capacidade de armazenamento insuficiente
A plataforma precisa implantar várias versões diferentes de modelos de IA para dar suporte a testes A/B e lançamentos de gray. Combinado com bancos de dados vetoriais e dados de registro, o requisito de capacidade de armazenamento de uma única máquina excede 10 TB. Os servidores 2U padrão têm baias de unidade limitadas e não podem atender às necessidades de expansão de capacidade.
3. Restrições de espaço do chassi
A empresa usa servidores padronizados montados em rack 2U como nós de inferência de IA, cada um equipado com 4 GPUs. O espaço interno do chassi já está ocupado por GPUs e fontes de alimentação, restando apenas um slot de expansão PCIe. As soluções tradicionais de expansão de armazenamento não são aplicáveis.
4. Problemas de integridade do sinal
A empresa planeja colocar alguns dispositivos de armazenamento externamente e conectá-los por meio de cabos para superar as limitações de espaço do chassi. No entanto, os sinais do PCIe 5.0 atenuam muito durante a transmissão em alta velocidade, exigindo soluções de aprimoramento de sinal para garantir a estabilidade da conexão.
Projeto de solução
A avaliação técnica selecionou o LRSV9501-2E(Clique para comprar) Placa de expansão MCIO Retimer PCIe 5.0 x16 de porta dupla como solução de expansão de armazenamento. Combinada com backplanes externos de expansão de SSD NVMe e SSDs NVMe PCIe 5.0, foi construída uma arquitetura de armazenamento de alto desempenho e alta capacidade.
Destaques da arquitetura do sistema:
LRSV9501-2E instalado no slot PCIe 5.0 x16 do servidor, configurado no modo de bifurcação de pista 4x4
Conectado ao backplane de expansão de SSD NVMe externo por meio de dois cabos MCIO 8i
Backplane do expansor instalado com 8 SSDs NVMe PCIe 5.0 (4 SSDs por cabo MCIO)
O chip Retimer garante a integridade do sinal PCIe 5.0 durante a transmissão de longa distância
Usando o modo de bifurcação de pista 4x4, 16 pistas PCIe 5.0 são divididas em quatro links x4. Cada link x4 se conecta a dois SSDs NVMe (via switching de backplane), utilizando totalmente a largura de banda do PCIe. As vantagens dessa configuração são:
Alta densidade de dispositivos: Uma única placa de expansão suporta a conexão de 8 SSDs NVMe, melhorando significativamente a densidade de armazenamento
Desempenho equilibrado: Cada SSD recebe largura de banda x4 PCIe 5.0 (aproximadamente 16 GB/s), atendendo aos requisitos de alto desempenho
Expansão flexível: O número de dispositivos conectados pode ser ajustado de acordo com a demanda sem a necessidade de substituição de hardware
Conclua a implementação do hardware de acordo com as etapas a seguir:
Etapa 1: Desligue o servidor, desconecte os cabos de alimentação e tome precauções antiestáticas
Etapa 2: Abra o chassi e localize o slot de expansão PCIe 5.0 x16 disponível
Etapa 3: Instale a placa de expansão LRSV9501-2E, selecionando os suportes 2U ou 3U com base na altura do chassi
Etapa 4: Instale o backplane de expansão de SSD NVMe externo no rack
Etapa 5: Conecte a placa de expansão ao backplane externo usando os cabos MCIO 8i
Etapa 6: instalar 8 SSDs NVMe PCIe 5.0 no backplane
Etapa 7: Feche o chassi, conecte a alimentação e ligue-o para fazer o autoteste
Entre na interface de configuração do BIOS do servidor e configure o modo de bifurcação da pista do slot PCIe para 4x4. Após salvar a configuração e reinicializar, o sistema reconhece 8 SSDs NVMe independentes.
Usar a ferramenta fio para testar o armazenamento | desempenho do sistema | Os resultados são os seguintes |
Leitura sequencial de unidade única | 12,8 GB/s | Melhoria de aproximadamente 2x |
Gravação sequencial de unidade única | 10,2 GB/s | Melhoria de aproximadamente 2x |
Gravação sequencial de unidade única | 48 GB/s | Melhoria de aproximadamente 4x |
IOPS de leitura aleatória de 4K | 2,400K | Melhoria de aproximadamente 3x |
Efeitos e benefícios do aplicativo
Após a atualização do armazenamento, as velocidades de carregamento de arquivos de modelos grandes de IA melhoraram significativamente. Tomando como exemplo um modelo de linguagem grande de 70B parâmetros, o tempo de carregamento melhorou substancialmente. Isso reduziu consideravelmente os tempos de troca de modelos e de reinício do serviço, melhorando a eficiência operacional da plataforma.
A velocidade de consulta do banco de dados vetorial afeta diretamente o tempo de resposta da inferência de IA. O sistema de armazenamento atualizado reduziu a latência de recuperação de vetores de uma média de 15 ms para 5 ms, diminuindo o tempo de resposta de inferência de ponta a ponta em aproximadamente 30%, melhorando significativamente a experiência do usuário.
A capacidade de armazenamento de um único servidor aumentou significativamente, atendendo às necessidades de implementação de modelos de várias versões e de armazenamento de big data. O design do backplane de expansão externa também permite uma expansão futura.
A função Retimer do LRSV9501-2E garante a integridade do sinal PCIe 5.0 quando transmitido por cabos MCIO. O monitoramento da qualidade do sinal pós-implementação mostrou taxas de erro de bit reduzidas, atendendo aos padrões de confiabilidade de nível empresarial.
Resumo e compartilhamento de experiências
O valor prático do LRSV9501-2E em cenários de expansão de armazenamento de servidores de IA foi verificado com sucesso. Veja a seguir os principais resumos de experiência:
1. Utilize totalmente a largura de banda do PCIe 5.0
A melhoria da largura de banda do PCIe 5.0 traz novas possibilidades para a expansão do armazenamento. Por meio de uma configuração razoável de bifurcação de pista, uma única placa de expansão pode conectar vários SSDs de alto desempenho, alcançando um dimensionamento linear do desempenho do armazenamento.
2. O Retimer resolve problemas de integridade do sinal
O maior desafio da expansão do armazenamento externo é a integridade do sinal. O chip Broadcom BCM85657 Retimer incorporado ao LRSV9501-2E resolve efetivamente os problemas de atenuação do sinal PCIe 5.0, possibilitando conexões externas.
3. Conveniência da interface MCIO
A solução de conexão por cabo MCIO rompe as limitações de espaço do chassi, fazendo com que a expansão do armazenamento não seja mais limitada pelo espaço interno do servidor.
4. Experiência de implantação plug-and-play
Como um dispositivo transparente ao protocolo, o LRSV9501-2E não requer drivers dedicados e é plug-and-play nos sistemas CentOS e Ubuntu, reduzindo significativamente os ciclos de implementação.
Com base na experiência de implementação desse projeto, a LRSV9501-2E também pode ser aplicado aos seguintes cenários semelhantes:
Plataformas de treinamento de modelos grandes: Fornece recursos de carregamento de dados em alta velocidade para nós de treinamento de GPU, reduzindo o tempo de pré-processamento de dados
Sistemas de recomendação em tempo real: Suporte à recuperação de vetores de recursos de alta simultaneidade, melhorando a velocidade de resposta do serviço de recomendação
Serviços de processamento de vídeo: Fornecer recursos de acesso ao armazenamento de alto rendimento para transcodificação e análise de vídeo
Clusters de computação científica: Suporte à leitura/gravação em alta velocidade de conjuntos de dados em grande escala, acelerando as tarefas de simulação e modelagem
Expansão de memória CXL: Conecte os módulos de expansão de memória CXL para fornecer pools de memória de grande capacidade para aplicativos com uso intensivo de memória
A placa de expansão LRSV9501-2E PCIe 5.0 Retimer oferece uma solução de expansão de armazenamento de alto desempenho e altamente confiável para a plataforma de inferência de IA da empresa de Internet. Com a largura de banda de alta velocidade do PCIe 5.0 e os recursos de aprimoramento de sinal do Retimer, a empresa obteve várias melhorias no desempenho do armazenamento e, ao mesmo tempo, superou as limitações de espaço do chassi. Para as empresas que estão construindo ou atualizando a infraestrutura de IA, o LRSV9501-2E oferece uma solução de expansão de sinal de alta velocidade que equilibra desempenho, escalabilidade e confiabilidade. Nas atuais tecnologias PCIe 5.0 e CXL em rápida evolução, a escolha de uma solução de expansão com recursos de regeneração de sinal reservará amplo espaço para futuras atualizações tecnológicas.