Avec le développement rapide de la formation de grands modèles d'IA, du calcul à haute performance et de l'informatique en nuage, la demande des entreprises en matière de puissance de calcul GPU et de performances de stockage des serveurs a connu une croissance explosive. Cependant, les architectures de serveurs traditionnelles présentent de nombreux goulets d'étranglement au niveau des capacités d'extension, tels que des emplacements PCIe limités, la difficulté d'équilibrer le déploiement des GPU et des SSD, et le manque de flexibilité des solutions d'extension. Ces problèmes ont fortement limité l'innovation commerciale. Cet article analyse en profondeur ces points problématiques de l'industrie et démontre comment LR-LINK LRSV9500-4I offre aux entreprises une solution d'extension unique grâce à des modes de bifurcation X4/X8/X16 flexibles.
I. Grave pénurie de ressources en emplacements PCIe
1.1 Situation actuelle
Les cartes mères des serveurs modernes ne proposent généralement que 4 à 8 emplacements PCIe, qui doivent répondre simultanément aux exigences de divers périphériques tels que les cartes réseau, les GPU, les disques SSD NVMe et les cartes RAID. Dans les scénarios d'entraînement à l'IA, un seul serveur peut nécessiter 4 à 8 cartes graphiques GPU, plus des périphériques de stockage à grande vitesse, ce qui fait que le nombre d'emplacements PCIe est souvent la plus grande contrainte.
1.2 Impacts sur les entreprises
Il est difficile de déployer des GPU et des SSD en même temps, et des compromis doivent être faits entre la puissance de calcul et le stockage.
Les entreprises doivent acheter davantage de serveurs, ce qui entraîne une augmentation significative du coût total de possession.
L'espace des armoires est rapidement épuisé, ce qui entraîne une faible utilisation des ressources des centres de données.
1.3 Solution LRSV9500-4I
Basé sur la puce PCIe Switch PEX89048 de Broadcom, le LRSV9500-4I étend un seul emplacement PCIe GEN 5.0 x16 en 4 interfaces MCIO 8I. Il peut connecter 8 disques SSD NVMe en mode X4 et 2 cartes graphiques GPU haut de gamme en mode X16. Un seul emplacement PCIe est occupé, ce qui améliore de 800 % l'efficacité de l'extension.
Les scénarios d'entraînement à l'IA ont des exigences extrêmement élevées en matière de GPU et de stockage à grande vitesse. Les GPU doivent traiter des quantités massives de données, alors que la bande passante et les IOPS du stockage traditionnel SAS/SATA ne peuvent pas répondre à la demande. Cependant, une fois que les emplacements PCIe de la carte mère sont occupés par les GPU, il n'y a plus assez d'interfaces pour déployer des matrices de disques SSD NVMe.
· Lors de l'apprentissage de grands modèles, le taux d'utilisation de la puissance de calcul des GPU est généralement inférieur à la puissance de calcul maximale. Par exemple, le taux d'utilisation est d'environ 59 % dans un cluster de 1000 GPU et d'environ 55,2 % dans un cluster de 10000 GPU.
· La lecture des données d'entraînement devient un facteur restrictif, ce qui entraîne des cycles d'itération du modèle plus longs.
Grâce au mode hybride X8, le LRSV9500-4I peut prendre en charge à la fois le GPU et le SSD NVMe. Par exemple, 2×X8 sont utilisés pour connecter les GPU, et les 2×X8 restants sont connectés à 2 SSD NVMe en tant que cache local. De cette manière, les GPU peuvent lire les données directement à partir d'un stockage local à grande vitesse, ce qui améliore l'efficacité de l'entraînement de 3 à 5 fois.
Le taux de signal de la norme PCIe 5.0 atteint 32GT/s. Cette vitesse doublée implique des exigences extrêmement strictes en matière d'intégrité du signal afin de garantir la précision et l'efficacité de la transmission des données. La transmission sur de longues distances, des câbles ou des connecteurs de qualité inférieure entraîneront une atténuation du signal et une augmentation du taux d'erreur sur les bits et, dans les cas les plus graves, l'équipement ne pourra pas être identifié ou sera fréquemment déconnecté.
· Au cours du processus d'entraînement des GPU, si une carte est déconnectée, des jours de résultats de calcul seront perdus.
· Les périphériques de stockage fonctionnent à une vitesse réduite, de PCIe 5.0 à 4.0, voire 3.0.
· L'instabilité du système et l'écran bleu de la mort se produisent, ce qui affecte la continuité des activités.
Le LRSV9500-4I adopte un design de PCB de haute spécification, des connecteurs de haute qualité et une technologie d'optimisation des signaux pour assurer le fonctionnement stable de PCIe 5.0 à plein régime. La technologie PCIe 5.0 peut offrir des vitesses de lecture et d'écriture séquentielles allant jusqu'à 14 000 Mo/s et des performances optimales dans une configuration correcte. L'interface MCIO fournit une connexion physique fiable, et avec des câbles certifiés, elle peut réduire efficacement le taux d'erreur de bits et assurer un fonctionnement stable 7×24 heures.
Dans les scénarios de formation multi-GPU, la topologie d'interconnexion entre les GPU affecte directement l'efficacité de la formation. Les solutions traditionnelles s'appuient sur les canaux PCIe fournis par l'unité centrale, et la communication entre plusieurs cartes doit passer par l'unité centrale, ce qui entraîne une bande passante limitée et une latence élevée.
· L'efficacité de l'entraînement distribué est faible en raison de l'insuffisance de la bande passante de communication entre les GPU.
· L'expansion à grande échelle des grappes d'entreprises se heurte à des difficultés
En mode X16, le LRSV9500-4I permet aux GPU d'établir une communication P2P efficace par le biais du commutateur, améliorant ainsi l'efficacité de l'entraînement multicarte.
Pour les clusters inter-hôtes, avec l'aide de cartes réseau supportant RoCE v2 (RDMA over Converged Ethernet), les GPU peuvent contourner le CPU et écrire directement des données dans la mémoire vidéo des GPU distants par l'intermédiaire de l'adaptateur réseau. Plusieurs serveurs sont directement interconnectés pour permettre le partage de la mémoire et l'échange de données à grande vitesse.
Les problèmes liés à l'expansion du GPU et du stockage des serveurs sont essentiellement dus à la contradiction entre des ressources limitées et une demande illimitée. Grâce à la technologie PCIe Switch et aux modes de bifurcation X4/X8/X16 flexibles, le LRSV9500-4I offre aux entreprises une voie de solution efficace. Que ce soit pour la formation à l'IA, le calcul haute performance, l'analyse des big data ou la production vidéo, LRSV9500-4I peut offrir d'excellentes capacités d'expansion et de protection des investissements.
Produit phare de LR-LINK dans le domaine du PCIe 5.0, le LRSV9500-4I, qui s'appuie sur les performances de pointe de la puce Broadcom PEX89048 et sur un support écosystémique parfait, est en train de devenir la solution d'extension préférée pour les serveurs d'IA et la construction de centres de données. Choisir LRSV9500-4I, c'est choisir une architecture d'extension flexible, efficace et orientée vers l'avenir.