Avec le développement rapide de l'intelligence artificielle, les serveurs d'IA et les grappes de GPU sont devenus le cœur de l'infrastructure informatique des centres de données. Ces applications, qui vont de l'apprentissage de grands modèles de langage aux services d'inférence en temps réel, imposent des exigences sans précédent en matière de performances informatiques et de débit de données. Dans l'architecture sous-jacente qui soutient ces systèmes à haute performance, la technologie de transmission de signaux à grande vitesse est confrontée à de sérieux défis.
Selon les instituts de recherche du secteur, le marché mondial des GPU a dépassé les 40 milliards de dollars en 2024, avec un taux de croissance annuel de plus de 30 %. Un seul serveur d'entraînement à l'IA peut intégrer 8 GPU haute performance ou plus, formant un pool de calcul unifié grâce à une interconnexion à grande vitesse. Une telle architecture informatique à haute densité impose des exigences extrêmement élevées en matière de bande passante de transmission de données et de qualité du signal à l'intérieur du serveur.
Parallèlement, les systèmes de stockage sont également en cours de transformation. Le stockage traditionnel SATA et SAS ne peut plus répondre aux besoins des charges de travail de l'IA, et les disques SSD à grande vitesse basés sur le protocole NVMe se généralisent. La nouvelle génération de CXL (Compute Express Link) augmente encore l'expansion de la mémoire et la convergence du stockage, en permettant aux GPU et aux CPU d'accéder à des ressources de mémoire et de stockage distantes d'une manière cohérente avec le cache.
En tant que norme principale pour l'interconnexion des périphériques internes dans les serveurs, PCI Express (PCIe) a évolué vers sa cinquième génération et a atteint sa maturité. PCIe 5.0 augmente le taux de transmission par voie de 16GT/s (PCIe 4.0) à 32GT/sce qui double la bande passante par voie. Pour les cartes graphiques ou les adaptateurs réseau en configuration x16, la bande passante bidirectionnelle théorique peut atteindre 128GB/s.
Cependant, des taux de transmission plus élevés posent également de nouveaux défis techniques :
· Atténuation du signal: Les signaux à haut débit subissent des pertes lorsqu'ils sont transmis par les circuits imprimés et les connecteurs ; l'atténuation s'aggrave à des fréquences plus élevées. Les signaux PCIe 5.0 ont une distance de transmission effective plus courte que PCIe 4.0, ce qui exige une conception de routage plus stricte.
· Intégrité du signal: Les signaux à grande vitesse sont plus vulnérables à la diaphonie, à la réflexion et au bruit, ce qui peut entraîner des erreurs de transmission de données et dégrader la stabilité du système.
· Marge temporelle: Des débits de données plus élevés signifient des fenêtres temporelles plus étroites, imposant des exigences plus strictes en matière de synchronisation de l'horloge et de précision des fronts de signaux.
Pour relever les défis de la transmission de signaux à grande vitesse, Retimer est apparue. Un réémetteur est un dispositif de régénération du signal placé sur le trajet du signal à grande vitesse, qui détecte, récupère et réémet les signaux atténués afin d'étendre la distance de transmission effective et d'améliorer l'intégrité du signal.
Contrairement aux amplificateurs de signaux simples (Redrivers), les Retimers assurent la régénération du signal par les mécanismes suivants :
· Égalisation des signaux: Compense l'atténuation des hautes fréquences et rétablit l'amplitude du signal.
· Récupération d'horloge et de données (CDR): Extrait l'horloge du signal d'entrée pour éliminer l'instabilité.
· Recalage du signal: Régénère des signaux de données propres en utilisant l'horloge récupérée.
· Transparence du protocole: Il n'analyse pas le contenu des données et est totalement transparent pour les protocoles de la couche supérieure.
Dans les serveurs d'IA et les systèmes de stockage haut de gamme, les puces Retimer sont devenues des composants critiques garantissant une transmission fiable des signaux à grande vitesse. Elles jouent un rôle indispensable dans l'interconnexion entre les GPU et les CPU, ainsi que dans les connexions étendues pour les disques SSD NVMe.
CXL (Compute Express Link) est un nouveau protocole d'interconnexion à haut débit basé sur la couche physique PCIe 5.0 mais avec des fonctions plus riches. La norme CXL 2.0 prend en charge trois protocoles :
· CXL.io: Compatible avec les protocoles PCIe pour la découverte et la configuration des appareils.
· CXL.cache: Prend en charge la cohérence du cache des périphériques, ce qui leur permet de partager le cache de l'unité centrale.
· Mémoire CXL: Prend en charge l'accès sémantique à la mémoire, permettant aux dispositifs d'accéder directement à la mémoire du système.
La valeur fondamentale de la technologie CXL réside dans la suppression du goulot d'étranglement de la mémoire du processeur dans les architectures traditionnelles, permettant aux accélérateurs tels que les GPU et les FPGA d'accéder à des pools de mémoire de grande capacité d'une manière cohérente avec la mémoire cache. Ceci est crucial pour l'apprentissage de l'IA et les applications de big data nécessitant une mémoire massive.
MCIO (Mini Cool Edge IO) est un standard de connecteur compact à grande vitesse conçu pour les applications PCIe et CXL de la prochaine génération. MCIO offre les avantages suivants :
· Densité plus élevée: Prise en charge d'un plus grand nombre de canaux de signaux dans un espace réduit.
· Meilleure intégrité du signal: La disposition optimisée des broches et la conception du blindage réduisent la diaphonie.
· Connexion du câble: Prise en charge de la connexion de périphériques externes par le biais de câbles, ce qui permet de s'affranchir des limites d'espace du châssis.
L'entraînement de grands modèles d'IA nécessite la collaboration de centaines, voire de milliers de GPU. L'interconnexion à haut débit garantit un échange de données de gradient et de paramètres de modèle à faible latence et à large bande passante entre les GPU. La technologie Retimer garantit l'intégrité des signaux sur des fonds de panier complexes et des câbles longue distance.
Les applications HPC telles que le calcul scientifique, la simulation et le séquençage de gènes ont des exigences extrêmement élevées en termes de bande passante et de capacité de mémoire. L'extension de la mémoire CXL combinée à l'amélioration du signal Retimer permet de créer des pools de mémoire à grande capacité et à large bande passante afin d'accélérer les tâches de calcul.
Les serveurs de jeux en nuage virtualisent plusieurs instances de GPU sur une seule machine physique afin de fournir des services de rendu en temps réel à différents utilisateurs. Le stockage et l'accès à la mémoire à grande vitesse sont essentiels pour garantir des expériences de jeu à faible latence.
Les solutions de stockage défini par logiciel (SDS) basées sur des serveurs standard doivent connecter un grand nombre de SSD NVMe. Les cartes d'extension PCIe 5.0 Retimer permettent d'étendre la densité des SSD pour constituer des pools de stockage haute performance.
Face à des demandes d'interconnexion à haut débit de plus en plus complexes, les concepteurs de systèmes doivent tenir compte des facteurs suivants :
· Distance de transmission: Évaluer la distance physique que les signaux doivent parcourir pour déterminer s'il est nécessaire d'améliorer le système Retimer.
· Configuration des voies: Sélectionner les modes de bifurcation PCIe appropriés (x16/x8/x4) en fonction des exigences de l'appareil.
· Soutien au protocole: Confirmer si la prise en charge du protocole CXL est nécessaire et les exigences fonctionnelles spécifiques du CXL.
· Conception thermique: Les puces Retimer à haute vitesse ont une consommation d'énergie relativement élevée et nécessitent des solutions thermiques appropriées.
· Vérification de la compatibilité: Assurez-vous que la carte d'extension est compatible avec les cartes mères, les systèmes d'exploitation et les périphériques cibles.
L'avènement de l'ère de l'IA remodèle la conception de l'architecture des centres de données. Qu'il s'agisse de la transmission à grande vitesse de PCIe 5.0, de la régénération des signaux de la technologie Retimer ou de l'expansion de la mémoire du protocole CXL, chaque technologie contribue à libérer le potentiel informatique de l'IA.
Pour les entreprises qui planifient une infrastructure d'IA, la compréhension des principes et des scénarios d'application de ces technologies sous-jacentes permet de faire des choix technologiques plus rationnels et de construire des plateformes informatiques très performantes et très fiables.
Linkreal (LR-LINK) est une entreprise nationale de haute technologie spécialisée dans les solutions de connectivité pour serveurs et centres de données. Son portefeuille de produits comprend des adaptateurs réseau Ethernet, des cartes d'extension de stockage, des solutions d'extension GPU, etc. Suivant les tendances de développement des technologies PCIe 5.0 et CXL, l'entreprise fournit des solutions d'extension de signal à grande vitesse pour les serveurs AI, l'informatique à haute performance, le stockage défini par logiciel et d'autres scénarios d'application.