Avec le développement rapide des grands modèles de langage et des technologies d'IA générative, les services d'inférence d'IA deviennent le cœur de métier de l'informatique en nuage et des centres de données. Cet article prend pour exemple un projet de mise à niveau de la plate-forme d'inférence de l'IA d'une entreprise Internet pour démontrer l'application pratique de la carte d'extension LRSV9501-2E PCIe 5.0 Retimer dans les scénarios d'extension du stockage des serveurs d'IA, fournissant ainsi une référence aux entreprises confrontées à des défis d'infrastructure similaires.
Une entreprise Internet exploite des plateformes d'assistants d'IA et de services clients intelligents pour les utilisateurs finaux. Avec la croissance rapide du nombre d'utilisateurs, les demandes d'inférence d'IA de la plateforme ont explosé, plaçant des exigences plus élevées sur la performance et l'évolutivité de l'infrastructure sous-jacente.
1. Goulot d'étranglement des performances de stockage
Les services d'inférence d'IA nécessitent un chargement rapide de fichiers de modèles volumineux (un seul modèle peut atteindre des dizaines de Go) et un accès efficace aux bases de données vectorielles pendant l'inférence. Les serveurs d'origine utilisaient des disques SSD PCIe 4.0 NVMe. Même si les performances étaient déjà excellentes, dans des scénarios à forte concomitance, la latence d'accès au stockage est devenue un goulot d'étranglement du système, affectant la vitesse de réponse de l'inférence.
2. Capacité de stockage insuffisante
La plateforme doit déployer plusieurs versions différentes de modèles d'IA pour prendre en charge les tests A/B et les versions graduelles. Si l'on ajoute les bases de données vectorielles et les données de journalisation, la capacité de stockage requise pour une seule machine dépasse les 10 To. Les serveurs standard 2U ont des baies de disques limitées et ne peuvent pas répondre aux besoins d'extension de capacité.
3. Contraintes d'espace du châssis
L'entreprise utilise des serveurs standardisés montés en rack 2U comme nœuds d'inférence IA, chacun étant équipé de 4 GPU. L'espace interne du châssis est déjà occupé par les GPU et les blocs d'alimentation, ce qui ne laisse qu'un seul emplacement d'extension PCIe. Les solutions traditionnelles d'extension du stockage ne sont pas applicables.
4. Questions relatives à l'intégrité du signal
L'entreprise envisage de placer certains dispositifs de stockage à l'extérieur et de les connecter par des câbles pour dépasser les limites d'espace du châssis. Cependant, les signaux PCIe 5.0 s'atténuent fortement pendant la transmission à grande vitesse, ce qui nécessite des solutions d'amélioration du signal pour garantir la stabilité de la connexion.
Conception de solutions
L'évaluation technique a retenu le LRSV9501-2E(Cliquer pour acheter) Carte d'extension PCIe 5.0 x16 à double port MCIO Retimer comme solution d'extension du stockage. Associée à des fonds de panier d'extension SSD NVMe externes et à des SSD NVMe PCIe 5.0, une architecture de stockage haute performance et haute capacité a été construite.
Points forts de l'architecture du système :
LRSV9501-2E installé dans l'emplacement PCIe 5.0 x16 du serveur, configuré en mode de bifurcation de voies 4x4
Connecté au fond de panier d'extension SSD NVMe externe via deux câbles MCIO 8i.
Carte-mère Expander installée avec 8 SSD NVMe PCIe 5.0 (4 SSD par câble MCIO)
La puce Retimer garantit l'intégrité du signal PCIe 5.0 lors de la transmission sur de longues distances
Grâce au mode de bifurcation 4x4, 16 voies PCIe 5.0 sont divisées en quatre liens x4. Chaque lien x4 se connecte à deux SSD NVMe (via la commutation du fond de panier), ce qui permet d'utiliser pleinement la bande passante PCIe. Les avantages de cette configuration sont :
Haute densité de périphériques : Une seule carte d'extension permet de connecter 8 disques SSD NVMe, ce qui améliore considérablement la densité de stockage.
Performances équilibrées : Chaque SSD bénéficie d'une bande passante PCIe 5.0 x4 (environ 16 Go/s), ce qui permet de répondre aux exigences de haute performance.
Extension flexible : Le nombre d'appareils connectés peut être ajusté en fonction de la demande sans remplacement de matériel.
Terminez le déploiement du matériel en suivant les étapes suivantes :
Étape 1 : Mettez le serveur hors tension, débranchez les câbles d'alimentation et prenez des précautions antistatiques.
Étape 2 : Ouvrez le châssis et localisez l'emplacement d'extension PCIe 5.0 x16 disponible.
Étape 3 : Installer la carte d'extension LRSV9501-2E, en choisissant des supports 2U ou 3U en fonction de la hauteur du châssis.
Étape 4 : Installer le fond de panier externe NVMe SSD dans le rack
Étape 5 : Connecter la carte d'extension au fond de panier externe à l'aide des câbles MCIO 8i
Étape 6 : Installer 8 disques SSD PCIe 5.0 NVMe dans le fond de panier
Étape 7 : Fermez le châssis, branchez l'alimentation et mettez-le sous tension pour l'autotest.
Entrez dans l'interface de configuration du BIOS du serveur et configurez le mode de bifurcation des voies de l'emplacement PCIe sur 4x4. Après avoir enregistré la configuration et redémarré, le système reconnaît 8 disques SSD NVMe indépendants.
Utiliser l'outil fio pour tester le stockage | performance du système | Les résultats sont les suivants |
Lecture séquentielle à entraînement unique | 12,8 Go/s | Amélioration d'environ 2 fois |
Écriture séquentielle à un seul lecteur | 10,2 Go/s | Amélioration d'environ 2 fois |
Écriture séquentielle à un seul lecteur | 48 GB/s | Amélioration d'environ 4 fois |
IOPS de lecture aléatoire 4K | 2,400K | Amélioration d'environ 3 fois |
Effets et avantages de l'application
Après la mise à niveau du stockage, la vitesse de chargement des fichiers de grands modèles d'IA s'est considérablement améliorée. Si l'on prend l'exemple d'un grand modèle linguistique de 70 milliards de paramètres, le temps de chargement s'est considérablement amélioré. Cela a considérablement réduit les temps de changement de modèle et de redémarrage du service, améliorant ainsi l'efficacité opérationnelle de la plateforme.
La vitesse d'interrogation de la base de données vectorielle influe directement sur le temps de réponse de l'inférence d'IA. Le système de stockage mis à niveau a réduit la latence d'extraction des vecteurs d'une moyenne de 15 ms à 5 ms, raccourcissant le temps de réponse de l'inférence de bout en bout d'environ 30 %, ce qui améliore considérablement l'expérience de l'utilisateur.
La capacité de stockage d'un seul serveur a augmenté de manière significative, ce qui permet de répondre au déploiement de modèles multi-version et aux besoins de stockage de données volumineuses (big data). La conception du fond de panier d'extension externe permet également une extension future.
La fonction Retimer du LRSV9501-2E garantit l'intégrité du signal PCIe 5.0 lorsqu'il est transmis par des câbles MCIO. Le contrôle de la qualité du signal après la mise en œuvre a révélé une réduction des taux d'erreurs binaires, répondant ainsi aux normes de fiabilité de l'entreprise.
Résumé et partage d'expérience
La valeur pratique du LRSV9501-2E dans les scénarios d'expansion du stockage des serveurs AI a été vérifiée avec succès. Voici un résumé des principales expériences :
1. Utiliser pleinement la bande passante PCIe 5.0
L'amélioration de la bande passante de PCIe 5.0 offre de nouvelles possibilités d'extension du stockage. Grâce à une configuration raisonnable de bifurcation des voies, une seule carte d'extension peut connecter plusieurs disques SSD haute performance, ce qui permet d'augmenter linéairement les performances de stockage.
2. Le réamorceur résout les problèmes d'intégrité du signal
Le plus grand défi de l'extension du stockage externe est l'intégrité du signal. La puce Broadcom BCM85657 Retimer intégrée au LRSV9501-2E résout efficacement les problèmes d'atténuation du signal PCIe 5.0, rendant ainsi possibles les connexions externes.
3. Commodité de l'interface MCIO
La solution de connexion par câble MCIO permet de s'affranchir des limites d'espace du châssis, l'expansion du stockage n'étant plus limitée par l'espace interne du serveur.
4. Expérience de déploiement "plug-and-play
En tant que dispositif transparent, le LRSV9501-2E ne nécessite pas de pilotes dédiés et est prêt à l'emploi sur les systèmes CentOS et Ubuntu, ce qui raccourcit considérablement les cycles de déploiement.
Sur la base de l'expérience acquise lors de la mise en œuvre de ce projet, la LRSV9501-2E peut également s'appliquer aux scénarios similaires suivants :
Plates-formes de formation aux grands modèles : Fournir des capacités de chargement de données à grande vitesse pour les nœuds de formation GPU, en réduisant le temps de prétraitement des données.
Systèmes de recommandation en temps réel : Prise en charge de l'extraction de vecteurs de caractéristiques à haute fréquence, amélioration de la vitesse de réponse des services de recommandation.
Services de traitement vidéo : Fournir des capacités d'accès au stockage à haut débit pour le transcodage et l'analyse vidéo.
Grappes de calcul scientifique : Prise en charge de la lecture/écriture à grande vitesse d'ensembles de données à grande échelle, accélération des tâches de simulation et de modélisation.
Extension de mémoire CXL : Connectez les modules d'extension de mémoire CXL pour obtenir des pools de mémoire de grande capacité pour les applications gourmandes en mémoire.
La carte d'extension LRSV9501-2E PCIe 5.0 Retimer fournit une solution d'extension de stockage très performante et très fiable pour la plate-forme d'inférence IA de l'entreprise Internet. Grâce à la bande passante à grande vitesse de PCIe 5.0 et aux capacités d'amélioration du signal du Retimer, l'entreprise a pu multiplier les performances de stockage tout en dépassant les limites d'espace du châssis. Pour les entreprises qui construisent ou mettent à niveau une infrastructure d'intelligence artificielle, le LRSV9501-2E constitue une solution d'extension de signal à grande vitesse qui concilie performance, évolutivité et fiabilité. Dans le contexte actuel d'évolution rapide des technologies PCIe 5.0 et CXL, le choix d'une solution d'extension dotée de capacités de régénération des signaux permettra de réserver un espace suffisant pour les futures mises à niveau technologiques.