Mit der rasanten Entwicklung von großen Sprachmodellen und generativen KI-Technologien werden KI-Inferenzdienste zum Kerngeschäft von Cloud Computing und Rechenzentren. In diesem Artikel wird am Beispiel eines Upgrade-Projekts für die KI-Inferenzplattform eines Internetunternehmens die praktische Anwendung der LRSV9501-2E PCIe 5.0 Retimer-Erweiterungskarte in KI-Server-Speichererweiterungsszenarien aufgezeigt, die als Referenz für Unternehmen mit ähnlichen Infrastrukturherausforderungen dient.
Ein Internetunternehmen betreibt KI-Assistenten und intelligente Kundendienstplattformen für C-End-Nutzer. Mit dem rasanten Nutzerwachstum sind die KI-Anfragen der Plattform explodiert, was höhere Anforderungen an die Leistung und Skalierbarkeit der zugrunde liegenden Infrastruktur stellt.
1. Engpass bei der Speicherleistung
KI-Inferenzdienste erfordern ein schnelles Laden großer Modelldateien (ein einzelnes Modell kann mehrere Dutzend GB groß sein) und einen effizienten Zugriff auf Vektordatenbanken während der Inferenz. Die ursprünglichen Server verwendeten PCIe 4.0 NVMe SSDs. Obwohl die Leistung bereits ausgezeichnet war, wurde die Speicherzugriffslatenz in Szenarien mit hoher Parallelität zu einem Systemengpass, der die Reaktionsgeschwindigkeit der Inferenz beeinträchtigte.
2. Unzureichende Speicherkapazität
Die Plattform muss mehrere verschiedene Versionen von KI-Modellen bereitstellen, um A/B-Tests und graue Versionen zu unterstützen. In Kombination mit Vektordatenbanken und Protokolldaten übersteigt die erforderliche Speicherkapazität für eine einzelne Maschine 10 TB. Standard-2U-Server verfügen über begrenzte Laufwerkseinschübe und können den Kapazitätserweiterungsbedarf nicht decken.
3. Platzbeschränkungen im Fahrgestell
Das Unternehmen verwendet standardisierte 2U-Rack-Server als KI-Inferenzknoten, die jeweils mit 4 GPUs ausgestattet sind. Der interne Platz im Gehäuse ist bereits durch die GPUs und Netzteile belegt, so dass nur 1 PCIe-Erweiterungssteckplatz übrig bleibt. Herkömmliche Lösungen zur Speichererweiterung sind nicht anwendbar.
4. Probleme mit der Signalintegrität
Das Unternehmen plant, einige Speichergeräte extern zu platzieren und über Kabel zu verbinden, um den begrenzten Platz im Gehäuse zu überwinden. PCIe 5.0-Signale werden jedoch während der Hochgeschwindigkeitsübertragung stark gedämpft, sodass Lösungen zur Signalverbesserung erforderlich sind, um die Verbindungsstabilität zu gewährleisten.
Lösung Design
Die technische Bewertung wählte das LRSV9501-2E(Zum Kaufen anklicken) PCIe 5.0 x16 Dual-Port MCIO Retimer Erweiterungskarte als Speichererweiterungslösung. In Kombination mit externen NVMe-SSD-Erweiterungs-Backplanes und PCIe 5.0 NVMe-SSDs wurde eine leistungsstarke Speicherarchitektur mit hoher Kapazität aufgebaut.
Highlights der Systemarchitektur:
LRSV9501-2E installiert im PCIe 5.0 x16 Steckplatz des Servers, konfiguriert im 4x4 Lane Bifurcation Modus
Anschluss an externe NVMe-SSD-Erweiterungs-Backplane über zwei MCIO 8i-Kabel
Expander-Backplane installiert mit 8 PCIe 5.0 NVMe SSDs (4 SSDs pro MCIO-Kabel)
Retimer-Chip gewährleistet PCIe 5.0-Signalintegrität bei Langstreckenübertragung
Mit dem 4x4-Lane-Bifurcation-Modus werden 16 PCIe 5.0-Lanes in vier x4-Links aufgeteilt. Jeder x4-Link ist mit zwei NVMe-SSDs verbunden (über Backplane-Switching) und nutzt die PCIe-Bandbreite vollständig aus. Die Vorteile dieser Konfiguration sind:
Hohe Gerätedichte: Eine einzige Erweiterungskarte unterstützt den Anschluss von 8 NVMe-SSDs, was die Speicherdichte deutlich erhöht
Ausgewogene Leistung: Jedes SSD erhält eine x4 PCIe 5.0-Bandbreite (ca. 16 GB/s) und erfüllt damit hohe Leistungsanforderungen
Flexible Erweiterung: Die Anzahl der angeschlossenen Geräte kann je nach Bedarf ohne Austausch der Hardware angepasst werden
Führen Sie die Hardwareinstallation gemäß den folgenden Schritten durch:
Schritt 1: Schalten Sie den Server aus, ziehen Sie die Netzkabel ab und treffen Sie antistatische Vorkehrungen.
Schritt 2: Öffnen Sie das Gehäuse und suchen Sie den verfügbaren PCIe 5.0 x16 Erweiterungssteckplatz
Schritt 3: Installieren Sie die LRSV9501-2E-Erweiterungskarte und wählen Sie je nach Gehäusehöhe 2U- oder 3U-Halterungen.
Schritt 4: Einbau der externen NVMe-SSD-Erweiterungs-Backplane in das Rack
Schritt 5: Verbinden Sie die Erweiterungskarte mit der externen Backplane über MCIO 8i-Kabel
Schritt 6: Installieren Sie 8 PCIe 5.0 NVMe SSDs in der Backplane
Schritt 7: Schließen Sie das Gehäuse, schließen Sie die Stromversorgung an und schalten Sie es zum Selbsttest ein.
Rufen Sie die BIOS-Setup-Schnittstelle des Servers auf und konfigurieren Sie den PCIe-Slot-Lane-Bifurkationsmodus auf 4x4. Nach dem Speichern der Konfiguration und dem Neustart erkennt das System 8 unabhängige NVMe-SSDs.
Verwenden Sie das fio-Tool zum Testen der Speicherung | Systemleistung | Die Ergebnisse sind wie folgt |
Sequentielles Lesen mit einem Laufwerk | 12,8 GB/s | etwa 2-fache Verbesserung |
Sequentielles Schreiben mit einem Laufwerk | 10,2 GB/s | etwa 2-fache Verbesserung |
Sequentielles Schreiben mit einem Laufwerk | 48 GB/s | etwa 4-fache Verbesserung |
4K zufälliges Lesen IOPS | 2,400K | etwa 3-fache Verbesserung |
Anwendungseffekte und Nutzen
Nach der Aufrüstung des Speichers konnten die Ladezeiten für große AI-Modelldateien erheblich verbessert werden. Am Beispiel eines großen Sprachmodells mit 70B Parametern konnte die Ladezeit erheblich verbessert werden. Dies verkürzte die Zeiten für den Modellwechsel und den Neustart des Dienstes erheblich und verbesserte die Betriebseffizienz der Plattform.
Die Abfragegeschwindigkeit der Vektordatenbank wirkt sich direkt auf die Reaktionszeit der KI-Inferenz aus. Das aufgerüstete Speichersystem reduzierte die Latenzzeit beim Abruf von Vektoren von durchschnittlich 15 ms auf 5 ms und verkürzte die End-to-End-Antwortzeit für Schlussfolgerungen um ca. 30 %, was die Benutzerfreundlichkeit erheblich verbesserte.
Die Speicherkapazität eines einzelnen Servers wurde deutlich erhöht und erfüllt die Anforderungen an die Bereitstellung mehrerer Versionen und die Speicherung großer Datenmengen. Das Design der externen Erweiterungs-Backplane ermöglicht zudem eine zukünftige weitere Expansion.
Die Retimer-Funktion des LRSV9501-2E gewährleistet die PCIe 5.0-Signalintegrität bei der Übertragung über MCIO-Kabel. Die Überwachung der Signalqualität nach der Implementierung ergab reduzierte Bitfehlerraten, die den Zuverlässigkeitsstandards von Unternehmen entsprechen.
Zusammenfassung und Erfahrungsaustausch
Der praktische Wert von LRSV9501-2E in AI-Server-Speichererweiterungsszenarien wurde erfolgreich verifiziert. Im Folgenden finden Sie eine Zusammenfassung der wichtigsten Erfahrungen:
1. Vollständige Nutzung der PCIe 5.0-Bandbreite
Die Bandbreitenverbesserung von PCIe 5.0 bietet neue Möglichkeiten für die Speichererweiterung. Durch eine sinnvolle Lane-Bifurcation-Konfiguration kann eine einzige Erweiterungskarte mehrere Hochleistungs-SSDs anschließen und so eine lineare Skalierung der Speicherleistung erreichen.
2. Retimer löst Probleme mit der Signalintegrität
Die größte Herausforderung bei der externen Speichererweiterung ist die Signalintegrität. Der in den LRSV9501-2E integrierte Broadcom BCM85657 Retimer-Chip löst effektiv PCIe 5.0-Signaldämpfungsprobleme und macht externe Verbindungen möglich.
3. Bequemlichkeit der MCIO-Schnittstelle
Die MCIO-Kabelverbindungslösung durchbricht die Platzbeschränkungen im Gehäuse, so dass die Speichererweiterung nicht mehr durch den internen Serverplatz begrenzt ist.
4. Plug-and-Play-Implementierung
Als protokolltransparentes Gerät benötigt der LRSV9501-2E keine dedizierten Treiber und ist sowohl auf CentOS- als auch auf Ubuntu-Systemen Plug-and-Play-fähig, was die Bereitstellungszyklen erheblich verkürzt.
Auf der Grundlage der Erfahrungen bei der Durchführung dieses Projekts wird die LRSV9501-2E kann auch auf die folgenden ähnlichen Szenarien angewandt werden:
Trainingsplattformen für große Modelle: Bereitstellung von Hochgeschwindigkeitsdatenladefunktionen für GPU-Trainingsknoten zur Verkürzung der Datenvorverarbeitungszeit
Empfehlungssysteme in Echtzeit: Unterstützung des Abrufs von Merkmalsvektoren mit hoher Geschwindigkeit, um die Reaktionszeit von Empfehlungsdiensten zu verbessern
Videoverarbeitungsdienste: Bereitstellung von Speicherzugriffsfunktionen mit hohem Durchsatz für die Videotranscodierung und -analyse
Wissenschaftliche Rechencluster: Unterstützung von Hochgeschwindigkeits-Lese-/Schreibvorgängen für große Datensätze, Beschleunigung von Simulations- und Modellierungsaufgaben
CXL-Speichererweiterung: Schließen Sie CXL-Speichererweiterungsmodule an, um Speicherpools mit großer Kapazität für speicherintensive Anwendungen bereitzustellen.
Die LRSV9501-2E PCIe 5.0 Retimer-Erweiterungskarte bietet eine leistungsstarke, äußerst zuverlässige Speichererweiterungslösung für die KI-Inferenzplattform des Internetunternehmens. Durch die Hochgeschwindigkeits-Bandbreite von PCIe 5.0 und die Signalverbesserungsfunktionen des Retimers konnte das Unternehmen die Speicherleistung um ein Vielfaches verbessern und gleichzeitig die Platzbeschränkungen im Gehäuse überwinden. Für Unternehmen, die eine KI-Infrastruktur aufbauen oder aufrüsten, bietet der LRSV9501-2E eine Hochgeschwindigkeits-Signalerweiterungslösung, die Leistung, Skalierbarkeit und Zuverlässigkeit in Einklang bringt. Bei den sich schnell entwickelnden PCIe 5.0- und CXL-Technologien von heute bietet die Wahl einer Erweiterungslösung mit Signalregenerierungsfunktionen ausreichend Platz für zukünftige Technologie-Upgrades.