大規模言語モデルと生成AI技術の急速な発展により、AI推論サービスはクラウドコンピューティングとデータセンターのコアビジネスになりつつある。本稿では、あるインターネット企業のAI推論プラットフォームアップグレードプロジェクトを例に、AIサーバーストレージ拡張シナリオにおけるLRSV9501-2E PCIe 5.0 Retimer拡張カードの実用的なアプリケーションを実証し、同様のインフラ課題に直面している企業に参考情報を提供する。
あるインターネット企業は、Cエンドユーザー向けにAIアシスタントとインテリジェント・カスタマー・サービス・プラットフォームを運営している。ユーザーの急増に伴い、同プラットフォームのAI推論リクエストは爆発的に増加しており、基盤となるインフラのパフォーマンスとスケーラビリティに対する要求が高まっている。
1.ストレージ性能のボトルネック
AI推論サービスでは、大容量モデルファイル(1つのモデルは数十GBに達することもある)の迅速なロードと、推論中のベクトルデータベースへの効率的なアクセスが要求される。オリジナルのサーバーはPCIe 4.0 NVMe SSDを使用していました。性能はすでに優れていましたが、高集約シナリオでは、ストレージへのアクセスレイテンシがシステムのボトルネックとなり、推論の応答速度に影響を及ぼしました。
2.不十分なストレージ容量
プラットフォームは、A/Bテストやグレーリリースをサポートするために、複数の異なるバージョンのAIモデルを展開する必要がある。ベクターデータベースとログデータを組み合わせると、シングルマシンのストレージ容量要件は10TBを超える。標準的な2Uサーバーではドライブベイに限りがあり、容量拡張のニーズに対応できない。
3.シャーシスペースの制約
この企業では、標準化された2UラックマウントサーバーをAI推論ノードとして使用しており、各サーバーには4つのGPUが搭載されている。シャーシ内部のスペースはすでにGPUと電源で占められており、PCIe拡張スロットは1つしかない。従来のストレージ拡張ソリューションは適用できない。
4.シグナルインテグリティの問題
この企業は、シャーシのスペース制限を突破するため、一部のストレージ・デバイスを外部に配置し、ケーブルで接続することを計画している。しかし、PCIe 5.0の信号は高速伝送中に著しく減衰するため、接続の安定性を確保するための信号拡張ソリューションが必要となります。
ソリューション・デザイン
技術評価でLRSV9501-2Eを選択(クリックで購入) ストレージ拡張ソリューションとしてPCIe 5.0 x16デュアルポートMCIO Retimer拡張カードを採用。外付けのNVMe SSD拡張バックプレーンやPCIe 5.0 NVMe SSDと組み合わせることで、高性能で大容量のストレージ・アーキテクチャが構築された。
システム・アーキテクチャのハイライト:
LRSV9501-2EをサーバーのPCIe 5.0 x16スロットに装着、4x4レーン分岐モードで構成
2本のMCIO 8iケーブルで外付けNVMe SSD拡張バックプレーンに接続
8台のPCIe 5.0 NVMe SSD(MCIOケーブル1本につき4台のSSD)を搭載したエクスパンダ・バックプレーン
リタイマー・チップが長距離伝送中のPCIe 5.0信号の完全性を保証
4x4レーン分岐モードを使用し、16本のPCIe 5.0レーンを4本のx4リンクに分割。各x4リンクは(バックプレーンスイッチングを介して)2台のNVMe SSDに接続され、PCIe帯域幅をフルに活用します。この構成の利点は
高いデバイス密度:1枚の拡張カードで8台のNVMe SSDの接続に対応し、ストレージ密度を大幅に向上
バランスの取れたパフォーマンス:各SSDはx4 PCIe 5.0の帯域幅(約16GB/秒)を受け、高性能要件を満たす
柔軟な拡張性:ハードウェアを交換することなく、需要に応じて接続デバイスの数を調整できます。
以下の手順に従って、ハードウェアの配備を完了する:
ステップ1:サーバーの電源を切り、電源ケーブルを外し、静電気対策を行う
ステップ2: シャーシを開き、利用可能なPCIe 5.0 x16拡張スロットを探します。
ステップ 3:シャーシの高さに合わせて 2U または 3U ブラケットを選択し、LRSV9501-2E 拡張カードを取り付けます。
ステップ4: 外付けNVMe SSD拡張バックプレーンをラックに取り付ける
ステップ5:MCIO 8iケーブルを使って拡張カードを外部バックプレーンに接続する
ステップ6: 8台のPCIe 5.0 NVMe SSDをバックプレーンに取り付ける
ステップ7:シャーシを閉じ、電源を接続し、セルフテストのために電源を入れます。
サーバーBIOSセットアップインターフェイスに入り、PCIeスロットレーン分岐モードを4x4に設定します。設定を保存して再起動すると、システムは8つの独立したNVMe SSDを認識します。
fioツールを使ってストレージをテストする | システム性能 | 結果は以下の通り。 |
シングル・ドライブ・シーケンシャル・リード | 12.8 GB/秒 | 約2倍の改善 |
シングル・ドライブ・シーケンシャル書き込み | 10.2GB/秒 | 約2倍の改善 |
シングル・ドライブ・シーケンシャル書き込み | 48 GB/秒 | 約4倍の改善 |
4Kランダム読取りIOPS | 2,400K | 約3倍の改善 |
アプリケーションの効果とメリット
ストレージのアップグレード後、大規模AIモデルファイルの読み込み速度は大幅に改善された。70Bパラメータの大規模言語モデルを例にとると、ロード時間は大幅に改善されました。これにより、モデルの切り替えとサービスの再起動時間が大幅に短縮され、プラットフォームの運用効率が向上した。
ベクターデータベースのクエリー速度は、AI推論の応答時間に直接影響する。アップグレードされたストレージシステムにより、ベクトル検索の待ち時間が平均15msから5msに短縮され、エンドツーエンドの推論応答時間が約30%短縮され、ユーザーエクスペリエンスが大幅に向上しました。
単一サーバーのストレージ容量が大幅に増加し、マルチバージョンモデルの展開やビッグデータストレージのニーズに対応。また、外部拡張バックプレーン設計により、将来のさらなる拡張も可能です。
LRSV9501-2Eのリタイマー機能は、MCIOケーブルで伝送されるPCIe 5.0信号の完全性を保証します。実装後の信号品質モニタリングでは、ビットエラーレートが減少し、エンタープライズグレードの信頼性基準を満たしています。
まとめと経験の共有
LRSV9501-2Eは、AIサーバーのストレージ拡張シナリオにおいて、実用的な価値を実証している。主な実績は以下の通り:
1.PCIe 5.0の帯域幅をフル活用
PCIe 5.0の帯域幅向上は、ストレージ拡張に新たな可能性をもたらします。合理的なレーン分岐構成により、1枚の拡張カードで複数の高性能SSDを接続でき、ストレージ性能のリニアなスケーリングを実現します。
2.リタイマーがシグナル・インテグリティの問題を解決
外部ストレージ拡張の最大の課題はシグナルインテグリティです。LRSV9501-2Eに内蔵されたBroadcom BCM85657リタイマーチップは、PCIe 5.0信号の減衰問題を効果的に解決し、外部接続を可能にします。
3.MCIOインターフェイスの利便性
MCIOケーブル接続ソリューションは、シャーシのスペース制限を打破し、ストレージの拡張をサーバー内部のスペースに制限されなくします。
4.プラグアンドプレイの導入経験
プロトコル透過型デバイスであるLRSV9501-2Eは、専用ドライバを必要とせず、CentOSとUbuntuの両システムでプラグアンドプレイを実現し、導入サイクルを大幅に短縮します。
このプロジェクトの実施経験に基づき LRSV9501-2E は、次のような同様のシナリオにも適用できる:
大規模モデルトレーニングプラットフォーム:GPUトレーニングノードに高速データロード機能を提供し、データの前処理時間を短縮する。
リアルタイム推薦システム:高同時性特徴ベクトル検索をサポートし、レコメンデーションサービスの応答速度を向上
ビデオ処理サービス:ビデオのトランスコードと解析のために、高スループットのストレージアクセス機能を提供する。
サイエンティフィック・コンピューティング・クラスター大規模データセットの高速読み書きをサポートし、シミュレーションやモデリングタスクを高速化
CXLメモリ拡張:CXLメモリ拡張モジュールを接続し、メモリ集約型アプリケーションに大容量メモリプールを提供
LRSV9501-2E PCIe 5.0 Retimer拡張カードは、インターネット企業のAI推論プラットフォームに高性能で信頼性の高いストレージ拡張ソリューションを提供します。PCIe 5.0の高速帯域幅とRetimerの信号拡張機能により、企業はシャーシのスペース制限を突破しながら、数倍のストレージ性能向上を達成しました。AIインフラを構築またはアップグレードする企業にとって、LRSV9501-2Eは性能、拡張性、信頼性のバランスが取れた高速信号拡張ソリューションを提供します。急速に進化する今日のPCIe 5.0とCXL技術において、信号再生機能を備えた拡張ソリューションを選択することで、将来の技術アップグレードに十分なスペースを確保することができます。