人工知能の急速な発展に伴い、AIサーバーとGPUクラスターはデータセンターのコアコンピューティングインフラストラクチャとなっている。大規模な言語モデルのトレーニングからリアルタイムの推論サービスまで、これらのアプリケーションは、コンピューティング性能とデータスループットにかつてない要求を課しています。これらの高性能システムを支える基盤アーキテクチャでは、高速信号伝送技術が厳しい課題に直面している。
業界調査機関によると、GPUの世界市場規模は前年同期を上回った。 400億ドルは2024年に30%以上の年間成長率を記録する。1台のAIトレーニングサーバーは、8つ以上の高性能GPUを統合することができ、高速相互接続によって統一されたコンピューティングプールを形成する。このような高密度コンピューティング・アーキテクチャは、サーバー内部のデータ伝送帯域幅と信号品質に極めて高い要件を課す。
一方、ストレージシステムも変革の時を迎えている。従来のSATAやSASストレージではAIワークロードのニーズを満たせなくなり、NVMeプロトコルに基づく高速SSDが主流になりつつある。新世代の CXL(コンピュートエクスプレスリンク)GPUとCPUがキャッシュコヒーレントな方法でリモート・メモリとストレージ・リソースにアクセスできるようにします。
サーバーの内部デバイス相互接続の主流規格として、PCI Express(PCIe)は第5世代まで進化し、成熟期を迎えている。PCIe 5.0では、レーンあたりの転送速度が16GT/秒(PCIe 4.0)から次のように向上しました。 32GT/秒レーンあたりの帯域幅は2倍になります。x16コンフィギュレーションのグラフィックスカードやネットワークアダプターの場合、理論上の双方向帯域幅は以下のようになります。 128GB/秒.
しかし、伝送速度の向上は、エンジニアリング上の新たな課題ももたらす:
· 信号減衰:高速信号は、PCB トレースやコネクタを経由して伝送される際に損失が発生します。PCIe 5.0の信号はPCIe 4.0よりも実効伝送距離が短く、より厳しい配線設計が要求されます。
· シグナル・インテグリティ:高速信号はクロストーク、反射、ノイズの影響を受けやすく、データ伝送エラーやシステムの安定性を低下させる可能性がある。
· タイミング・マージン:データ・レートが高くなるとタイミング・ウィンドウが狭くなり、クロック同期や信号エッジの精度に対する要求が厳しくなる。
高速信号伝送の課題に対処する、 リタイマー 技術が登場した。リタイマーは、高速信号経路に配置される信号再生デバイスで、減衰した信号を検出、回復、再タイミングすることで、有効伝送距離を延ばし、シグナルインテグリティを向上させる。
単純な信号増幅器(リドライバー)とは異なり、リタイマーは以下のメカニズムで信号再生を実現する:
· 信号の均一化:高周波の減衰を補正し、信号振幅を復元する。
· クロック&データ・リカバリー(CDR):入力信号からクロックを抽出し、ジッターを除去する。
· 信号のタイミング調整:リカバリーされたクロックを使用してクリーンなデータ信号を再生する。
· プロトコルの透明性:データ内容を解析せず、上位層のプロトコルに対して完全に透過的である。
AIサーバーやハイエンド・ストレージ・システムにおいて、Retimerチップは信頼性の高い高速信号伝送を保証する重要なコンポーネントとなっている。GPUとCPUの相互接続や、NVMe SSDの拡張接続において不可欠な役割を果たしている。
CXL(Compute Express Link)は、PCIe 5.0の物理層をベースに、より豊富な機能を追加した新しい高速相互接続プロトコルです。CXL 2.0規格は3つのプロトコルをサポートしています:
· CXL.io:デバイスの検出とコンフィギュレーション用のPCIeプロトコルに対応。
· CXL.キャッシュ:デバイスキャッシュのコヒーレンスをサポートし、デバイスがCPUキャッシュを共有できるようにします。
· CXL.メモリー:メモリ・セマンティック・アクセスをサポートし、デバイスがシステム・メモリに直接アクセスできるようにする。
CXLテクノロジーの中核的価値は、従来のアーキテクチャにおけるCPUメモリのボトルネックを解消し、GPUやFPGAなどのアクセラレータがキャッシュコヒーレントな方法で大容量メモリプールにアクセスできるようにすることにある。これは、大容量メモリを必要とするAIトレーニングやビッグデータアプリケーションにとって極めて重要である。
MCIO(ミニ・クールエッジIO)は、次世代のPCIeおよびCXLアプリケーション向けに設計されたコンパクトな高速コネクター規格です。MCIOには次のような特長があります:
· 高密度化:より小さなスペースでより多くの信号チャンネルをサポート。
· より優れたシグナル・インテグリティ:最適化されたピン配置とシールド設計により、クロストークを低減。
· ケーブル接続:ケーブルによる外部機器接続に対応し、シャーシのスペース制限を解消。
大規模なAIモデルのトレーニングには、数百、数千のGPUの連携が必要です。高速相互接続は、GPU間の勾配データとモデル・パラメータの低レイテンシ、高帯域幅の交換を保証します。Retimerテクノロジーは、複雑なバックプレーンや長距離ケーブルのシグナルインテグリティを保証します。
科学計算、シミュレーション、遺伝子配列決定などのHPCアプリケーションは、メモリ帯域幅と容量に対する要求が極めて高い。CXLメモリ拡張とRetimer信号拡張を組み合わせることで、大容量、高帯域幅のメモリプールを構築し、コンピューティングタスクを高速化することができます。
クラウド・ゲーミング・サーバーは、1台の物理マシン上に複数のGPUインスタンスを仮想化し、さまざまなユーザーにリアルタイム・レンダリング・サービスを提供します。低レイテンシのゲーム体験を保証するには、高速なストレージとメモリアクセスが不可欠です。
標準的なサーバーをベースとしたSDS(Software-Defined Storage)ソリューションでは、多数のNVMe SSDを接続する必要があります。PCIe 5.0 Retimer拡張カードは、高性能ストレージプールを構築するための高密度SSD拡張を可能にします。
ますます複雑化する高速相互接続の需要に直面し、システム設計者は以下の要素を考慮する必要がある:
· 伝送距離:信号の物理的な移動距離を評価し、Retimerの強化が必要かどうかを判断する。
· レーン構成:デバイスの要件に基づき、適切なPCIe分岐モード(x16/x8/x4)を選択。
· プロトコル・サポート:CXLプロトコルのサポートが必要かどうか、およびCXLの具体的な機能要件を確認する。
· 熱設計:高速Retimerチップは比較的消費電力が高く、適切な熱ソリューションが必要です。
· 互換性の検証:拡張カードがマザーボード、オペレーティングシステム、ターゲットデバイスと互換性があることを確認してください。
AI時代の到来は、データセンターのアーキテクチャ設計を再構築している。PCIe 5.0の高速伝送、Retimerテクノロジーの信号再生、CXLプロトコルのメモリ拡張に至るまで、各テクノロジーはAIコンピューティングの可能性を引き出すサポートをしている。
AIインフラを計画する企業にとって、これらの基盤技術の原理と応用シナリオを理解することは、より合理的な技術選択を行い、高性能で信頼性の高いコンピューティング・プラットフォームを構築するのに役立つ。
リンクリアル(LR-LINK)は、サーバー/データセンター接続ソリューションに特化した国営ハイテク企業である。同社の製品ポートフォリオには、イーサネットネットワークアダプタ、ストレージ拡張カード、GPU拡張ソリューションなどが含まれる。PCIe 5.0とCXL技術の開発動向に歩調を合わせ、同社はAIサーバー、ハイパフォーマンス・コンピューティング、Software-Defined Storage、その他のアプリケーション・シナリオ向けに高速信号拡張ソリューションを提供している。