Con el rápido desarrollo de la inteligencia artificial, los servidores de IA y los clusters de GPU se han convertido en la infraestructura informática básica de los centros de datos. Estas aplicaciones, que abarcan desde el entrenamiento de grandes modelos lingüísticos hasta los servicios de inferencia en tiempo real, imponen unas exigencias sin precedentes en cuanto a rendimiento informático y caudal de datos. En la arquitectura subyacente que soporta estos sistemas de alto rendimiento, la tecnología de transmisión de señales de alta velocidad se enfrenta a graves desafíos.
Según los institutos de investigación del sector, el mercado mundial de GPU superó los 1.000 millones de euros en 2009. 40.000 millones de dólares en 2024, con una tasa de crecimiento anual superior al 30%. Un único servidor de entrenamiento de IA puede integrar 8 o más GPU de alto rendimiento, formando un conjunto informático unificado mediante interconexión de alta velocidad. Esta arquitectura de computación de alta densidad impone requisitos extremadamente exigentes al ancho de banda de transmisión de datos y a la calidad de la señal dentro del servidor.
Mientras tanto, los sistemas de almacenamiento también están experimentando una transformación. El almacenamiento SATA y SAS tradicional ya no puede satisfacer las necesidades de las cargas de trabajo de IA, y los SSD de alta velocidad basados en el protocolo NVMe se están convirtiendo en la corriente principal. La nueva generación CXL (Compute Express Link) eleva aún más la expansión de la memoria y la convergencia del almacenamiento, lo que permite a las GPU y las CPU acceder a recursos de memoria y almacenamiento remotos de forma coherente con la caché.
PCI Express (PCIe), el estándar dominante para la interconexión de dispositivos internos en servidores, ha evolucionado hasta su 5ª generación y ha alcanzado la madurez. PCIe 5.0 aumenta la velocidad de transmisión por carril de 16GT/s (PCIe 4.0) a 32GT/sduplicando el ancho de banda por carril. Para tarjetas gráficas o adaptadores de red en configuración x16, el ancho de banda bidireccional teórico puede llegar a 128 GB/s.
Sin embargo, las mayores velocidades de transmisión también introducen nuevos retos de ingeniería:
· Atenuación de la señal: Las señales de alta velocidad sufren pérdidas cuando se transmiten a través de trazas y conectores de PCB; la atenuación empeora a frecuencias más altas. Las señales PCIe 5.0 tienen una distancia de transmisión efectiva más corta que las PCIe 4.0, lo que exige un diseño de enrutamiento más estricto.
· Integridad de la señal: Las señales de alta velocidad son más vulnerables a la diafonía, la reflexión y el ruido, lo que puede provocar errores en la transmisión de datos y degradar la estabilidad del sistema.
· Margen temporal: A mayor velocidad de transmisión de datos, las ventanas de temporización son más estrechas, lo que impone requisitos más estrictos a la sincronización del reloj y la precisión de los flancos de señal.
Para afrontar los retos de la transmisión de señales a alta velocidad, Retimer ha surgido la tecnología Retimer. Un Retimer es un dispositivo de regeneración de señales situado en la ruta de la señal de alta velocidad, que detecta, recupera y retemporiza las señales atenuadas para ampliar la distancia de transmisión efectiva y mejorar la integridad de la señal.
A diferencia de los simples amplificadores de señal (Redrivers), los Retimers consiguen la regeneración de la señal mediante los siguientes mecanismos:
· Ecualización de la señal: Compensa la atenuación de alta frecuencia y restaura la amplitud de la señal.
· Recuperación de datos y reloj (CDR): Extrae el reloj de la señal de entrada para eliminar el jitter.
· Retemporización de señales: Regenera señales de datos limpias utilizando el reloj recuperado.
· Transparencia del protocolo: No analiza el contenido de los datos y es totalmente transparente para los protocolos de capa superior.
En los servidores de IA y los sistemas de almacenamiento de gama alta, los chips Retimer se han convertido en componentes críticos que garantizan una transmisión fiable de señales de alta velocidad. Desempeñan un papel indispensable en la interconexión entre GPU y CPU, así como en las conexiones ampliadas para SSD NVMe.
CXL (Compute Express Link) es un nuevo protocolo de interconexión de alta velocidad basado en la capa física PCIe 5.0 pero con funciones más ricas. El estándar CXL 2.0 admite tres protocolos:
· CXL.io: Compatible con protocolos PCIe para la detección y configuración de dispositivos.
· CXL.caché: Admite la coherencia de caché de dispositivo, lo que permite a los dispositivos compartir la caché de CPU.
· CXL.memoria: Admite el acceso semántico a la memoria, lo que permite a los dispositivos acceder directamente a la memoria del sistema.
El principal valor de la tecnología CXL reside en romper el cuello de botella de la memoria de la CPU en las arquitecturas tradicionales, permitiendo a aceleradores como las GPU y las FPGA acceder a conjuntos de memoria de gran capacidad de forma coherente con la caché. Esto es crucial para el entrenamiento de IA y las aplicaciones de big data que requieren memoria masiva.
MCIO (Mini Cool Edge IO) es un estándar de conector compacto de alta velocidad diseñado para aplicaciones PCIe y CXL de próxima generación. MCIO ofrece las siguientes ventajas:
· Mayor densidad: Admite más canales de señal en un espacio más reducido.
· Mejor integridad de la señal: La disposición optimizada de las patillas y el diseño del blindaje reducen la diafonía.
· Conexión de cables: Admite la conexión de dispositivos externos mediante cables, rompiendo las limitaciones de espacio del chasis.
El entrenamiento de grandes modelos de IA requiere la colaboración de cientos o incluso miles de GPU. La interconexión de alta velocidad garantiza el intercambio de datos de gradiente y parámetros de modelo entre GPUs con baja latencia y gran ancho de banda. La tecnología Retimer garantiza la integridad de la señal a través de backplanes complejos y cables de larga distancia.
Las aplicaciones de HPC, como la computación científica, la simulación y la secuenciación genética, exigen un ancho de banda y una capacidad de memoria extremadamente elevados. La ampliación de la memoria CXL combinada con la mejora de la señal Retimer permite crear grupos de memoria de gran capacidad y ancho de banda para acelerar las tareas informáticas.
Los servidores de juegos en la nube virtualizan múltiples instancias de GPU en una única máquina física para proporcionar servicios de renderizado en tiempo real a diferentes usuarios. El almacenamiento de alta velocidad y el acceso a la memoria son fundamentales para garantizar experiencias de juego de baja latencia.
Las soluciones de almacenamiento definido por software (SDS) basadas en servidores estándar necesitan conectar un gran número de SSD NVMe. Las tarjetas de expansión PCIe 5.0 Retimer permiten ampliar las SSD de alta densidad para crear grupos de almacenamiento de alto rendimiento.
Ante unas demandas de interconexión de alta velocidad cada vez más complejas, los diseñadores de sistemas deben tener en cuenta los siguientes factores:
· Distancia de transmisión: Evalúe la distancia física que deben recorrer las señales para determinar si es necesario mejorar el Retimer.
· Configuración de carriles: Seleccione los modos de bifurcación PCIe adecuados (x16/x8/x4) en función de los requisitos del dispositivo.
· Soporte de protocolo: Confirme si se necesita compatibilidad con el protocolo CXL y los requisitos funcionales específicos de CXL.
· Diseño térmico: Los chips Retimer de alta velocidad tienen un consumo de energía relativamente alto y requieren soluciones térmicas adecuadas.
· Verificación de compatibilidad: Asegúrese de que la tarjeta de expansión es compatible con las placas base, los sistemas operativos y los dispositivos de destino.
La llegada de la era de la IA está remodelando el diseño de la arquitectura de los centros de datos. Desde la transmisión a alta velocidad de PCIe 5.0, pasando por la regeneración de señales de la tecnología Retimer, hasta la ampliación de memoria del protocolo CXL, cada tecnología respalda el desbloqueo del potencial informático de la IA.
Para las empresas que planifican infraestructuras de IA, comprender los principios y los escenarios de aplicación de estas tecnologías subyacentes ayuda a realizar selecciones tecnológicas más racionales y a construir plataformas informáticas de alto rendimiento y fiabilidad.
Linkreal (LR-LINK) es una empresa nacional de alta tecnología centrada en soluciones de conectividad para servidores y centros de datos. Su cartera de productos incluye adaptadores de red Ethernet, tarjetas de expansión de almacenamiento, soluciones de expansión de GPU, etc. Siguiendo el ritmo de las tendencias de desarrollo de las tecnologías PCIe 5.0 y CXL, la empresa ofrece soluciones de expansión de señales de alta velocidad para servidores de IA, informática de alto rendimiento, almacenamiento definido por software y otros escenarios de aplicación.