I. 인피니밴드 네트워크란 무엇인가요?
흔히 "IB"로 약칭되는 InfiniBand는 네트워크 통신 표준이며 RDMA(원격 직접 메모리 액세스) 기술을 구현하는 프로토콜 중 하나입니다. 고속 차동 신호 기술과 다중 채널 병렬 전송 메커니즘을 활용합니다. 주요 목표는 "고성능, 짧은 지연 시간, 높은 신뢰성"을 제공하는 것입니다.
인피니밴드는 서버 영역의 고성능 컴퓨팅(HPC) 전용 인터커넥트 기술입니다. 매우 높은 처리량과 매우 짧은 지연 시간을 특징으로 하며, 컴퓨터 간 데이터 상호 연결(예: 복제, 분산 워크로드)에 사용됩니다. InfiniBand는 서버와 스토리지 시스템(예: SAN 및 직접 연결 스토리지) 간은 물론 스토리지 시스템 자체 간에도 직접 또는 스위칭 상호 연결로 사용됩니다. 또한 서버와 네트워크(예: LAN, WAN, 인터넷) 간의 통신을 용이하게 합니다. 데이터 센터와 HPC/스토리지 분야에서 널리 사용되고 있습니다. 이후 인공 지능이 부상하면서 GPU 서버를 연결하기 위한 네트워크 상호 연결 기술로 선택되고 있습니다.
II. 인피니밴드의 개발 역사
1990년대 초, 인텔은 늘어나는 외부 장치를 지원하기 위해 표준 PC 아키텍처에 PCI 버스 설계를 도입하는 선구자적 역할을 했습니다. 그러나 CPU, 메모리, 하드 드라이브 및 기타 구성 요소가 빠르게 업그레이드됨에 따라 PCI 버스의 느린 진화는 전체 시스템의 병목 현상이 되었습니다. 이 문제를 해결하기 위해 컴팩, 델, HP, IBM, 인텔, 마이크로소프트, 썬 등 IT 업계의 거대 기업들은 180여 개의 다른 기업들과 함께 **IBTA(InfiniBand Trade Association)**를 공동으로 설립했습니다.
IBTA의 목적은 PCI를 대체하고 전송 병목 문제를 해결하기 위한 새로운 대체 기술을 연구하는 것이었습니다. 그 결과, 2000년에 **인피니밴드 아키텍처 사양 버전 1.0**이 공식적으로 발표되었습니다. 이 규격은 더 낮은 지연 시간, 더 넓은 대역폭, 더 높은 안정성을 제공하고 훨씬 더 강력한 I/O 성능을 구현하는 RDMA 프로토콜을 도입하여 시스템 상호 연결 기술의 새로운 표준으로 자리매김했습니다.
인피니밴드라고 하면 필연적으로 이스라엘 기업인 **Mellanox**(중국명: , "나사 판매"로 쉽게 기억됨)를 떠올릴 수밖에 없습니다. 1999년 5월 인텔과 갈릴레오 테크놀로지의 전직 직원들이 이스라엘에서 설립한 멜라녹스는 설립 직후 인피니밴드 산업 연합에 가입했습니다. 2001년에는 첫 번째 InfiniBand 제품을 출시했습니다.
2002년, 인피니밴드 진영은 큰 격변에 직면했습니다. 인텔은 2004년에 출시된 PCI Express(PCIe)**로 개발 초점을 전환하기로 결정하면서 인피니밴드 개발을 '포기'했습니다. 또 다른 대기업인 마이크로소프트도 인피니밴드 개발에서 철수했습니다. 썬과 히타치 같은 기업들은 여전히 개발에 전념했지만, 인피니밴드의 미래는 어두워졌습니다.
2003년부터 InfiniBand는 새로운 애플리케이션 영역으로 방향을 전환했습니다: 바로 "컴퓨터 클러스터 상호 연결"입니다. 2005년에는 또 다른 새로운 애플리케이션을 발견했습니다: "저장 장치 연결"이었습니다. 2012년 이후, 고성능 컴퓨팅(HPC) 수요의 지속적인 성장에 힘입어 InfiniBand 기술은 급성장하여 시장 점유율을 꾸준히 높여 나갔습니다.
인피니밴드 기술이 점차 각광을 받으면서 멜라녹스도 성장하여"시장 리더" 인피니밴드에서. 2010년에 Mellanox는 Voltaire와 합병하여 Mellanox(2019년 NVIDIA에 인수)와 QLogic(2012년 인텔에 인수)이 주요 InfiniBand 공급업체로 남게 되었습니다.
2013년에는 실리콘 포토닉스 기술 기업인 코투라와 병렬 광학 인터커넥트 칩 제조업체인 IPtronics를 인수하여 업계 포트폴리오를 더욱 공고히 했습니다.
2015년 인피니밴드 기술의 시장 점유율은"TOP500" 슈퍼컴퓨터 목록에서 처음으로 50%를 넘어섰습니다. 이로써 인피니밴드는 이더넷 기술을 처음으로 추월하여"슈퍼컴퓨터에 선호되는 클러스터 상호 연결 기술".
2015년까지 멜라녹스는"80% 점유율" 의 글로벌 인피니밴드 시장 점유율을 차지했습니다. 칩에서 네트워크 어댑터, 스위치/게이트웨이, 원격 통신 시스템, 케이블/모듈 등 전체 스펙트럼으로 사업 범위를 확장하여 세계적인 네트워크 공급업체로 자리매김했습니다.
2019년, 엔비디아는 멜라녹스를 인수하며 중요한 행보를 보였습니다."69억 달러". NVIDIA의 CEO인 젠슨 황은 다음과 같이 말했습니다: "고성능 컴퓨팅 분야에서 세계를 선도하는 두 회사의 결합입니다. NVIDIA는 가속 컴퓨팅에 중점을 두고 있으며, 멜라녹스는 인터커넥트 및 스토리지에 중점을 두고 있습니다."라고 말했습니다. 돌이켜보면, 대규모 모델 트레이닝은 고성능 컴퓨팅 클러스터에 크게 의존하며, 인피니밴드 네트워크는 고성능 컴퓨팅 클러스터의"최적의 파트너" 를 사용하세요.
III. 인피니밴드 작동 방식
네트워킹 전문 분야가 아닌 사람들에게는 InfiniBand의 작동 원리가 복잡해 보일 수 있습니다. 초보자는 기본 사항을 이해하거나 이 섹션을 건너뛸 수 있습니다. 인피니밴드 프로토콜은 또한"계층화된 아키텍처"각 계층은 독립적이며 그 위에 있는 계층에 서비스를 제공합니다.
물리적 계층: 비트 신호가 물리적 링크에서 심볼로 조립된 다음 프레임, 데이터 심볼 및 패킷 사이의 데이터 채우기로 조립되는 방법을 정의합니다. 유효한 패킷을 구성하기 위한 시그널링 프로토콜 등을 자세히 설명합니다.
링크 레이어: 데이터 패킷의 형식과 흐름 제어, 라우팅, 인코딩, 디코딩 등과 같은 패킷 작업의 프로토콜을 정의합니다.
네트워크 계층: 패킷에 40바이트 GRH(글로벌 라우트 헤더)를 추가하여 라우팅을 수행합니다. 라우터는 포워딩 중에 가변 CRC 검사만 수행하여 다음을 보장합니다."엔드투엔드 데이터 전송 무결성".
전송 계층: 패킷을 특정 큐 쌍(QP)으로 전달하고 QP에 패킷 처리 방법을 지시합니다. InfiniBand 네트워크 전송은 데이터 전송의 안정성과 효율성을 보장하기 위해 CBFC(Credit-Based Flow Control) 기술을 사용합니다. 이 메커니즘은 패킷 손실과 정체를 방지하기 위해 발신자와 수신자 간의 크레딧(수신자가 받아들일 수 있는 데이터 양을 나타냄)을 관리합니다.

QP(큐 쌍)는 RDMA 기술의 기본 통신 단위입니다. 한 쌍의 대기열, 즉 SQ(Send Queue)와 RQ(Receive Queue)로 구성됩니다. 사용자가 데이터를 보내거나 받기 위해 API를 호출하면 기본적으로 데이터를 QP에 넣습니다. 그런 다음 QP의 요청은 폴링 방식으로 하나씩 처리됩니다.
다음과 같은 장점이 있습니다."CBFC" 기술은 크게 세 가지로 요약할 수 있습니다:
1. 혼잡을 방지합니다: 동적 크레딧 조정과 무손실 전송을 통해 CBFC는 네트워크 혼잡과 패킷 손실을 효과적으로 방지합니다.
2. 효율성 향상: 발신자는 크레딧이 소진될 때까지 승인을 기다릴 필요 없이 지속적으로 데이터를 전송할 수 있어 데이터 전송 효율성이 향상됩니다.
3. 자동 구성: 흐름 제어 메커니즘은 InfiniBand 디바이스의 물리적 설치 시 자동으로 활성화되므로 수동 사용자 구성이 필요하지 않습니다.
분명히 알 수 있듯이 InfiniBand는 자체 레이어 1-4(물리적, 링크, 네트워크, 전송) 형식을 정의하여 완전한 네트워크 프로토콜을 구성합니다. 엔드투엔드 흐름 제어는 InfiniBand 네트워크 패킷을 송수신하는 기반이 되어 매우 효과적인 무손실 네트워크를 실현할 수 있게 해줍니다.
물론 인피니밴드의 고속 무손실 네트워크는 소켓 다이렉트, 적응형 라우팅, 서브넷 관리를 위한 서브넷 매니저(SM), 네트워크 파티셔닝, 네트워크 최적화를 위한 SHARP(확장 가능한 계층적 집계 및 감소 프로토콜) 엔진과 같은 기술과 기능에 의존합니다. 이러한 구성 요소가 결합되어 고성능, 짧은 지연 시간, 손쉬운 확장성을 제공합니다.