С быстрым развитием больших языковых моделей и технологий генеративного ИИ услуги по выводу данных ИИ становятся основным бизнесом облачных вычислений и центров обработки данных. В данной статье на примере проекта модернизации платформы искусственного интеллекта одного из интернет-предприятий демонстрируется практическое применение карты расширения LRSV9501-2E PCIe 5.0 Retimer в сценариях расширения хранилищ для серверов искусственного интеллекта, а также приводится пример для предприятий, сталкивающихся с аналогичными инфраструктурными проблемами.
Интернет-предприятие управляет платформами AI-помощника и интеллектуального обслуживания клиентов для пользователей C-end. В связи с быстрым ростом числа пользователей количество запросов на вывод ИИ на платформе увеличилось, что предъявляет повышенные требования к производительности и масштабируемости базовой инфраструктуры.
1. Узкое место в производительности системы хранения данных
Сервисы выводов ИИ требуют быстрой загрузки больших файлов моделей (объем одной модели может достигать десятков ГБ) и эффективного доступа к векторным базам данных во время выводов. В исходных серверах использовались твердотельные накопители PCIe 4.0 NVMe. Несмотря на отличную производительность, в сценариях с высокой скоростью обработки данных задержка доступа к хранилищу становилась узким местом системы, влияя на скорость отклика при проведении вычислений.
2. Недостаточная емкость хранилища
Платформе необходимо развернуть несколько различных версий моделей искусственного интеллекта для поддержки A/B-тестирования и "серых" релизов. В сочетании с векторными базами данных и данными журналов объем памяти, требуемый для одной машины, превышает 10 ТБ. Стандартные серверы 2U имеют ограниченное количество отсеков для дисков и не могут удовлетворить потребности в расширении емкости.
3. Ограничения пространства шасси
В качестве узлов вывода ИИ на предприятии используются стандартизированные стоечные серверы 2U, каждый из которых оснащен 4 графическими процессорами. Внутреннее пространство шасси уже занято графическими процессорами и блоками питания, остается только 1 слот расширения PCIe. Традиционные решения для расширения систем хранения данных неприменимы.
4. Проблемы целостности сигнала
Предприятие планирует разместить некоторые устройства хранения данных снаружи и подключить их с помощью кабелей, чтобы преодолеть ограничения пространства шасси. Однако сигналы PCIe 5.0 сильно затухают при высокоскоростной передаче, что требует решений по усилению сигнала для обеспечения стабильности соединения.
Разработка решений
По результатам технической оценки была выбрана модель LRSV9501-2E(Нажмите, чтобы купить) Двухпортовая карта расширения PCIe 5.0 x16 MCIO Retimer в качестве решения для расширения системы хранения данных. В сочетании с внешними объединительными платами расширения NVMe SSD и твердотельными накопителями PCIe 5.0 NVMe была создана высокопроизводительная и емкая архитектура хранения данных.
Основные моменты архитектуры системы:
LRSV9501-2E установлен в слот PCIe 5.0 x16 сервера, сконфигурирован в режиме раздвоения полос 4x4
Подключение к внешней объединительной плате расширения NVMe SSD с помощью двух кабелей MCIO 8i
Установленная объединительная плата расширителя с 8 твердотельными накопителями PCIe 5.0 NVMe (4 твердотельных накопителя на кабель MCIO)
Микросхема ретаймера обеспечивает целостность сигнала PCIe 5.0 при передаче на большие расстояния
При использовании режима раздвоения полос 4x4 16 полос PCIe 5.0 разделяются на четыре линии x4. Каждый канал x4 подключается к двум твердотельным накопителям NVMe (через коммутацию на объединительной панели), полностью используя пропускную способность PCIe. Преимущества такой конфигурации следующие:
Высокая плотность размещения устройств: Одна карта расширения поддерживает подключение 8 твердотельных накопителей NVMe, что значительно повышает плотность хранения данных
Сбалансированная производительность: Каждый твердотельный накопитель получает пропускную способность x4 PCIe 5.0 (около 16 ГБ/с), удовлетворяя требованиям высокой производительности
Гибкое расширение: Количество подключенных устройств может быть изменено в соответствии с потребностями без замены оборудования
Завершите развертывание оборудования в соответствии со следующими шагами:
Шаг 1: Выключите питание сервера, отсоедините кабели питания и примите антистатические меры.
Шаг 2: Откройте корпус и найдите свободный слот расширения PCIe 5.0 x16.
Шаг 3: Установите плату расширения LRSV9501-2E, выбрав кронштейны 2U или 3U в зависимости от высоты шасси.
Шаг 4: Установите внешнюю панель расширения NVMe SSD в стойку
Шаг 5: Подключите карту расширения к внешней объединительной панели с помощью кабелей MCIO 8i
Шаг 6: Установите 8 твердотельных накопителей PCIe 5.0 NVMe в объединительную панель
Шаг 7: Закройте шасси, подключите питание и включите питание для самотестирования
Войдите в интерфейс настройки BIOS сервера и настройте режим раздвоения полос слота PCIe на 4x4. После сохранения конфигурации и перезагрузки система распознает 8 независимых твердотельных накопителей NVMe.
Используйте инструмент fio для тестирования хранилища | производительность системы | Результаты следующие |
Последовательное чтение с одного диска | 12,8 ГБ/с | примерно 2-кратное улучшение |
Последовательная запись на один диск | 10,2 ГБ/с | примерно 2-кратное улучшение |
Последовательная запись на один диск | 48 ГБ/с | примерно 4-кратное улучшение |
4K IOPS при случайном чтении | 2,400K | примерно 3-кратное улучшение |
Эффекты и преимущества применения
После модернизации хранилища скорость загрузки файлов больших моделей ИИ значительно увеличилась. Если взять в качестве примера большую языковую модель с параметрами 70B, то время загрузки значительно увеличилось. Это значительно сократило время переключения моделей и перезапуска сервисов, повысив эффективность работы платформы.
Скорость запроса к базе данных векторов напрямую влияет на время отклика ИИ. Модернизированная система хранения данных позволила сократить задержку поиска векторов в среднем с 15 мс до 5 мс, что сократило время отклика на вывод примерно на 30 % и значительно улучшило качество работы пользователей.
Емкость хранилища для одного сервера значительно увеличилась, что позволило удовлетворить потребности в развертывании многоверсионных моделей и хранении больших данных. Конструкция внешней объединительной платы расширения также позволяет в будущем расширить систему.
Функция Retimer в LRSV9501-2E обеспечивает целостность сигнала PCIe 5.0 при передаче по кабелям MCIO. Мониторинг качества сигнала после внедрения показал снижение частоты битовых ошибок, что соответствует стандартам надежности корпоративного уровня.
Резюме и обмен опытом
Практическая ценность LRSV9501-2E в сценариях расширения серверных хранилищ AI была успешно проверена. Ниже приводится краткое описание ключевых примеров:
1. Полное использование пропускной способности PCIe 5.0
Повышение пропускной способности PCIe 5.0 открывает новые возможности для расширения систем хранения данных. Благодаря разумной конфигурации раздвоения дорожек к одной карте расширения можно подключить несколько высокопроизводительных SSD-накопителей, обеспечив линейное масштабирование производительности системы хранения данных.
2. Ретимер решает проблемы целостности сигнала
Самая большая проблема при расширении внешних накопителей - целостность сигнала. Встроенный в LRSV9501-2E чип Broadcom BCM85657 Retimer эффективно решает проблемы затухания сигнала PCIe 5.0, делая возможным внешнее подключение.
3. Удобство интерфейса MCIO
Решение для кабельного подключения MCIO позволяет преодолеть ограничения пространства шасси, благодаря чему расширение системы хранения больше не ограничивается внутренним пространством сервера.
4. Опыт развертывания по принципу Plug-and-Play
Как устройство, прозрачное для протокола, LRSV9501-2E не требует специализированных драйверов и подключается к системам CentOS и Ubuntu, что значительно сокращает цикл развертывания.
Основываясь на опыте реализации данного проекта, можно сказать, что LRSV9501-2E можно также применить к следующим аналогичным сценариям:
Платформы для обучения крупным моделям: Обеспечивают высокоскоростную загрузку данных для обучающих узлов на GPU, сокращая время предварительной обработки данных
Системы рекомендаций в реальном времени: Поддержка высокоскоростного поиска векторов признаков, повышение скорости реагирования рекомендательных сервисов
Услуги по обработке видео: Предоставление высокопроизводительных возможностей доступа к хранилищу для транскодирования и анализа видео
Кластеры для научных вычислений: Поддержка высокоскоростного чтения/записи больших массивов данных, ускорение задач моделирования и симуляции
Расширение памяти CXL: Подключите модули расширения памяти CXL, чтобы создать пулы памяти большой емкости для приложений с большим объемом памяти
Плата расширения LRSV9501-2E PCIe 5.0 Retimer представляет собой высокопроизводительное и надежное решение для расширения системы хранения данных для платформы ИИ-инференции интернет-компании. Благодаря высокоскоростной пропускной способности PCIe 5.0 и возможностям Retimer по усилению сигнала, предприятие добилось многократного повышения производительности системы хранения данных, преодолев при этом ограничения пространства шасси. Для предприятий, создающих или модернизирующих инфраструктуру ИИ, LRSV9501-2E представляет собой решение для высокоскоростного расширения сигналов, которое обеспечивает баланс между производительностью, масштабируемостью и надежностью. В условиях быстрого развития технологий PCIe 5.0 и CXL выбор решения расширения с возможностью регенерации сигналов позволит зарезервировать достаточно места для будущих технологических обновлений.