Với sự phát triển nhanh chóng của các mô hình ngôn ngữ quy mô lớn và công nghệ trí tuệ nhân tạo tạo sinh, các dịch vụ suy luận AI đang trở thành lĩnh vực kinh doanh cốt lõi của điện toán đám mây và trung tâm dữ liệu. Bài viết này lấy dự án nâng cấp nền tảng suy luận AI của một doanh nghiệp Internet làm ví dụ để minh họa ứng dụng thực tiễn của thẻ mở rộng Retimer PCIe 5.0 LRSV9501-2E trong các kịch bản mở rộng lưu trữ máy chủ AI, từ đó cung cấp tài liệu tham khảo cho các doanh nghiệp đang đối mặt với những thách thức tương tự về hạ tầng.
Một doanh nghiệp công nghệ Internet đang vận hành các nền tảng trợ lý AI và dịch vụ chăm sóc khách hàng thông minh dành cho người dùng cuối. Với sự gia tăng nhanh chóng về số lượng người dùng, số lượng yêu cầu suy luận AI trên nền tảng này đã tăng vọt, đặt ra những yêu cầu cao hơn về hiệu năng và khả năng mở rộng của hạ tầng cơ sở.
1. Tình trạng tắc nghẽn hiệu suất lưu trữ
Các dịch vụ suy luận AI đòi hỏi phải tải nhanh các tệp mô hình có dung lượng lớn (một mô hình duy nhất có thể lên tới hàng chục GB) và truy cập hiệu quả vào cơ sở dữ liệu vectơ trong quá trình suy luận. Các máy chủ ban đầu sử dụng ổ SSD NVMe PCIe 4.0. Mặc dù hiệu suất đã rất xuất sắc, nhưng trong các tình huống có độ đồng thời cao, độ trễ truy cập bộ nhớ đã trở thành điểm nghẽn của hệ thống, ảnh hưởng đến tốc độ phản hồi của quá trình suy luận.
2. Dung lượng lưu trữ không đủ
Nền tảng này cần triển khai nhiều phiên bản khác nhau của các mô hình AI để hỗ trợ thử nghiệm A/B và phát hành theo từng đợt. Khi kết hợp với cơ sở dữ liệu vectơ và dữ liệu nhật ký, dung lượng lưu trữ yêu cầu cho một máy chủ vượt quá 10TB. Các máy chủ 2U tiêu chuẩn có số khe cắm ổ đĩa hạn chế và không thể đáp ứng nhu cầu mở rộng dung lượng.
3. Hạn chế về không gian khung gầm
Doanh nghiệp sử dụng các máy chủ dạng rack 2U tiêu chuẩn làm các nút suy luận AI, mỗi máy được trang bị 4 GPU. Không gian bên trong khung máy đã được chiếm dụng bởi các GPU và bộ nguồn, chỉ còn lại 1 khe cắm mở rộng PCIe. Các giải pháp mở rộng lưu trữ truyền thống không thể áp dụng trong trường hợp này.
4. Các vấn đề về tính toàn vẹn tín hiệu
Doanh nghiệp có kế hoạch đặt một số thiết bị lưu trữ bên ngoài và kết nối chúng qua cáp để khắc phục hạn chế về không gian bên trong thùng máy. Tuy nhiên, tín hiệu PCIe 5.0 bị suy giảm nghiêm trọng trong quá trình truyền tải tốc độ cao, do đó cần có các giải pháp tăng cường tín hiệu để đảm bảo sự ổn định của kết nối.
Thiết kế giải pháp
Kết quả đánh giá kỹ thuật đã chọn model LRSV9501-2E(Nhấp vào để mua) Thẻ mở rộng Retimer MCIO hai cổng PCIe 5.0 x16 được sử dụng làm giải pháp mở rộng bộ nhớ. Kết hợp với các bảng mạch mở rộng SSD NVMe ngoài và các ổ SSD NVMe PCIe 5.0, một kiến trúc bộ nhớ có hiệu suất cao và dung lượng lớn đã được xây dựng.
Những điểm nổi bật về kiến trúc hệ thống:
LRSV9501-2E được lắp vào khe cắm PCIe 5.0 x16 của máy chủ, được cấu hình ở chế độ phân chia làn 4x4
Kết nối với bảng mở rộng SSD NVMe bên ngoài thông qua hai cáp MCIO 8i
Bảng mạch mở rộng được lắp đặt với 8 ổ SSD NVMe PCIe 5.0 (4 ổ SSD trên mỗi cáp MCIO)
Chip Retimer đảm bảo tính toàn vẹn tín hiệu PCIe 5.0 trong quá trình truyền dẫn đường dài
Sử dụng chế độ phân chia làn 4x4, 16 làn PCIe 5.0 được chia thành bốn liên kết x4. Mỗi liên kết x4 kết nối với hai ổ SSD NVMe (thông qua bộ chuyển mạch backplane), giúp tận dụng tối đa băng thông PCIe. Những ưu điểm của cấu hình này là:
Mật độ thiết bị cao: Một thẻ mở rộng duy nhất hỗ trợ kết nối 8 ổ SSD NVMe, giúp cải thiện đáng kể mật độ lưu trữ
Hiệu năng cân bằng: Mỗi ổ SSD được trang bị băng thông PCIe 5.0 x4 (khoảng 16 GB/s), đáp ứng các yêu cầu về hiệu năng cao
Khả năng mở rộng linh hoạt: Số lượng thiết bị kết nối có thể được điều chỉnh theo nhu cầu mà không cần thay thế phần cứng
Tiến hành triển khai phần cứng theo các bước sau:
Bước 1: Tắt nguồn máy chủ, ngắt kết nối các dây nguồn và thực hiện các biện pháp phòng ngừa tĩnh điện
Bước 2: Mở vỏ máy và tìm khe cắm mở rộng PCIe 5.0 x16
Bước 3: Lắp đặt thẻ mở rộng LRSV9501-2E, chọn giá đỡ 2U hoặc 3U tùy theo chiều cao của khung máy
Bước 4: Lắp đặt bảng mở rộng SSD NVMe ngoài vào giá đỡ
Bước 5: Kết nối thẻ mở rộng với bảng mạch nối ngoài bằng cáp MCIO 8i
Bước 6: Lắp đặt 8 ổ SSD NVMe PCIe 5.0 vào bảng mạch nối
Bước 7: Đóng nắp thùng máy, kết nối nguồn điện và bật nguồn để thực hiện kiểm tra tự động
Vào giao diện cài đặt BIOS của máy chủ và thiết lập chế độ phân chia làn khe cắm PCIe thành 4x4. Sau khi lưu cấu hình và khởi động lại, hệ thống sẽ nhận diện được 8 ổ SSD NVMe độc lập.
Sử dụng công cụ fio để kiểm tra bộ nhớ | hiệu suất hệ thống | Kết quả như sau |
Đọc tuần tự trên một ổ đĩa | 12,8 GB/giây | tăng khoảng gấp đôi |
Ghi tuần tự trên một ổ đĩa | 10,2 GB/giây | tăng khoảng gấp đôi |
Ghi tuần tự trên một ổ đĩa | 48 GB/giây | tăng khoảng 4 lần |
Tốc độ đọc ngẫu nhiên 4K (IOPS) | 2.400.000 | tăng khoảng 3 lần |
Tác dụng và lợi ích của ứng dụng
Sau khi nâng cấp hệ thống lưu trữ, tốc độ tải các tệp mô hình AI quy mô lớn đã được cải thiện đáng kể. Lấy ví dụ về một mô hình ngôn ngữ quy mô lớn có 70 tỷ tham số, thời gian tải đã được rút ngắn đáng kể. Điều này đã giúp giảm đáng kể thời gian chuyển đổi mô hình và khởi động lại dịch vụ, từ đó nâng cao hiệu quả vận hành của nền tảng.
Tốc độ truy vấn cơ sở dữ liệu vectơ ảnh hưởng trực tiếp đến thời gian phản hồi của quá trình suy luận AI. Hệ thống lưu trữ được nâng cấp đã giảm độ trễ truy xuất vectơ từ mức trung bình 15 ms xuống còn 5 ms, giúp rút ngắn thời gian phản hồi suy luận từ đầu đến cuối khoảng 30%, từ đó cải thiện đáng kể trải nghiệm người dùng.
Dung lượng lưu trữ trên mỗi máy chủ đã tăng đáng kể, đáp ứng nhu cầu triển khai mô hình đa phiên bản và lưu trữ dữ liệu lớn. Thiết kế bảng mạch mở rộng bên ngoài cũng tạo điều kiện cho việc mở rộng thêm trong tương lai.
Chức năng Retimer của LRSV9501-2E đảm bảo tính toàn vẹn tín hiệu PCIe 5.0 khi truyền qua cáp MCIO. Kết quả giám sát chất lượng tín hiệu sau khi triển khai cho thấy tỷ lệ lỗi bit đã giảm, đáp ứng các tiêu chuẩn độ tin cậy cấp doanh nghiệp.
Tổng kết và chia sẻ kinh nghiệm
Giá trị thực tiễn của LRSV9501-2E trong các tình huống mở rộng dung lượng lưu trữ cho máy chủ AI đã được xác nhận thành công. Dưới đây là tóm tắt những kinh nghiệm chính:
1. Tận dụng tối đa băng thông PCIe 5.0
Sự cải thiện băng thông của PCIe 5.0 mở ra những khả năng mới cho việc mở rộng dung lượng lưu trữ. Thông qua cấu hình phân chia làn hợp lý, một thẻ mở rộng duy nhất có thể kết nối nhiều ổ SSD hiệu suất cao, giúp đạt được khả năng mở rộng hiệu suất lưu trữ theo tỷ lệ tuyến tính.
2. Retimer giải quyết các vấn đề về tính toàn vẹn tín hiệu
Thách thức lớn nhất khi mở rộng bộ nhớ ngoài là vấn đề về tính toàn vẹn tín hiệu. Con chip Retimer Broadcom BCM85657 được tích hợp sẵn trong LRSV9501-2E giúp giải quyết hiệu quả các vấn đề suy giảm tín hiệu PCIe 5.0, từ đó cho phép thực hiện các kết nối bên ngoài.
3. Tính tiện lợi của giao diện MCIO
Giải pháp kết nối cáp MCIO đã khắc phục được hạn chế về không gian trong khung máy, giúp việc mở rộng dung lượng lưu trữ không còn bị giới hạn bởi không gian bên trong máy chủ.
4. Trải nghiệm triển khai Plug-and-Play
Với tư cách là một thiết bị hỗ trợ giao thức trong suốt, LRSV9501-2E không yêu cầu trình điều khiển chuyên dụng và hỗ trợ tính năng cắm và chạy trên cả hệ điều hành CentOS và Ubuntu, giúp rút ngắn đáng kể thời gian triển khai.
Dựa trên kinh nghiệm triển khai dự án này, LRSV9501-2E cũng có thể áp dụng cho các tình huống tương tự sau đây:
Nền tảng huấn luyện mô hình quy mô lớn: Cung cấp khả năng nạp dữ liệu tốc độ cao cho các nút huấn luyện GPU, giúp rút ngắn thời gian tiền xử lý dữ liệu
Hệ thống đề xuất thời gian thực: Hỗ trợ truy xuất vectơ đặc trưng với độ đồng thời cao, giúp cải thiện tốc độ phản hồi của dịch vụ đề xuất
Dịch vụ xử lý video: Cung cấp khả năng truy cập lưu trữ với thông lượng cao cho việc chuyển mã và phân tích video
Các cụm máy tính khoa học: Hỗ trợ đọc/ghi dữ liệu quy mô lớn với tốc độ cao, giúp đẩy nhanh các tác vụ mô phỏng và mô hình hóa
Mở rộng bộ nhớ CXL: Kết nối các mô-đun mở rộng bộ nhớ CXL để cung cấp các khối bộ nhớ dung lượng lớn cho các ứng dụng đòi hỏi nhiều bộ nhớ
Thẻ mở rộng Retimer PCIe 5.0 LRSV9501-2E cung cấp giải pháp mở rộng lưu trữ hiệu suất cao, độ tin cậy cao cho nền tảng suy luận AI của doanh nghiệp Internet. Nhờ băng thông tốc độ cao của PCIe 5.0 và khả năng tăng cường tín hiệu của Retimer, doanh nghiệp đã đạt được sự cải thiện hiệu suất lưu trữ gấp nhiều lần đồng thời vượt qua những hạn chế về không gian trong thùng máy. Đối với các doanh nghiệp đang xây dựng hoặc nâng cấp hạ tầng AI, LRSV9501-2E cung cấp giải pháp mở rộng tín hiệu tốc độ cao cân bằng giữa hiệu suất, khả năng mở rộng và độ tin cậy. Trong bối cảnh công nghệ PCIe 5.0 và CXL đang phát triển nhanh chóng hiện nay, việc lựa chọn giải pháp mở rộng có khả năng tái tạo tín hiệu sẽ đảm bảo đủ không gian cho các bản nâng cấp công nghệ trong tương lai.