FuriosaAI và RNGD: Kỷ Nguyên Mới Của Máy Chủ AI Siêu Hiệu Quả, Thách Thức Sự Thống Trị Năng Lượng Của Nvidia H100

Sự bùng nổ của Trí tuệ Nhân tạo tạo sinh (Generative AI) đã tạo ra một “cơn khát vàng” mới trong ngành công nghệ, nhưng đi kèm với nó là một “cơn khát năng lượng” chưa từng có. Trong bối cảnh đó, FuriosaAI, một startup công nghệ bán dẫn từ Hàn Quốc, đang nổi lên như một nhân tố thay đổi cuộc chơi. Với máy chủ NXT RNGD Server và chip RNGD (Renegade), công ty này không chỉ tuyên bố đạt hiệu năng ngang ngửa GPU H100 hàng đầu của Nvidia mà còn làm được điều đó với mức tiêu thụ điện năng chỉ bằng một phần ba. Đây không chỉ là một bước tiến về kỹ thuật mà còn là lời giải cho bài toán Tổng Chi phí Sở hữu (TCO) và tính bền vững của cơ sở hạ tầng AI toàn cầu.
I. Cơn Khát Năng Lượng: Lực Cản Lớn Nhất Của Kỷ Nguyên AI
Trong vòng hai năm trở lại đây, sự phát triển vũ bão của các Mô hình Ngôn ngữ Lớn (LLM) như GPT-4, Llama 3 hay Exaone đã đẩy nhu cầu về sức mạnh tính toán lên mức cao nhất trong lịch sử. Tuy nhiên, việc vận hành và đào tạo các mô hình này chủ yếu dựa vào các GPU hiệu năng cao của Nvidia, đặc biệt là dòng H100. Sức mạnh vượt trội của H100 đi kèm với một nhược điểm chí mạng: mức tiêu thụ năng lượng khổng lồ.
Một card GPU Nvidia H100 SXM có thể tiêu thụ tới 700W điện. Một hệ thống máy chủ DGX H100 tiêu chuẩn (thường bao gồm 8 card H100 cùng với các thành phần khác) có thể dễ dàng vượt mốc 10 kilowatt (kW) khi hoạt động hết công suất.
Thực tế này đặt ra một rào cản lớn đối với các doanh nghiệp và các nhà cung cấp dịch vụ đám mây (Cloud Service Providers):
- Hạn chế Về Điện Năng và Làm Mát: Hầu hết các trung tâm dữ liệu hiện đại, được xây dựng trước thời kỳ AI tạo sinh, thường có giới hạn điện năng khoảng 8 kW hoặc 15 kW trên mỗi rack (giá đỡ máy chủ). Với công suất hơn 10 kW cho một máy chủ DGX H100, các trung tâm dữ liệu chỉ có thể lắp được một hoặc tối đa một máy rưỡi DGX H100 trên mỗi rack, dẫn đến việc lãng phí không gian và cản trở việc mở rộng quy mô nhanh chóng.
- Chi phí Vận hành Khổng lồ: Chi phí làm mát và chi phí điện năng cho một trung tâm dữ liệu tập trung vào AI có thể vượt qua cả chi phí mua sắm phần cứng ban đầu trong vòng vài năm.
Đây chính là cơ hội mà FuriosaAI, dưới sự hậu thuẫn của tập đoàn LG, nắm bắt để giới thiệu giải pháp được thiết kế lại từ đầu cho hiệu quả năng lượng: Máy chủ NXT RNGD.
II. Chi Tiết Về “Kẻ Nổi Loạn” RNGD (Renegade)
Máy chủ NXT RNGD của FuriosaAI được định vị không phải để cạnh tranh với Nvidia trong lĩnh vực đào tạo (training) mô hình, mà là ở lĩnh vực suy luận (inference) – giai đoạn mà các mô hình được sử dụng thực tế để trả lời người dùng, chiếm phần lớn khối lượng công việc và chi phí vận hành AI.
1. Hiệu Năng và Lợi Thế Năng Lượng
Thông số kỹ thuật của NXT RNGD Server đã tạo ra một làn sóng chấn động trong ngành công nghiệp chip AI:
Chỉ số | FuriosaAI NXT RNGD Server | Nvidia DGX H100 (Hệ thống tham chiếu) | Kết quả |
Sức mạnh Tính toán | 4 PetaFLOPs (cho suy luận) | Tương đương (cho suy luận LLM) | Hiệu năng tương đương |
Bộ nhớ (HBM3) | 384 GB (8 card RNGD) | 640 GB (8 card H100) | Bộ nhớ lớn |
Điện năng Tiêu thụ | 3 kW | >10 kW | Tiết kiệm điện >70% |
Mật độ Rack (15kW) | 5 máy chủ | 1 máy chủ | Mật độ gấp 5 lần |
Hiệu suất/Watt | Cao hơn gấp 2.25 lần so với GPU truyền thống (theo LG) | Tiêu chuẩn thị trường | Đột phá về chi phí vận hành |
Xuất sang Trang tính
Ý nghĩa Thực tiễn cho Trung tâm Dữ liệu:
Đối với các trung tâm dữ liệu có giới hạn 15 kW mỗi rack, việc có thể lắp 5 máy chủ RNGD thay vì chỉ một DGX H100 đồng nghĩa với việc tối đa hóa không gian và giảm đáng kể nhu cầu đầu tư vào hệ thống làm mát phức tạp. Điều này giúp các doanh nghiệp mở rộng quy mô triển khai AI một cách linh hoạt mà không cần phải chi hàng triệu USD để nâng cấp cơ sở hạ tầng điện và làm mát hiện có.
2. Kiến Trúc Chip Đặc Thù
Lợi thế của RNGD không đến từ việc sao chép kiến trúc GPU, mà từ việc thiết kế lại chip từ con số 0, chuyên biệt hóa cho tác vụ suy luận LLM:
- Chip RNGD (Renegade): Đây là bộ tăng tốc AI thế hệ thứ hai của FuriosaAI. Chip này được chế tạo trên tiến trình tiên tiến và có diện tích đế lớn 653mm² với 40 tỷ bóng bán dẫn.
- Công nghệ Đóng gói: RNGD sử dụng công nghệ đóng gói CoWoS® (Chip-on-Wafer-on-Substrate) hàng đầu của TSMC, tích hợp bộ nhớ HBM3 để cung cấp băng thông cực cao, một yếu tố then chốt trong việc xử lý LLM. Sự hợp tác với GUC (Global Unichip Corporation), một đối tác thiết kế ASIC lớn, đã giúp FuriosaAI đạt được tiến độ phát triển nhanh chóng và đảm bảo chất lượng chip.
- Kiến trúc Bộ xử lý Hợp đồng Tensor (Tensor Contraction Processor – TCP): Không giống GPU tập trung vào ma trận lớn, kiến trúc của RNGD được tối ưu hóa cho “Tensor Contraction” (phép toán tensor), giúp xử lý các phép tính LLM như ma trận nhân ma trận (matrix multiplication) với hiệu suất và hiệu quả năng lượng cao nhất. TDP của một card RNGD được công bố là 150W, một con số cực kỳ thấp so với các đối thủ cùng phân khúc hiệu năng.
III. FuriosaAI: Từ Kỹ Sư Samsung Đến Kỳ Lân AI
Để hiểu được bước đột phá của RNGD, cần nhìn lại chặng đường và tầm nhìn của công ty mẹ.
1. Nền Tảng và Tầm Nhìn Chiến Lược
FuriosaAI được thành lập vào năm 2017 bởi CEO June Paik (Baek Jun-ho), một kỹ sư với hơn 20 năm kinh nghiệm trong lĩnh vực phần cứng và phần mềm, từng làm việc tại Samsung Electronics và AMD. Kinh nghiệm sâu rộng của ông trong thiết kế CPU, GPU và hệ thống bộ nhớ đã đặt nền móng cho triết lý thiết kế của FuriosaAI: tạo ra một giải pháp phần cứng-phần mềm tích hợp, hiệu quả nhất cho khối lượng công việc AI.
Sản phẩm đầu tiên của công ty là chip Warboy (thế hệ 1), tập trung vào các ứng dụng thị giác máy tính (computer vision) và AI biên (edge AI), đã thiết lập được uy tín về hiệu suất trong các bài kiểm tra ngành như MLPerf.
Thương vụ Từ chối Meta:
Năm 2024, FuriosaAI đã tạo nên một tin tức lớn khi tiết lộ họ từng từ chối lời đề nghị mua lại lên đến 800 triệu USD từ gã khổng lồ công nghệ Meta (trước đây là Facebook). Hành động này thể hiện sự tự tin tuyệt đối của đội ngũ lãnh đạo vào tiềm năng độc lập và khả năng định hình lại thị trường chip AI của họ.
2. Thành Tựu Tài Chính và Vai Trò “Kỳ Lân”
Giữa năm 2025, FuriosaAI đã chứng minh sự trưởng thành về mặt thị trường bằng việc hoàn thành vòng gọi vốn Series C bridge trị giá khoảng 125 triệu USD (tương đương 170 tỷ KRW). Vòng gọi vốn này, với sự tham gia của các tổ chức lớn như Ngân hàng Phát triển Hàn Quốc (KDB), Ngân hàng Công nghiệp Hàn Quốc (IBK) và các quỹ đầu tư tư nhân (PE) như Keystone Partners, đã nâng tổng số vốn huy động được của công ty lên tới 246 triệu USD.
Quan trọng hơn, vòng vốn này đã giúp FuriosaAI đạt mức định giá vượt 1 nghìn tỷ KRW (khoảng $735 triệu – $770 triệu USD), chính thức đưa startup này vào hàng ngũ Kỳ lân công nghệ (Unicorn) tại Hàn Quốc. Sự tham gia của các quỹ PE, vốn thường tránh các startup công nghệ sâu (deep tech) giai đoạn đầu, là bằng chứng rõ ràng cho thấy thị trường đã công nhận FuriosaAI không chỉ là một công ty nghiên cứu mà là một nhà cung cấp cơ sở hạ tầng AI sẵn sàng mở rộng quy mô.
IV. Hệ Sinh Thái Phần Mềm và Hợp Tác Doanh Nghiệp
Phần cứng mạnh mẽ chỉ là một nửa của phương trình AI; phần mềm mới là yếu tố quyết định sự chấp nhận của thị trường. FuriosaAI hiểu rõ điều này và đã đầu tư mạnh mẽ vào việc xây dựng một hệ sinh thái phần mềm mạnh mẽ, dễ lập trình.
1. Sự Hợp Tác Với LG AI Research và Exaone
Mối quan hệ đối tác với LG AI Research, cánh tay nghiên cứu AI của tập đoàn LG, là cột mốc quan trọng nhất. LG đã áp dụng phần cứng RNGD để vận hành mô hình ngôn ngữ lớn EXAONE của mình. Kết quả thử nghiệm đã xác nhận tuyên bố về hiệu quả năng lượng của FuriosaAI:
- LG cho biết họ đã đạt được hiệu suất suy luận trên mỗi watt cao hơn gấp 2.25 lần so với việc sử dụng các GPU truyền thống.
- Điều này cho phép LG chạy các mô hình lớn như EXAONE với chi phí vận hành thấp hơn đáng kể, củng cố vị thế của RNGD như một lựa chọn tối ưu cho các ứng dụng AI quy mô doanh nghiệp.
2. Khả Năng Tương Thích và Hiệu Năng Mô Hình Lớn
FuriosaAI đã tập trung vào khả năng tương thích với các tiêu chuẩn ngành, đặc biệt là với API của OpenAI, đảm bảo các doanh nghiệp có thể dễ dàng chuyển đổi hoặc mở rộng hệ thống AI hiện có sang nền tảng RNGD.
Các cập nhật về SDK (Bộ công cụ phát triển phần mềm) của FuriosaAI đã bổ sung các tính năng quan trọng để tối ưu hóa việc suy luận LLM:
- Hỗ trợ Mô hình Đa dạng: SDK mới nhất (v2024.3.0) đã mở rộng hỗ trợ cho các mô hình ngôn ngữ lớn như Llama 3.1 (phiên bản 8B và 70B), Qwen, Solar, và CodeLLaMA2.
- Tối ưu hóa LLM: SDK tích hợp các kỹ thuật tiên tiến như PagedAttention và Block KV Cache để quản lý bộ nhớ đệm hiệu quả hơn, cùng với Continuous Batching để xử lý hàng đợi truy vấn liên tục, giảm độ trễ và tăng thông lượng.
- Thông lượng Mục tiêu: Với chỉ hai card RNGD, mô hình Llama 3.1-70B có thể được thực thi hiệu quả. Công ty đặt mục tiêu đạt thông lượng lên tới 8.000 Tokens mỗi giây (TPS) trên một máy chủ NXT RNGD được trang bị 8 card RNGD, một con số ấn tượng cho suy luận thời gian thực.
V. Tương Lai Bền Vững và Lộ Trình Thương Mại
FuriosaAI đang chuyển từ giai đoạn phát triển và lấy mẫu sang giai đoạn sản xuất và thương mại hóa.
Cập nhật Khả dụng:
Hiện tại, máy chủ NXT RNGD đang được các khách hàng doanh nghiệp và các đối tác lớn thử nghiệm (Early Access Program – EAP) trong môi trường sản xuất thực tế. Dựa trên những thành tựu kỹ thuật và sự hợp tác với TSMC, công ty đã đẩy nhanh lộ trình: sản xuất hàng loạt và sẵn sàng cho thị trường toàn cầu trong năm 2025, sớm hơn so với dự kiến ban đầu là đầu năm 2026.
CEO June Paik khẳng định RNGD là lời giải cho một mô hình kinh doanh AI “bị phá vỡ” (broken business model), nơi chi phí cơ sở hạ tầng và năng lượng của GPU đang trở thành rào cản nghiêm trọng. Cam kết của FuriosaAI là cung cấp giải pháp AI không chỉ bền vững về môi trường mà còn bền vững về kinh tế (giảm TCO).
Tầm nhìn Thế hệ Thứ Ba:
Ngay cả khi RNGD thế hệ thứ hai sắp được thương mại hóa, FuriosaAI đã sử dụng nguồn vốn mới để bắt đầu phát triển kiến trúc chip thế hệ thứ ba. Điều này cho thấy công ty không ngừng nghỉ trong cuộc đua công nghệ, nơi chu kỳ đổi mới chip là cực kỳ nhanh chóng.
Kết Luận
FuriosaAI không chỉ là một startup bán dẫn khác; họ là một ví dụ điển hình về đổi mới công nghệ sâu (deep tech) đang giải quyết một trong những thách thức cấp bách nhất của ngành công nghiệp AI: năng lượng.
Trong khi Nvidia DGX H100 vẫn là “vua” trong lĩnh vực đào tạo mô hình, thì RNGD Server đang tự định vị là người dẫn đầu không thể tranh cãi trong phân khúc suy luận AI siêu hiệu quả. Với hiệu suất tương đương nhưng mức tiêu thụ điện năng giảm đến 70%, và với sự hỗ trợ mạnh mẽ từ các đối tác lớn như LG, FuriosaAI đang trên đà thay đổi triệt để kinh tế học của việc triển khai AI trên quy mô lớn. Startup “kỳ lân” Hàn Quốc này đang dũng cảm đối đầu với sự thống trị của GPU truyền thống, mở ra một kỷ nguyên mới cho cơ sở hạ tầng AI tiết kiệm chi phí và bền vững hơn.