低成本运行超大模型，华硕 Ascent GX10双机和三机互联

你能想象吗？在自己的工作室里,运行一个2000多亿参数的大模型,这在以前简直是天方夜谭。但随着华硕基于英伟达GB10芯片的迷你个人超算正式上市,这个"疯狂"的想法变成了现实。这台被戏称为"大模型神器"的机器,单机就配备了128GB的共享内存,其中可以分出100多GB当作显存使用。更令人兴奋的是,它支持通过ConnectX-7端口进行高速串联。英伟达DGX官方给出了两台互联的教程,但我们这次直接挑战了三台机器的互联——这意味着全网无教程可循,所有的坑都要自己踩。评测机构：至顶AI实验室测评时间：2026年1月13日评测产品：华硕 Ascent GX10 主要参数：基于NVIDIA Blackwell GB10、统一内显存：128G、操作系统：DGX OS。评测主题：华硕 GX10三机互联华硕GX10：为大模型而生的个人超算华硕GX10是一款基于英伟达GB10芯片的迷你个人超算系统。其核心配置亮点在于： 128GB共享内存：可灵活分配100GB+作为显存 ConnectX-7高速互联端口：支持QSFP连接,实现多机高速串联统一内存池架构：多机互联后可形成更大的显存池完整的企业级生态：支持Docker容器、Ray集群管理等主流部署方案这样的配置,让原本只能在数据中心运行的超大规模模型,有了在个人工作室落地的可能。评测方案：从双机到三机的进阶之路双机互联：跟随官方脚本我们首先按照英伟达官方教程进行了双机互联测试。整个过程相对标准化：硬件连接：使用一根QSFP连接线将两台机器的ConnectX-7端口连接网络配置：为两台机器的端口分别配置IP地址、建立免密SSH连接、测试网络连通性软件部署：下载官方启动脚本、拉取vLLM的Docker镜像、配置Ray集群:一台作为头节点,另一台作为工作节点启动成功后,通过`ray status`命令确认:可用GPU数量为2,统一内存池达到200多GB。双机互联顺利完成。三机互联：无人区的探索三机互联才是真正的挑战。没有官方教程,没有成功案例,一切都要从零摸索。网络拓扑设计：采用环形串联方案使用三根QSFP连接线 A连接B,B连接C,C连接A,形成环路每台机器配置IP并设置路由转发全面测试三机间的网络连通性软件架构调整：选用v2.5.10版本的vLLM镜像(与双机不同) 抛弃官方脚本,重写启动脚本以适配三机场景一台头节点+两台工作节点的集群架构并行策略优化：双机采用张量并行(Tensor Parallel) 三机改用Pipeline并行,更适合多节点场景经过两周的反复调试,三机集群终于成功启动。`ray status`显示:3个可用GPU,统一内存池突破300GB。性能实测：不同模型的表现如何双机测试：140GB模型的挑战测试模型：Qwen2.5 72B(FP16精度) 显存需求：约140GB、加载时间：8分钟、GPU利用率：96% 性能指标： TTFT(首Token延迟)：1.39秒、TPS(生成速度)：2.75 tokens/秒 FP16的稠密模型表现中规中矩。我们换上了一个FP8精度的MoE稀疏模型进行测试。测试模型：GLM-4.5(106B参数,FP8精度) TPS：18.3 tokens/秒稀疏模型的表现明显更好,这也符合MoE架构的特性。三机测试：突破300GB显存测试模型：Qwen3.2 235B(FP8量化) 显存需求：约260GB 加载时间：9分多钟 GPU利用率：平均不到60% 性能指标：TTFT：1.71秒 TPS：8.0 tokens/秒在300GB显存的支持下,这个超大规模模型运行稳定,推理速度在可接受范围内。值得注意的是GPU利用率并不高,说明还有优化空间。技术难点与解决方案整个三机串联过程累计耗时两周,主要遇到了以下难题： 1.软件版本兼容性：不同版本的vLLM对多机支持程度不同,需要反复测试 2.子网配置：三机环形拓扑的路由转发配置复杂 3.Ray集群配置：官方脚本不适用,需要深度定制 4.并行策略选择：张量并行vs Pipeline并行的权衡特别要感谢云中助手的林海兵老师,在关键环节提供了多次指导,帮助我们突破了技术瓶颈。结论：个人超算时代真的来了通过这次深度评测,我们可以得出以下结论：可行性验证：华硕GX10确实可以通过多机串联运行超大规模模型,理论上可以扩展到4台、5台甚至10台以上成本优势明显：相比传统数据中心方案,这种"桌面超算"方案的成本降低了一个数量级性能表现可用：虽然比不上专业GPU集群,但对于研究、开发和小规模部署已经足够仍需技术门槛：网络配置、集群管理、并行优化都需要相当的技术积累应用前景广阔：AI研究实验室可以低成本搭建训练推理环境、中小企业可以部署私有大模型服务、技术爱好者可以在本地体验前沿AI能力。华硕 GB10的出现,让"大模型自由"不再是大厂的专利。虽然多机互联还有不少坑要踩,但这条路已经被证明是可行的。随着生态的完善和社区的贡献,相信这个门槛会越来越低。

The Cheapest 4TB DGX Spark Alternative… ASUS GX10

The Cheapest 4TB DGX Spark Alternative… ASUS GX10

為了跑 AI，我花 10 萬買了這台「發光鐵盒」... 實測結果太驚人了！✨

為了跑 AI，我花 10 萬買了這台「發光鐵盒」... 實測結果太驚人了！✨

用最好的动画为你讲解--HBM的原理

用最好的动画为你讲解--HBM的原理

据说算力高达1000 TOPS，华硕Ascent GX10深度评测——模型推理

据说算力高达1000 TOPS，华硕Ascent GX10深度评测——模型推理

多并发超低功耗本地部署：oMLX+Openclaw+macmini-测试及看法~

多并发超低功耗本地部署：oMLX+Openclaw+macmini-测试及看法~

Qwen3.6-35B-A3B: 第一个真正能干活的本地开源模型！3 台不同设备的本地部署实战！

Qwen3.6-35B-A3B: 第一个真正能干活的本地开源模型！3 台不同设备的本地部署实战！

GPU老家被偷？！万能芯片FPGA「碾压」GPU的三个独特优势

GPU老家被偷？！万能芯片FPGA「碾压」GPU的三个独特优势

God Says:"I JUST CONFIRMED — ONLY YOU CAN SEE THIS LETTER"/God Message Now/God Message

God Says:"I JUST CONFIRMED — ONLY YOU CAN SEE THIS LETTER"/God Message Now/God Message

GLM-5发布啦! 给大家带来实测! 国产大模型正式进入月更节奏!

GLM-5发布啦! 给大家带来实测! 国产大模型正式进入月更节奏!

DGX Spark/Mac Studio/铭凡 MS-S1 Max，谁才是个人超算的最优选?

DGX Spark/Mac Studio/铭凡 MS-S1 Max，谁才是个人超算的最优选?

NVIDIA didn't want me to do this

NVIDIA didn't want me to do this

本地跑AI大模型，ComfyUI画图，视频，显存多少够用？16G，24G，32G，48G体验区别。3090和7900XTX舒适体验入场卷，3080 20G，4090 48G魔改卡有什么意义？

本地跑AI大模型，ComfyUI画图，视频，显存多少够用？16G，24G，32G，48G体验区别。3090和7900XTX舒适体验入场卷，3080 20G，4090 48G魔改卡有什么意义？

Qwen3.6 27B,多种优化方式，从20t/s飙到184t/s,我是怎么做到的？

Qwen3.6 27B,多种优化方式，从20t/s飙到184t/s,我是怎么做到的？

NEW 2026: ComfyUI + LoRA + local LLMs | ASUS ASCENT GX10 128GB | Deutsch

NEW 2026: ComfyUI + LoRA + local LLMs | ASUS ASCENT GX10 128GB | Deutsch

万元搞定大模型，Token刺客再见！这台96G“显存”的主机，让我的AI助理24小时免费待命！

万元搞定大模型，Token刺客再见！这台96G“显存”的主机，让我的AI助理24小时免费待命！

拆解光模块五大封装架构，短期、中期、长期趋势全梳理

拆解光模块五大封装架构，短期、中期、长期趋势全梳理

The ASUS Ascent GX10 Supercomputer: A Game Changer for AI?

The ASUS Ascent GX10 Supercomputer: A Game Changer for AI?

John Carmack Was Right. The Internet Was Wrong.

John Carmack Was Right. The Internet Was Wrong.

本地部署AI小模型真的没有意义？我为什么如此上头AI~

本地部署AI小模型真的没有意义？我为什么如此上头AI~

仅花100美元买张 nVidia CMP 90HX 矿卡跑AI大模型，结果您猜怎么着？

仅花100美元买张 nVidia CMP 90HX 矿卡跑AI大模型，结果您猜怎么着？