能养龙虾的工作站CPU和GPU，需要具备哪些能力？

2026-05-04 19:55 来源：电子工程专辑芯片新品 18 次阅读

摘要：[ ](https://mp.weixin.qq.com/s?__biz=MzIxMDE0NTM0Nw==&mid=2649358184&idx=3&sn=83907863a30de303c57f3c565305c6bb&scene=21#wechat_redirect) 因为有AI的加成，强调AI能力的工作站出货量今年预计会增长65.2%(数据来源：IDC)。恰好

[

](https://mp.weixin.qq.com/s?__biz=MzIxMDE0NTM0Nw==&mid=2649358184&idx=3&sn=83907863a30de303c57f3c565305c6bb&scene=21#wechat_redirect)

因为有AI的加成，强调AI能力的工作站出货量今年预计会增长65.2%(数据来源：IDC)。恰好，最近Intel面向工作站和边缘服务器发布了至强600处理器和Arc(锐炫)Pro B70显卡。

和以往的工作站处理器发布会相比，今年的至强600和Arc Pro B70发布会AI浓度全面拉满：从头到尾都是AI...那么在AI尤其是智能体AI大火的当下，面向工作站的CPU和GPU，与过去会有什么不同?至强600和Arc Pro B70的诸多AI特性，或许能提供个参考…

强调智能体AI的工作站CPU，长这样…

目前Intel官网可以查到的至强600系列处理器，从12核、48MB L3 cache的至强634，到86核、336MB L3 cache的至强698X总共11个型号(如下图)。至强600和面向服务器的至强6的P-core版一样，同属Granite Rapids家族，所用CPU核心为Redwood Cove;

用于作为至强w-2500/w-3500系列(Sapphire Rapids)的迭代款，直接竞对应该是隔壁的Ryzen Threadripper Pro 9000系列。

了解至强6的读者对于这代芯片的系统架构应该不会陌生：和P-core版至强6700系列的最高配一样，芯片封装内总共2片采用Intel 3工艺的计算die(实际上应该是compute tile叠在有源base tile之上)，通过EMIB硅桥连接;

计算die的旁边还有两片基于Intel 7工艺的IO die。电子工程专辑此前介绍至强6的文章对此已经有了比较详细的介绍——2.5D/3D封装也是至强6/6+能堆出明显更大L3 cache的技术支撑之一。

Intel在媒体活动上强调了至强600的几个关键特性：(1)最多86个P-core;(2)128个PCIe 5.0通道，支持最多8个PCIe 5.0 x16扩展;(3)支持CXL 2.0，可扩展CXL内存池;(4)内存方面对MRDIMM DDR5 8000做出支持;(5)RAS能力强化平台稳定性(“4大类别，48项RAS功能，包括会上特别强调的ADDDC相比传统ECC可以做到"double device"纠错)，及借助Intel OpenBMC实现了更自动化的运维;

(6)搭配W890芯片组，可扩展Wi-Fi 7/6E, 1/2.5GbE LAN, USB 3.2 20G, SATA 3.0, PCIe 4.0, eSPI, SPI, SMBus, 高清音频等扩展...(7)型号尾缀带X的产品(至强698X/678X等)还支持超频，用以满足“对时延非常敏感的任务要求”，“如高频量化交易”。

按照惯例此处列出其中最高端型号至强698X与其上代(至强w9-3595X)的规格对比：

Intel给出的性能提升数据为，至强698X相比至强w9-3595X单线程性能提升9%，多线程性能提升61%;以及“更快的线性代数计算性能”(↑24%)，“更快的大数据集分析(↑18%)”。

至强600系列和AI加速挂钩的部分自然是重点。首先是核心层面的AMX与AVX512指令集加速，配合OpenVINO与oneAPI工具套件，“可以实现CPU对AI的直接推理加速”;以及支持8张PCIe 5.0 x16 GPU，令至强600平台成为目前“AI工作站的最佳选择”;

其次是对MRDIMM内存的支持——MRDIMM(Multiplexed Rank DIMM)支持对2个rank同时操作，因此单次传输也就能给CPU喂128B的内存数据，是传统DDR5 DIMM的2倍。

高宇(英特尔中国区技术部总经理)解释说，MRDIMM模组藉由内置的data buffer支持同时激活两个rank，传输吞吐提升2倍，内存加载延迟降低40%;是AI等类型负载“突破内存墙非常有利的手段”，也令至强600平台+MRDIMM“更加适合AI大模型推理、高性能计算、大数据分析等场景”。

另外对CXL 2.0技术的支持——“至强600第一次将这项技术带到工作站平台”，尤其新增Type 3设备即内存扩展的支持，得以让平台支持“直接在PCIe槽上插入内存扩展卡来扩展内存容量，在AI工作站上可作为KV cache的高速缓存加速AI推理”。

系统性能方面，王巍巍(英特尔中国区AI技术方案总监)给出了几组数据：SPECworkstation 4.0基准测试(但活动上没提具体搭配了什么显卡)，至强698X相比至强w9-3595X，AI与机器学习性能提升17%，能源性能提升22%，金融服务性能提升61%，生命科学性能提升19%，媒体和娱乐性能提升10%。

而真实HPC与AI场景中：传统科学计算应用领域，Intel谈到了基于WRF的天气研究与预测应用，至强698X运行行业标准的CONUS-2.5km基准测试，速度提升约87%(26分钟 vs 14分钟);

如果是跑AI相关的AlphaFold 3，“对于中等大小的生物分子进行32个并行预测时”，“凭借更多的核心数量、更大的L3缓存容量”，至强698X的每日可预测数达到783，相比至强w9-3595X推理吞吐提升44%;

另外，还有基于OIDN(Open Image Denoise)AI降噪库的图片降噪测试，至强698X能把降噪速度提升5倍——这个测试主体应该是Intel为了特别展示至强600系列的AMX-FP16加速。因为OIDN工具的核心就是一个FP16函数，则通过AMX指令集新增的FP16数据格式支持，就实现了5倍提速。

提到AMX，值得一提的是：除了完全跑在CPU上的AI应用(如对内存容量有高要求的AlphaFold 3)，在大部分人的认知中，对于高性能与高token吞吐需求的AI计算场景而言，CPU的核心角色都在于编排器和控制器，AMX指令集层面的加速意义可能并不太大;但实际上，就整个系统的角度而言并非如此。

王巍巍在采访中说，“较重的矩阵加速运算的确都跑在GPU上，但这类AI负载有不少前处理、后处理操作，完全可以放在CPU上借助AMX指令集去跑，通过这样的offload来大幅提升整体吞吐——不少CSP都有这方面比较惊喜的数据结果”。

高宇则提到与趋境科技合作的案例，由于显存容量限制，跑MoE模型时“让热专家跑在GPU上，冷专家可以扔回GPU主存;运算时，就算点中冷专家也不用将其转移到GPU，直接通过AMX推理，节省了数据来回搬运的时间——我们实测也有相当好的效果。”

目前对至强600系列处理器做出系统级硬件支持的已经包括了8家OEM/ODM厂商、7家主板厂商;

推理工作站显卡，要追求长上下文、高并发

相较Granite Rapids对于Sapphire Rapids的换代，本次发布的面向AI工作站/服务器的Arc(锐炫)显卡就属于同代演进了。同属Battlemage家族，Arc Pro B70/B65应该可以视作B60的规模扩大版——对B60熟悉的读者应该知道，它被Intel定位为“AI推理工作站”显卡。

整理两款新卡规格如下：

Arc Pro B65基本上可以认为是B60的VRAM增大版(24GB → 32GB);而从可查的公开信息来看，Arc Pro B70用上了一颗新die(BMG-G31，传言未来的Arc B770也会用上这颗die)，尺寸更大，Xe核心更多——对应的XMX矩阵扩展引擎也更多，标称AI峰值算力367 TOPS。

对Xe2核心架构感兴趣的读者可查看前年电子工程专辑的解读文章，本文不再赘述。

Intel对于这两张Battlemage新卡的目标市场定位主要有三：(1)专业设计市场;(2)视觉处理和AIGC;(3)各类AI应用。上面这张图从3D涉及、工程CAD，到专业仿真等不同应用之中，Arc Pro B70相比B60的性能提升，从虚幻引擎27%到SolidWorks 69%，应该说是比B60高出一个身位的。

而在针对AI应用场景时，另外更大的VRAM显存——也是Intel Arc Pro显卡面向工作站和边缘服务器时，有底气说自己性价比更高、是低成本部署方案的根源之一。在更追求更大显存的智能体AI时代，自然也是要强调单卡32GB VRAM的价值，所以下面这张图对比的应该是绿厂的A4000…

单卡跑Llama 3.1 8B，对应不同上下文窗口和吞吐量(Tokens/s)，更大的显存令B70支持的上下文长度多出了2.2倍，算是单卡跑龙虾的实现基础了…

单卡跑Mistral Instruct2410 9B，横轴为并发用户数(或请求数)，纵轴为吞吐(tokens/s)，故而Intel给出数据：在面向多用户/多请求场景时，B70的token吞吐量最高可提升约80%...另外这里没有放出首token时间对比，Intel的数据是在不同并发数下，B70相比竞品的响应速度优势最多有6.2倍…

单纯从GPU芯片用料来看，现阶段的Arc Pro显卡和Arc游戏卡还是基本相似的;面向专业视觉应用或AI推理加速的关键，其实就在于更大的VRAM和全栈验证过的软件解决方案。

所以软件部分，高宇强调Arc Pro B70完成了针对诸多主流专业软件(如上图与B60做性能对比的仿真与设计类应用)的适配和认证，确保工作站与边缘服务器场景所需的稳定性与可靠性;

Arc显卡对主流的、最新的AI模型的及时支持，涵盖生图、生视频、多模态、LLM等类别7b-100b以上参数量模型的支持情况，包括最新的Qwen3.6-27B…

同时面向AI应用的边缘系统用户群时，除Arc对主流AI模型的快速支持;Intel提供容器化全栈交付，“我们会将Intel所有相关patch、软件组件的正确版本打包在一个容器内，并做全栈验证;并持续分阶段发布和更新功能，对模型、kernel第一件时间做出支持”——这类软件或解决方案交付方式，也算是当代AI芯片企业的必修了，我们也在相关B60行业应用的历史文章中做过阐释。

媒体活动上能够看到至少已经有4家AIB厂商推出了Arc Pro B70和B65显卡，包括铭瑄、蓝戟、Sparkle、ASRock等;从单槽位到双槽位、涡轮散热到被动散热…

活动现场，Intel和合作伙伴用了大量篇幅去谈Arc Pro B70在专业设计、视觉处理、AI这三个方面的应用。比如有视频制作者分享B70的媒体编解码能力出色，10-20轨4K 60素材并行剪辑无压力，30分钟视频输出速度比旧方案快了将近5倍;将3PB视频素材完全交给4卡B70工作站做AI OCR，便于未来视频内容的索引;

单卡B70生一张1024x1024的图片用时3.9秒(Z-Image-Turbo, BF16);单卡B70生成5秒480p视频92秒(Wan2.2-I2V-14B, FP8, 4 step lora加速)等等;这些都只能说是寻常——实际上更偏行业与企业应用的展示中，高宇总结Arc Pro B70的特点是“非常适合长上下文、多并发场景”。

飞致云的MaxKB企业级智能体开发平台上，飞致云也谈到了B70“并发性能有非常好的表现”，“8卡配置轻松应对50以上的并发”(Qwen3-32B，6K输入长度、1K输出长度)——如标准客服场景、复杂或深度文档处理，每路用户也能获得15 tokens/s的解码速率…

有关这一点，给我们留下深刻印象的是B70在AI医疗领域的应用：东华医疗在谈及其电子病历智能体AI解决方案，具体到病历内涵质控与辅助生成(基于采集到诸如医嘱、病历、用药、用书等信息，实现电子病历自动生成与质量的智能审查)，8卡B70相比8卡B60，病历辅助生成的并发性能提升8倍，病历内涵质控并发性能提升了67%，而且是在“整机价格没有特别大变化的情况下”。

在并发性能显著提升这一点上，几个案例均有倍数级提升，一方面自然与VRAM容量与带宽提升息息相关;另一方面在GPU架构并无大变的情况下，算力单元(Xe核心)堆料增加实际也就86%，再考虑多卡运行无法达成线性性能提升，则自B60至今的这段时间，推测Intel应该是有在软件方面下工夫的——即便上述案例可能只是个例。这对小型企业或部门级边缘AI系统而言，自然成为足够有性价比的方案。

从个人龙虾，到龙虾池…

既然聊到大显存、高并发、长上下文这些全面看齐智能体AI时代的要素，以龙虾应用为代表的智能体AI自然是一定要被端上桌的。王巍巍在做AI应用场景演示时，有3个演示都给到了龙虾。

其一是酷睿Ultra处理器+Arc Pro B70构成的个人龙虾工作站——前几天Intel在发布“智能体PC”概念时就提到过用酷睿Ultra养龙虾，搭配上B70构建龙虾工作站自然不是什么问题：基于Qwen3.5-35B A3B Q4量化模型这一主脑，现场演示了128K/256K长文本输入输出支持能力，和32GB VRAM依然是分不开的。

而上到至强698X，单颗就能容器化部署86个龙虾，构成“企业智能体Farm”，在农场构建“龙虾池”，来共同完成复杂的智能体任务——虽然演示的实际也就是数据科学前沿领域的问答。

至强600+四卡Arc Pro B70“企业智能体一体机”

最有意思的演示，应该是至强698X + 四卡Arc Pro B70构建起“智能体一体机”，基于Qwen3-Coder-Next-80B模型，部署24只龙虾——并行监控24支股票，并每隔10秒完成一次迭代，“只需要小时级别的时间，就能将整个市场的所有个股全部分析完毕”……

从介绍来看，这个过程是由“本地虾脑”“高并发智能市场分析和策略代码生成，实时观测多个市场模块，在量化交易场景下完成快速、准确的自动决策”。虽然不知道可靠性怎么样，至少它呈现了为企业实现隐私可控、低延迟、相对低成本的高密度代码生成智能辅助。

感知型AI、生成式AI、智能体AI(以及Intel眼中我们正走向“混合AI”)，改变的还真的不只是工作站或边缘服务器，也不只是企业与行业的发展;连Intel的CPU、GPU新品发布会，都从以前强调制造工艺、封装技术、核心数与频率、缓存容量、系统性能对比，走向了大半时间在谈软件和应用——这还真是相当的“不Intel”…

虽然可能也是因为至强600系列CPU和Arc Pro B70显卡用的都是既有架构和工艺，让Intel有更多的机会去谈软件与生态。郭威(英特尔市场营销集团副总裁、中国区总经理)在开场致辞时就说，芯片产品最终都是要“携手各行业伙伴，深耕金融、制造、科研、创意等领域，助力千行百业智能化转型”的，这一点在智能体AI时代可能显得尤为突出：

一方面是通过软件与应用触达更多行业和领域，另一方面是这些涉及上层的解决方案更大程度地需要Intel插手。当然芯片作为承载上层应用的算力底座仍然是重要的，依旧是达成高性能与高效率的基础;但这一两年的Intel发布会，让Intel看起来更加不像是过去那个明显只专注“硅”和“半导体”前沿技术的企业;这或许也是AI时代背景下，半导体企业谋发展的一种写照。