Tech Talk热点Q&A汇总 | “周易”X3 NPU IP R2新版本

来源:安谋科技 芯片新品 116 次阅读
摘要:Q1 “周易”X3 R2 NPU IP支持FP4且算力翻倍,主要是满足什么样的需求? A 1.在W4A8和W4A16两种主流大模型量化精度下,单Cluster算力从80 TFLOPS跃升至160 TFLOPS,且支持灵活配置,算力密度提升超70%,能够让客户在相同芯片面积下获得更强的AI性能; 2.边端侧推理正从W4A16向W4A8演进,FP4数据格式的支持正是为未来FP4权重模型的出现做好前瞻准

Q1

“周易”X3 R2 NPU IP支持FP4且算力翻倍,主要是满足什么样的需求?

A

1.在W4A8和W4A16两种主流大模型量化精度下,单Cluster算力从80 TFLOPS跃升至160 TFLOPS,且支持灵活配置,算力密度提升超70%,能够让客户在相同芯片面积下获得更强的AI性能;

2.边端侧推理正从W4A16向W4A8演进,FP4数据格式的支持正是为未来FP4权重模型的出现做好前瞻准备,确保“周易”X3 R2能够持续适配算法发展趋势。

Q2

“周易”X3 R2升级之后算力翻倍,这对客户来说有什么实实在在的好处

A

算力翻倍能使客户的产品定义在W4A8/W4A16推理规格上持续保持竞争力。其次,在W4A8和W4A16推理场景下,算力翻倍直接转化为更高的吞吐率和更低的推理延迟,尤其在端侧大模型应用中,这意味着更流畅的交互体验和更强的并发处理能力。

Q3

算力密度是什么意思?算力密度提升对客户有何好处?

A

算力密度是指单位芯片面积内能够提供的计算能力大小。“周易”X3 R2的算力密度相比R1提升超70%,这意味着在相同的芯片面积下可以提供更强的处理能力,或者以更小的面积实现同等算力,直接降低客户的芯片成本。

Q4

“周易”X3 NPU IP专为大模型优化的架构设计,具体体现在哪些方面?

A

1.在模型支持方面,“周易”X3采用CNN与Transformer兼顾的架构设计,对传统CNN模型以及多模态、大语言模型均有针对性的优化和支持;

2.在算力方面,实现从定点转向浮点计算,浮点格式能够实现从云端训练到边端侧部署的无缝衔接,大幅降低模型迁移的适配成本;

3.在带宽方面,“周易”X3单核带宽达到256GB/s,可很好地适配3D IC、存内计算以及更宽的LPDDR等最新SoC架构方案,满足大模型推理对高带宽的核心需求。

Q5

“周易”NPU的软件开放和开源,在生态建设中发挥了哪些作用?

A

开放性与开源是“周易”NPU的一贯坚持。目前,“周易”Compass AI软件平台已将Parser、Optimizer、Linux Driver、TVM及内部IR格式等核心组件相继开源,这些开源项目吸引了高校、算法公司和开发者社区的广泛参与,协助完善了工具链和软件栈。开源的核心目标不仅能降低用户使用门槛,让更多开发者能够快速上手,也推动了NPU生态从碎片化走向统一,构建起更加开放的产业生态。

Q6

“周易”NPU区别于其他同类产品的最核心优势是什么?

A

核心优势主要体现在四个方面:

1.完备开放的软件栈:从编译器到推理框架,提供端到端的全流程支持;

2.全精度硬件支持:INT4/INT8/INT16、FP4/FP8/FP16/BF16全覆盖,无论是CNN还是Transformer模型均可适配;

3.高带宽设计:单Core带宽高达256GB/s,可提供强大性能;

4.本地强大的技术支持团队:提供从硬件集成、软件适配到流片全生命周期的本地化支持。

Q7

端侧AI处理需求非常碎片化,如何用一套相对标准的“周易”X3 NPU IP高效应对多样化场景

A

“周易”X3采用DSA+DSP架构,本身已兼顾效率与灵活性,针对端侧AI处理需求的碎片化,核心平衡策略可以概括为“核心标准化,外围可定制”。在核心层,从架构微架构到软硬件实现,提供通用性强的NPU IP产品;在外围层,针对工业、智能座舱等不同场景预留了软硬件定制接口,客户均可通过定制化手段灵活适配。

Q8

“周易”NPU IP产品配套的SDK如何分发是否需要额外License?芯片量产后的软件版本升级如何支持?

A

RTL与软件将作为一个Package一次性购买,无需额外License。在支持有效期内,我们也会主动推送软件升级版本,客户可持续获得优化后的软件栈。

Q9

“周易”下一代NPU产品怎么样?目前有什么规划?

A

“周易”NPU架构已规划六大演进方向,涵盖计算架构、通用计算能力、计算扩展能力、数据格式、软件界面与生态合作等。

Q10

未来三年NPU有哪些颠覆性的技术变化

A

如果算法模型架构发生范式转移,将带来NPU的颠覆性变化。例如以SSM(State Space Model)为代表的Mamba架构如果被产业广泛接受并成熟应用,NPU的计算架构、数据通路和存储机制都需要进行根本性的重新设计,这将是端侧NPU领域较大的潜在变量。

相关推荐
评论区

登录后即可参与讨论

立即登录