内存墙之痛:为什么AI加速不能只靠堆计算单元?
本文介绍了为什么AI加速不能只靠堆计算单元。 很多人一说起AI加速,第一反应就是堆算力、堆更多浮点计算单元。 错了, 现在的瓶颈根本不是计算本身,是数据搬运、通信和不规则算子,峰值算力再高也没用。 举个最直观的例子,大语言模型推理的时候,每个新生成的token都要读写一遍已经存起来的KV缓存,这玩意儿根本不怎么缺计算,缺的是内存带宽——你带宽不够,就算计算单元堆得再多,也得等着数据慢悠悠从内存运
关于「数据搬运」的技术文章、设计资料与工程师讨论,持续更新。
本文介绍了为什么AI加速不能只靠堆计算单元。 很多人一说起AI加速,第一反应就是堆算力、堆更多浮点计算单元。 错了, 现在的瓶颈根本不是计算本身,是数据搬运、通信和不规则算子,峰值算力再高也没用。 举个最直观的例子,大语言模型推理的时候,每个新生成的token都要读写一遍已经存起来的KV缓存,这玩意儿根本不怎么缺计算,缺的是内存带宽——你带宽不够,就算计算单元堆得再多,也得等着数据慢悠悠从内存运