标签专题 · 共 7 篇文章

# 大模型推理

关于「大模型推理」的技术文章、设计资料与工程师讨论，持续更新。

篇文章

人关注

368

次浏览

关注标签

全部技术资讯资料帖子问答视频

AI 公司最怕的不是训练贵，而是每次回答都在烧钱

AI产品越受欢迎，公司越焦虑——推理成本像屋顶漏水，持续消耗算力。vLLM、TensorRT-LLM、llama.cpp三个开源项目分别从云端调度、硬件优化和本地部署入手，试图把“每token成本”降下来，让AI从烧钱走向赚钱。你有没有发现一个很奇怪的现象。 AI产品越受欢迎，公司反而越焦虑。传统软件公司最喜欢的一种模式叫规模效应。一个SaaS产品开发出来之后，新增用户的边际成本很低。用户越

2026-05-18 大模型推理推理成本 KV Cache 1,520 0

Tech Talk热点Q&A汇总 | “周易”X3 NPU IP R2新版本

Q1 “周易”X3 R2 NPU IP支持FP4且算力翻倍，主要是满足什么样的需求？ A 1.在W4A8和W4A16两种主流大模型量化精度下，单Cluster算力从80 TFLOPS跃升至160 TFLOPS，且支持灵活配置，算力密度提升超70%，能够让客户在相同芯片面积下获得更强的AI性能； 2.边端侧推理正从W4A16向W4A8演进，FP4数据格式的支持正是为未来FP4权重模型的出现做好前瞻准

2026-05-16 NPU IP FP4 算力密度 1,564 0

从代码合入到社区共聚：SGLang × MUSA Meetup圆满落幕，国产GPU开源生态进入“原生支持”时代

5月10日，由摩尔线程与SGLang社区联合主办的“MUSA开源技术沙龙｜SGLang × MUSA Meetup”在北京成功举行。本次Meetup不仅集结了SGLang核心开发成员，并邀请到TileLang、Triton、Mooncake**等开源社区的顶尖技术专家，吸引了近百位前沿开发者到场参与。各方围绕大模型推理引擎、算子编译、工程优化与生态共建**等核心议题，展开了一场高密度、深层次的技

2026-05-13 MUSA SGLang 大模型推理 172 0

拆解大模型推理：SambaNova × 英特尔异构计算架构详解

SambaNova 与英特尔联合推出了一套大模型异构推理架构蓝图，标志着现代大语言模型（LLM）部署方式的重大转变。该架构不再依赖单一加速芯片，而是将推理的不同阶段分配给专用硬件： GPU 负责预填充（Prefill） SambaNova 可重构数据流处理器（RDU）负责解码（Decode）英特尔至强 6 CPU 负责智能体工具调用与整体编排这一设计专门应对智能体 AI 系统

2026-04-21 大模型推理异构计算 SambaNova 163 0

超4亿！又一北京GPGPU公司完成多轮融资！

据科创板日报消息，行云集成电路完成超4亿元融资。国内全自研GPGPU创新企业「北京行云集成电路有限公司」（以下简称“行云”）宣布连续完成Pre-A及Pre-A+多轮融资，融资金额超4亿元人民币。五源资本、赛富投资基金、春华资本联合领投，以及北京、江苏等地方国资、佰维存储（688525.SH）、金沙江联合带动知名GPU企业创始人家办、创维资本等产业资本跟投。云岫资本连续多轮服务并担任下一轮独家融资

2026-04-20 GPGPU 大模型推理 LPDDR 148 0

等你来战 | 飞桨黑客松第十期此芯科技基于Arm平台的端侧部署双阶挑战开启！

春风启序，技创未来！此芯科技携手百度文心大模型、百度飞桨与Arm重磅推出飞桨黑客松第十期专项活动，在「文心合作伙伴赛道」创新性打造“打卡任务”与“进阶任务”双阶并行机制，搭建从AI入门到端侧部署精通的完整成长阶梯，助力广大开发者深耕国产芯片与大模型部署技术，解锁硬核技能、角逐丰厚专属大奖！本次专项挑战全程依托搭载此芯P1芯片的开发板真实硬件环境开展。为全面优化开发体验、降低上手门槛，活动独家推出

2026-04-17 飞桨黑客松此芯 P1 Arm 平台 143 0

手机推理快8倍、80页合同AI秒懂——小米AI团队多项论文入选ACL 2026

同样的GPU，推理速度提升8.3倍；80页合同，AI不用OCR就能读懂并回答问题——这些不是实验室PPT，而是小米AI团队刚拿到ACL 2026录用的7篇论文背后的真实技术突破。 ACL（Annual Meeting of the Association for Computational Linguistics）是计算语言学与自然语言处理领域国际公认的顶级学术会议，CCF-A类。本届会议将于20

2026-04-16 大模型推理 KV Cache 文档理解 192 0

1 雷军强烈建议大家现在就换手机 2 5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026 3 晶体管转移特性曲线详解：核心参数及应用 4 重磅｜华为发布源网荷储AIDC战略，引领产业未来 5 什么是Teflon（特氟龙）？ 6 智慧芯片的主力军，紫光展锐发布UniClaw智能体 7 ISE14.7兼容性问题集锦 8 一块 ESP32，能被 Claude 开发者玩出什么花样？

「大模型推理」是纳米网电子工程技术社区的热门标签，涵盖相关的技术文章、设计方案和工程师讨论。目前已收录 7 篇优质内容，持续为电子工程师提供专业参考。