近日,“2026半导体产业发展趋势大会暨颁奖盛典”在深圳举行。在“AI赋能消费电子创新应用论坛”上,瑞萨电子中国嵌入式处理器高级专家凌滔发表了题为《无处不在的高效端侧AI,释放终端潜能》的演讲,分享了瑞萨最新一代RA8P1 MCU如何以强劲性能推动边缘AI规模化落地。
瑞萨电子中国嵌入式处理器高级专家凌滔发表演讲
双核异构架构:定义MCU新性能基准
要理解RA8P1 MCU为何能成为端侧AI的理想之选,首先需要从其硬件架构说起。RA8P1系列是瑞萨电子首款搭载高性能Arm® Cortex®-M85及Cortex-M33,并集成Ethos™-U55 NPU的32位AI加速MCU。该系列通过单芯片实现256 GOPS的AI性能、超过7300 CoreMarks的突破性CPU性能和先进的人工智能(AI)功能,可支持语音、视觉和实时分析AI场景。RA8P1 MCU采用台积电22ULL工艺制造,在实现超高性能的同时保持极低的功耗。该工艺还支持在新款MCU中集成嵌入式磁性随机存取存储器(MRAM)。与闪存相比,MRAM具备更快的写入速度、更高的耐久性和更强的数据保持能力。同时,RA8P1还集成了Arm Ethos-U55 NPU,在500MHz频率下可实现256 GOPS的神经网络处理能力。
端侧智能突破:推理性能大幅跃升
强大的硬件架构只是基础,真正体现RA8P1 MCU实力的在于其AI加速能力。Arm Ethos-U55 NPU针对CNN和RNN中的计算密集型算子进行了硬件加速,支持8位权重及8/16位激活值,并采用离线压缩、实时解压技术以降低内存需求。当遇到部分NPU不支持的算子时,编译器可自动将任务回退至Cortex-M85 CPU,通过CMSIS-NN软件加速执行,降低模型部署难度和提升AI推理效率。
为直观呈现Cortex-M85的推理加速效果,演示先以RA8D1给出CPU侧基线数据,并进一步引出集成NPU的RA8P1在吞吐与能效上的提升。
在实际演示中,在480MHz的RA8D1运行人形检测AI模型时,得益于Cortex-M85内置的Helium加速单元,性能较上一代Cortex-M7内核提升3.6倍。在此基础上,RA8P1进一步集成了256 GOPS的NPU,可继续提升端侧推理吞吐和能效表现。在电机负载不平衡检测应用中,结合CMSIS-NN与TF-Lite for MCU,RA8P1 MCU同样展现出卓越的实时故障诊断能力。
三大典型应用场景验证落地能力
理论性能需要在实际场景中得到验证。凌滔在演讲中展示了RA8P1在视觉AI领域的三个典型应用,充分证明了其端侧处理能力。
-
图像分类:在基于MobileNet v1的演示中,模型大小608KB,RA8P1 MCU的推理时间仅3ms,性能加速达33倍。系统工作流程为:摄像头通过CEU或MIPI-CSI接口采集图像,Ethos-U55执行推理,Cortex-M85运行主控逻辑,结果通过GLCDC及2D DRW引擎渲染输出至LCD显示。
-
驾驶员行为监控:该方案可同时检测打瞌睡、打电话、吸烟等违规驾驶行为。模型来自Nota.ai驾驶员监控方案,大小仅439.8KB,在RA8P1-EK评估板上实测推理时间为11.1ms,预处理/后处理12ms,总耗时23.1ms,相比纯CPU方案加速24.5倍。方案兼容红外摄像头和RGB彩色摄像头,适用于车载行车记录仪及车厢内部监控。
-
道路交通与电瓶车流监察**:**基于Irida智能城市监察模型(大小320KB),RA8P1 MCU实现机动车行驶状态及电瓶车流状况的端侧视觉AI分析。推理时间11ms,预处理/后处理4ms,整体功耗仅160mW,推理速度提升36.4倍。该方案适用于智慧城市交通情况分析、人员计数、热能分布及特定区域目标识别。
丰富外设与完整开发生态
强大的算力还需丰富的外设接口和软件工具来支撑落地。RA8P1 MCU集成了MIPI-CSI2摄像头接口、MIPI-DSI显示接口、2D图形引擎(DRW)、Gigabit以太网MAC(支持TSN/DLR双通道+双端口交换机)、USB2.0 FS/HS、SDHI(x2)、OSPI(支持XIP和DOTF)、32位SDRAM接口、CAN-FD、I3C等,可满足视觉AI、语音AI及工业实时控制等多类场景需求。
软件开发方面,瑞萨提供灵活配置软件包(FSP),集成高性能HAL驱动、Azure RTOS/FreeRTOS中间件,并支持e2 studio IDE中的AI Navigator图形化工具及RUHMI AI编译器。RUHMI支持从TensorFlow Lite和ONNX导入模型,自动完成优化、量化和分割,并生成经过优化的.c/.h源码,显著降低AI模型在RA8P1 MCU上的部署门槛。
官方评估套件EK-RA8P1提供了完整的开发支持,包括双通道MIPI-DSI和并行显示连接器、摄像头扩展连接器(CEU/MIPI-CSI2)、64MB OSPI闪存、64MB SDRAM、PDM MEMS麦克风、音频编解码器、以太网RJ45(RGMII)等。此外,瑞萨还推出了CPK-RA8P1及合作伙伴RTT RA8P1 Titan Board等开发套件,RT-Thread BSP源码已在GitHub开源。
总结与展望
在端侧AI需求持续爆发的背景下,单纯依赖CPU算力已难以满足日益复杂的应用场景,而“CPU+NPU”的异构融合方案正成为行业共识。瑞萨通过将高性能Cortex-M85、灵活的Cortex-M33与专用AI加速单元Ethos-U55有机结合,为开发者提供了一条兼顾性能、功耗与开发效率的可行路径。可以预见,随着RA8P1 MCU及其后续产品的不断迭代,端侧AI将在工业自动化、智能座舱、智慧城市、消费电子等领域实现更广泛、更深度的落地,真正释放终端设备的无限潜能。
评论区
登录后即可参与讨论
立即登录