欢迎来到纳米网!
首页 > 公众号文章>正文

京微齐力P2 FPGA:pSRAM读写效率详解

来源:老刘记事儿

最近有客户反映国产FPGA京微齐力P2器件内部合封的pSRAM控制器读写效率很高,能达80%以上,而且合封了4片8bit位宽pSRAM芯片,按250MHz主频DDR双沿读写算下来80%效率能跑出12.8Gbps的极限带宽,即使考虑工程布局布线的限制影响因素,按210MHz主频也应能跑出10.5Gbps读写带宽。

如果真是这样,这意味着FPGA + SDRAM架构方案的市场应用生态位面临着挑战,因为即使采用200MHz主频的单颗DDR SDRAM也需要32bit位宽才能在理论上达到100%效率时(不可能实现)的12.8Gbps极限带宽,而SDRAM控制器设计复杂度导致的逻辑资源消耗、SDRAM芯片较高的功耗特性、外挂SDRAM芯片的成本考量等因素会使FPGA + SDRAM架构方案劣于京微齐力的FPGA内部合封4片pSRAM方案。

那么真实情况如何呢?客户的传言是确切的么?

带着疑问,我要来了京微齐力P2器件的pSRAM读写例程,进行核实分析。

根据说明,该例程系统框图如下:

a1e25bfc-21ba-11f0-9310-92fbcf53809c.png

其中,soc_system_v1模块是指P2器件中自带的ARM Cortex-M3硬核,在例程中起到对pSRAM的寄存器初始化和Clock Training作用。Clock Training是上电启动阶段指对psram_clk、psram_clk_90和psram_clk_rd这三个时钟的相位关系进行初始化校准。这三个时钟的功能可参阅原厂手册说明(见下图),在此我们不作更多推敲讨论。

a202a416-21ba-11f0-9310-92fbcf53809c.png

不过显然可以看出,将pSRAM初始化和Clock Training机制放进FPGA自带的ARM硬核中,对于节省FPGA逻辑资源占用肯定是很有好处的,而且在ARM硬核中实现对pSRAM寄存器状态和Training结果的打印监测也是十分方便的。原厂例程中就利用了这一点,下图为例程中ARM硬核控制pSRAM执行初始化和Clock Training阶段串口打印的部分信息,显示了Clock Training的时钟窗口扫描结果。

a217f014-21ba-11f0-9310-92fbcf53809c.png

例程提供的pSRAM控制器可允许对4片pSRAM予以分别不同的寄存器初始化配置,使其分别独立工作在不同的工作状态下。这为客户提供了灵活操控的可能性,在必要的应用场合可以灵活搭配形成乒乓操作,譬如4片pSRAM可以配置成同时1写3读或3写1读,也可以4片统一同步操作读写。

例程配套有仿真工程,可以直接从仿真波形中得到pSRAM读写效率信息。

仿真例程先是对4片pSRAM分别作了初始化配置动作,而后循环进行Burst 1~128次*2Byte的交替读写循环测试。

a2293d88-21ba-11f0-9310-92fbcf53809c.png

每次Burst写入pSRAM的数据会同步存入双端口RAM中,再将RAM中的数据取出与从pSRAM中相应地址读出的数据作一致性比对,如果读写比对无误则psram_cmp_flag信号保持为0,否则一旦发生错误就会拉高相应pSRAM的psram_cmp_flag信号。

a243487c-21ba-11f0-9310-92fbcf53809c.png

对交替读写循环测试的波形放大可以看到,pSRAM的读写过程各有快慢两种响应速度,姑且称之为 “快写”、“慢写”、“快读”、“慢读”。

a269515c-21ba-11f0-9310-92fbcf53809c.png

pSRAM写操作相关的FPGA端用户接口信号时序抓取波形示例如下:

a285d656-21ba-11f0-9310-92fbcf53809c.png

pSRAM读操作相关的FPGA端用户接口信号时序抓取波形示例如下:

a29b8974-21ba-11f0-9310-92fbcf53809c.png

各路信号的含义和时序关系说明详情可参见官方应用手册,此处不作赘述。

a2b6e066-21ba-11f0-9310-92fbcf53809c.png

我们只关心读写效率的评估,那么把握重点:

psram_wr_reqin和psram_rd_reqin分别是写请求和读请求信号;

wr_req_ack和rd_req_ack分别是写响应和读响应信号,其中wr_req_ack的高电平比psram_wdata写有效数据前移了一拍,而rd_req_ack的高电平与psram_rdata读有效数据是时序对齐的;

读写Burst长度分别由rd_burst_len和wr_burst_len决定,实际Burst拍数分别为rd_burst_len+1 和wr_burst_len+1。

a2e7b83a-21ba-11f0-9310-92fbcf53809c.png

对照仿真波形可以确认,例程中的pSRAM读写循环是无缝切换的,没有冗余间隔,因此psram_wr_reqin和psram_rd_reqin的高电平宽度分别就是写等待和读等待时长,即除有效读/写操作之外被“浪费”的时间。写等待和读等待时长所占用的时钟周期数分别称为写等待拍数和读等待拍数。

“快写”、“慢写”、“快读”、“慢读”分别的等待拍数见下表:

读写状态 快写 慢写 快读 慢读
等待拍数 11 18 19 26

a2fdad70-21ba-11f0-9310-92fbcf53809c.png

“快写”状态下,从发起写请求到第一个有效数据开始写入,写等待占用了11个时钟周期。因此,当Burst为256字节(128拍)时写效率最高,为:

128/(11+128) =92%

对应P2器件工作在210MHz主频下的“快写”带宽为:

92%×210MHz×2×4片 ×8 bits =12.08 Gbps

a315bdd4-21ba-11f0-9310-92fbcf53809c.png

“慢写”状态下,从发起写请求到第一个有效数据开始写入,写等待占用了18个时钟周期。因此,当Burst为2字节(1拍)时写效率最低,为:

1/(18+1) = 5.26%

当Burst为256字节(128拍)时,“慢写”效率为:

128/(18+128) = 87.6%

对应P2器件工作在210MHz主频下的“慢写”带宽为:

87.6%×210MHz×2×4片 ×8 bits

=11.5 Gbps

a32bce58-21ba-11f0-9310-92fbcf53809c.png

“快读”状态下,从发起读请求到第一个有效数据开始读入,读等待占用了19个时钟周期。因此,当Burst为256字节(128拍)时读效率最高,为:

128/(19+128) =87%

对应P2器件工作在210MHz主频下的“快读”带宽为:

87%×210MHz×2×4片 ×8 bits

=11.42 Gbps

a3451bba-21ba-11f0-9310-92fbcf53809c.png

“慢读”状态下,从发起读请求到第一个有效数据开始读入,读等待占用了26个时钟周期。因此,当Burst为2字节(1拍)时读效率最低,为:

1/(26+1) = 3.7%

当Burst为256字节(128拍)时,“慢读”效率为:

128/(26+128) = 83.1%

对应P2器件工作在210MHz主频下的“慢读”带宽为:

83.1%×210MHz×2×4片 ×8 bits

=10.9 Gbps

这样情况就明了了。也就是说:

京微齐力P2器件的pSRAM写操作在Burst长度为256字节(128拍)的条件下效率最高,为87.6%至92%之间。

保守估计,按210MHz的大型项目(逻辑资源占用80%以上)真实可用主频估算,在Burst长度为256字节(128拍)的条件下,其写带宽可达11.5 Gbps至12.08 Gbps之间。

京微齐力P2器件的pSRAM读操作在Burst长度为256字节(128拍)的条件下效率最高,为83.1%至87%之间。

保守估计,按210MHz的大型项目(逻辑资源占用80%以上)真实可用主频估算,在Burst长度为256字节(128拍)的条件下,其读带宽可达10.9 Gbps至11.42 Gbps之间。

当然,需要特别注意的是,由于存在内部自刷新过程,和SDRAM一样,pSRAM在Burst长度较低时,读写效率不高。但Burst突发读写长度越长,其读写效率越高,速度优势越明显。

总体而言,京微齐力FPGA的pSRAM读写效率,超出预期!

附P2器件(合封4片pSRAM)在不同Burst长度下的读写效率列表以供查阅(注意1拍对应2字节):

a35cdc6e-21ba-11f0-9310-92fbcf53809c.png

a3860b52-21ba-11f0-9310-92fbcf53809c.png

a3a562f4-21ba-11f0-9310-92fbcf53809c.png

a3c79fea-21ba-11f0-9310-92fbcf53809c.png

附在P2器件(合封4片pSRAM)在pSRAM主频210MHz条件下核算的不同Burst长度下的读写速率列表以供查阅(注意1拍对应2字节):

a3e2d486-21ba-11f0-9310-92fbcf53809c.png

a3ffc71c-21ba-11f0-9310-92fbcf53809c.png

a419bc1c-21ba-11f0-9310-92fbcf53809c.png

a43ac1e6-21ba-11f0-9310-92fbcf53809c.png

不过这里可以再引出一个问题:

快写/慢写(快读/慢读)的比例是多少,有何规律?

此处暂且不表,笔者搬砖之余时间有限,且听下回分解。

原文标题:老刘记事儿京微齐力FPGA系列之P2器件内部合封pSRAM性能探究(一)

文章出处:【微信号:HME-FPGA,微信公众号:HME京微齐力】欢迎添加关注!文章转载请注明出处。

猜你喜欢

  • 艾为电子AW9967FSR:高效升压型WLED驱动芯片详解

    艾为电子AW9967FSR:高效升压型WLED驱动芯片详解

    在消费电子持续追求轻薄化与长续航的当下,背光系统能效成为关键瓶颈。传统方案在轻载场景效率低下,散热性能不足,严重制约设备续航并带来可靠性风险。数模龙头艾为电子推出新一代升压型WLED驱动芯片——AW9967FSR,以科学先进的热管理技术,打造卓越的散热...

    2025-12-01
  • Microchip发布MCP服务器:革新AI驱动的产品数据访问方式

    Microchip发布MCP服务器:革新AI驱动的产品数据访问方式

    该服务器支持跨AI平台获取可信产品信息,简化工作流程、加速设计并提高生产力 为进一步兑现公司为嵌入式工程师开发AI解决方案的承诺,Microchip Technology Inc.(微芯科技公司)今日推出模型语境协议(MCP)服务器。作为AI接口,MCP服务器可直接连接兼容的AI...

    2026-01-23
  • Microchip第22届中国技术精英年会北京站成功闭幕,下一站深圳

    Microchip第22届中国技术精英年会北京站成功闭幕,下一

    Microchip第22届中国技术精英年会(MASTERs)北京站于今日圆满落幕!来自各地的技术专家、行业伙伴和客户齐聚一堂,共同探讨前沿技术与创新应用。活动伊始,Microchip大中华区副总裁Edward Ho先生为本站致开幕词,欢迎各位嘉宾的到来,并分享了对行业发展的展望...

    2026-01-23
  • 国星半导体车规级LED芯片获2025年广东省名优高新技术产品

    国星半导体车规级LED芯片获2025年广东省名优高新技术

    近日,广东省高新技术企业协会正式发布《2025年第二批广东省名优高新技术产品名单》,国星半导体自主研发的车规级LED芯片与垂直LED芯片两大系列产品成功入选。该认定严格围绕技术创新性、质量稳定性、市场成熟度及产业化能力四大维度进行评审,是广东省...

    2025-12-02
  • 云英谷科技荣登2025中国半导体企业影响力百强,专注OLED显示驱动芯片

    云英谷科技荣登2025中国半导体企业影响力百强,专注OLED

    11月14日,世界集成电路协会(WICA)主办的“2025全球半导体市场峰会”在上海成功召开。本次峰会发布了2026全球半导体市场趋势展望暨2025中国半导体企业影响力百强及集成电路新锐企业50强报告。云英谷科技股份有限公司荣登“2025中国半导体企业影响力百...

    2026-01-23
^