本白皮书介绍有关如何满足贵公司支持人工智能 (AI) 功能的全新旗舰级高性能计算 (HPC) 片上系统 (SoC) 设计的质量要求并加快其上市速度的认知之旅。该旅程从探索设计的使用案例开始,展示了支持 AI 功能的 HPC 系统和资源对我们世界的影响。该旅程的第二部分介绍了支持 AI 功能的HPC SoC 设计的基本架构、重要事项,以及如何选择和阐明验证目标及行之有效的验证方法。最后总结如何针对此任务选择适当的 FPGA 原型验证系统解决方案,以确保提高硬件和软件验证的效率。

关键节点 1 和 2:IP 模块和子系统在线硬件加速仿真 (ICE) 验证

IP 模块通常为小型设计,大多数低于 4 千万门,而且 IP 模块的软件驱动程序验证可以在 IP RTL 稳定后立即开始。

IP 示例:
• 以太网接口
• DDR5 内存接口
• 深度学习加速器 (DLA)

IP 模块被用以构建宏级别功能的子系统设计,该设计通常可通过四个以下的 FPGA 实现,但也可能是更大规模的模块。同样,子系统软件驱动程序的验证也可以在子系统 RTL 稳定后立即开始。

子系统示例:
• 有线子系统:PCIe + 以太网
• 内存子系统:DDR5 + HBM 内存

针对具有 ICE(协议或外围接口)验证要求的小型设计,Veloce proFPGA 提供了桌面、模块化和可扩展的多 FPGA ASIC 原型验证系统解决方案,用于 IP 和子系统验证及软件开发。

IP 模块可通过单 FPGA 的 Veloce proFPGA uno 系统实现,并且能以极高的速度运行(约 100MHz 或更高,具体取决于 IP 模块设计的 FPGA 亲和度),从而获得进行合规性测试和精确交互性测试所需的 “全速” 性能。

子系统一般通过多 FPGA 的 Veloce proFPGA duo 或 quad 系统实现。多 FPGA 设计中断了多个 FPGA 之间的逻辑数据路径,因而降低了可达到的最大速度。为了尽可能减少工作频率的下降,必须小心地
进行 partitioning。Veloce 原型验证系统软件会进行自动 Partitioning 和自动多千兆位管脚复用 IP 插入,无需用户进行任何 RTL 设计更改即可实现优异的性能。每个 FPGA 模块都能连接自己的 ICE 附件:PCIe、以太网、DDR 和用于实际 I/O 连接的 HBM。

关键节点 3 到 6:采用在线硬件加速仿真验证的 SoC 验证

既然子系统和 IP 已经过验证,现在是时候让 SoC 设计团队将所有子系统集成到一起并验证最终 SoC,以及让软件团队开发系统级应用程序了。这类设计的规模非常庞大;可能达到数十亿门。任何问题都需要由多个团队进行分析,而且大多数情况下,这些团队分布在世界各地的不同地点。

为了加速 SoC 验证,Veloce Primo 解决方案提供了企业级原型验证系统。Veloce Primo 可扩展至多达 320 个 FPGA(120 亿门),供多个用户并行进行远程访问,并且提供了虚拟接口和虚拟实验室测试设备,如 PCIe、以太网和 DDR。通过访问虚拟接口,便无需与原型验证系统和实验室测试设备进行物理交互。设计能以约 10MHz 的频率运行,具体取决于 FPGA Partitioning 的完成情况。

图 5 展示了一个高效的企业级 FPGA 原型验证系统。其中包括 Veloce Primo 硬件、用于编译和运行时执行控制的 VPS 软件、以太网和 PCIe VirtuaLAB(虚拟协议生成器/分析器)、用于波形可视化的可视化应用程序,以及用于多用户访问管理和 Veloce Primo 硬件诊断的企业级服务器应用程序。

任何时候都可以将多个 FPGA 动态分配给特定数量的用户,在不影响其他用户生产率的情况下,安排他们承担 IP 模块、子系统和 SoC 设计的设计验证和软件验证工作负载。

分享

相关资源