“非冯”架构芯片, 性能飙升10倍, 能耗下降60%

近日，HPC 芯片设计初创企业NextSilicon宣布推出非冯・诺依曼架构芯片Maverick-2，声称该芯片在实现10倍于领先GPU性能的同时功耗可降低多达六成，且支持代码无缝导入兼容。

据介绍，Maverick-2 基于 NextSilicon 的 ICA 智能计算架构，采用软件定义数据流硬件设计，以数据可用性驱动计算，消除了指令处理开销和内存瓶颈，将多数面积用于实际计算。该芯片可根据具体负载自动重新配置以优化性能，同时程序无需这一特殊架构优化调整代码。

硬件上 Maverick-2 提供单芯 PCIe AIC 和双芯 OAM 两种形态，其采用台积电 5nm 先进制程和 2.5D 先进封装，芯片本身运行在 1.5GHz 下并集成 128MB 一致性缓存，外部则连接至 96GB HBM3E 内存，PCIe AIC 卡最大功率 400W、OAM 卡最大功率 750W。

Maverick-2 的核心竞争力在于其“非冯”架构。NextSilicon的数据流架构建立在图形结构之上。数据流处理器并非像冯·诺依曼那样逐条处理指令，而是由一系列计算单元（称为 ALU）组成，这些单元以图形结构互连。每个 ALU 处理特定类型的函数，例如乘法或逻辑运算。当输入数据到达时，计算会自动触发，结果将流向图形中的下一个单元。与串行数据处理相比，这种新方法具有很大的优势，因为芯片不再需要处理数据提取、解码或调度等消耗计算周期的开销任务。

具体而言，当应用程序开始在主机上运行，会自动识别代码中计算密集型的部分。不将计算图转换为指令，而是保留程序的计算图，并将其放置在数据流硬件上。从硬件获取遥测数据，并以递归方式进行，因此始终在程序运行时优化计算和内存。先进的软件分析器就像一个精准定位系统，会持续监控应用程序，精准定位出那些占用性能的关键代码片段，然后以纳秒级的粒度重新配置硬件本身，构建针对该特定代码优化的自定义数据流水线。这种非对称执行模型能够将卓越的效率精准地引导到能够发挥最大效能的地方，同时让大部分代码保持正常运行。

NextSilicon 创始人兼首席执行官 Elad Raz表示，“我们不是在优化指令，而是在重构电路。这就像为每一段关键代码定制一个ASIC，但无需数年开发，也无需重新流片。”

此外，NextSilicon 还同时推出了其自研企业级RISC-V CPU芯片 Arbel。该内核具有 10 宽发射和 480 条目 ROB，宽执行单元支持并行 16 条标量指令，集成四个 128-bit 矢量单元；芯片同样基于台积电 5nm 制程，核心频率 2.5GHz。

具体而言，Arbel芯片10宽的发射宽度和480条目的重新排序缓冲区，能够一次发现更多问题并最大限度地提高核心利用率；2.5 GHz的核心频率可提供高单线程性能，同时保持功率效率；宽执行单元支持并行16条标量指令，加上四个集成的128位矢量单元，可在数据并行工作负载上实现卓越的性能；先进的内存子系统具有64KB L1缓存和大型共享 L3，可保持数据接近且核心持续供电，解决限制现代应用程序的内存带宽和延迟瓶颈；Elite TAGE 分支预测器可确保更快、更准确的决策，减少错误预测和浪费的工作。

NextSilicon表示Arbel核心可以与英特尔LionCove Xeon核心和AMD Zen5 Epyc核心相媲美。

想要获取半导体产业的前沿洞见、技术速递、趋势解析，关注我们！