
据11月9日消息,RISC-V服务器芯片设计厂商Ventana Micro Systems在2023 RISC-V峰会上发布了其第二代服务器cpu -威龙V2。它在指令扩展、核心设计、互连标准、工艺技术等方面具有许多优势。全面升级。
官方声称其性能超过AMD的高端服务器芯片Epyc 9754,被称为最强大的RISC-V服务器CPU!同时,Ventana还允许客户将定制加速器添加到定制的片上系统(SoC)蓝图中。
早在2022年12月,Ventana就发布了全球首款基于RISC-V架构的服务器CPU——威龙V1。
采用5nm制程技术,基于Ventana自主研发的高性能RISC-V核心,8流水线设计,支持无序执行,主频超过3GHz,每个集群最多16核,多集群最多可扩展至192核,48MB共享L3缓存具有先进的侧信道攻击缓解措施,IOMMU和高级中断架构(AIA),支持全面的RAS功能;并采用自顶向下的软件性能调整方法来满足数据中心的各种需求。据称性能可以超越AMD EPYC 7763!
根据Ventana的计划,威龙V1将在今年下半年上市,但到目前为止还没有客户选择采用它。这可能就是为什么文塔纳急于推出威龙V2的原因。
Ventana营销和产品副总裁Travis Lanier表示,新的威龙V2将整合RISC-V规范中的所有更新,例如RVA23功能集,这是今年RISC-V的最新指令集配置文件,并实现了RISC-V输入输出内存管理单元(IOMMU)规范,并且还支持小型芯片的UCIe互联标准。
Lanier表示,IOMMU规范的批准“在RISC-V领域是一件大事”。“任何时候你有一个虚拟机,你想要直接访问其中一个PCIe设备,你不必做所有的软件开销来切换它,所以这是数据中心应用程序的关键功能。”
威龙V2还希望成为基于RISC-V标准的兼容设计,因此对RISE的支持非常重要。
“这也是RISC-V软件生态系统倡议(RISE)兼容性的关键部分,这是一个旨在围绕RISC-V构建必要的应用生态系统的行业项目。”拉尼尔进一步解释道。
Ventana还利用RISC-V矢量扩展规范在其核心上添加了一个512位矢量处理单元,并具有AI矩阵扩展。拉尼尔声称,这将“对某些生成式人工智能或推理工作负载有很大帮助”。
此外,对DSA和Chiplet标准UCIe的支持使其能够更快地制造芯片,并允许客户添加fpga,添加ASIC加速器等。这增加了灵活性,但也降低了进入门槛,因为它允许使用使用UCIe和I/O集线器的更小的IP块来构建包。
Ventana联合创始人兼首席执行官Balaji Baktha也在RISC-V峰会上表示,Ventana客户可以使用其知识产权和其他知识产权在威龙V2上创造潜在的CPU设计。
具体到威龙V2的核心配置,它基于台积电的4nm工艺,仍然基于8流水线设计,支持乱序执行,主频高达3.6GHz。单个集群的核数增加到32个,是上一代的两倍。,多集群可扩展至192核。缓存大小也增加到每个核心1MB的二级缓存和128MB的共享集群级L3缓存。
拉尼尔声称,所有的威龙V2的新升级,其性能提高了近40%相比,上一代。官方性能预测数据显示,192核威龙V2的性能超过AMD高端服务器芯片Epyc 9754!
下面详细介绍威龙V2的几项关键升级:
互联网标准的转变
威龙V2的一个主要变化是,它将支持UCIe (Universal Chiplet Interconnect Express)标准作为Chiplet(小芯片)连接标准,而不是上一代威龙V1中的BoW(束线)接口互连总线协议标准。
据了解,BoW协议是由开放计算项目中的开放领域特定架构组控制的开放标准。
包括安培计算、阿里巴巴、AMD、Arm、思科系统、戴尔、Eliyan、富达投资、高盛、b谷歌、惠普企业、IBM、英特尔、联想、meta平台、微软、诺基亚、英伟达、Rackspace、希捷科技、Ventana和Wiwynn在内的公司都支持BoW,这是一种广泛而廉价的芯片对芯片互连协议,它使跨流程和供应商的混合小芯片的承诺成为现实。
但在2022年3月,英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、meta (Facebook)、微软等十大行业巨头成立了Chiplet标准联盟,正式推出了通用小芯片的高速互连标准。“UCIe”旨在定义一个开放的、可互操作的标准,通过先进的封装将多个硅芯片(或芯片)组合成一个封装。
UCIe标准希望与其他连接标准(如USB、PCIe和NVMe)一样通用,同时为芯片连接提供优秀的功耗和性能指标,降低IP移植成本和产品SKU的增加,加速芯片设计的创新。
虽然惠普、IBM和英伟达等主要制造商没有出现在最初的创始名单上,但他们最终加入了UCIe联盟。
Balaji Baktha表示,在与46家现有和潜在客户讨论威龙V1和V2 CPU设计时,很明显UCIe是小芯片互连的发展方向。因此,Ventana加速了Veyron V2的发布,其中包括许多RISC-V核心增强功能,因为它使用UCI Express代替BoW进行芯片互连。
下面是对BoW、AIB 2.0和UCIe 1.1互连的比较,这是对雷山论文的补充。雷山曾在IBM的TJ沃森研究中心从事互连硬件研究,现在就职于Arm服务器芯片初创公司安培计算。
正如您所看到的,UCIe的数据速率是BoW的两倍,总线带宽可以相同或高4倍。信道覆盖距离是UCIe的一半,但链路的功率效率是UCIe的两倍,时延不到BoW的一半,每毫米带宽提高35%到65%。
Balaji Baktha说:“如果芯片设计者想要使用小芯片,他们必须支持UCIe。”
“UCIe背后有巨大的推动力,因为每个人都想要一个统一的标准。怎么可能是这样一个标准。但我们不想继续构建它,因为UCIe标准有效地解决了包装成本问题,并且正在以最具成本效益的最佳水平实施开发。UCIe还解决了3D内存堆叠问题。
因此,使用UCIe实现Express 2.0很容易,并利用我们自己的专业知识来弥补与UCIe 1.0的差距。例如,UCIe根本不提供到AMBA CHI一致接口总线的链接。因此,我们在UCIe 2.0中添加了AMBA功能。”
支持512位矢量扩展
Ventana希望快速抓住并融入威龙V2核心设计的另一个重大变化是RISC-V Vector 1.0 512位矢量扩展。
这个扩展类似于2015年开始的英特尔Xeon Phi处理器中的扩展,以及2017年的“Skylake”Xeon SP处理器。
该扩展也被添加到AMD热那亚Epyc处理器就在一年前。这些512位矢量引擎实际上并不是英特尔AVX-512的克隆(就像AMD的热那亚芯片一样,至少在软件层面上),但它们足够接近,如果你想将代码从X86移植到RISC-V,它们不会成为问题。Linux开发人员创造了一个软件噩梦。
此外,512位矢量扩展将为HPC和AI工作负载提供与X86和Arm处理器竞争的性能,其中AI计算将在CPU上完成,而不是在CPU或GPU和其他加速器上完成。使用CPU外置的加速器。
Ventana在威龙V2内核中增加了512位矢量扩展,使矢量引擎能够支持矩阵运算,并允许客户将自己的矩阵引擎添加到架构中,无论是在内核中还是在使用UCIe链接的离散芯片中。
顺便说一句,威龙V1内核没有任何向量引擎或矩阵引擎扩展,这显然是一个问题,因为很多AI推理仍然发生在CPU上,在某些情况下,AI训练和HPC模拟和建模也在CPU上完成。
全新的内核架构
威龙V2设计的另一个重大变化是Ventana创建了一个重要的经过验证的RISC-V核心架构。
通过在威龙V2内核中更积极地混合指令处理并进行许多其他调整,Ventana已经能够在一筐工作负载中将每时钟指令(IPC)性能提高20%。
与威龙V1内核的3GHz相比,威龙V2内核的时钟速度也提高到了3.6 GHz,内核的性能又提高了20%。因此,在Ventana的威龙RISC-V CPU内核设计中,从V1内核到V2内核的整体性能提升了40%。
威龙V2内核是基于台积电的4nm工艺设计的,与上一代基于台积电5nm工艺的威龙V1相比,该工艺得到了进一步的改进。
威龙V2内核还支持RVA23架构配置文件,它强制使用512位矢量扩展。还有一些加密函数运行在矢量引擎上。
Ventana的Veyron V2内核也支持RV64GC规范,并实现了一个超标量的乱序管道,每个时钟周期可以解码和调度多达15条指令。由于其IOMMU设计和高级中断架构(AIA),威龙V2内核可以支持Type 1和Type 2服务器管理程序以及嵌套虚拟化。
威龙V2内核还具有用于调试、跟踪和性能监控的端口。
以上都是现代超大规模数据中心服务器cpu应该具备的功能。
V1和V2内核都没有同步超线程,就像Amazon Cloud和Ampere Computing的Arm内核没有一样,未来“Sierra Forest”Xeon SP处理器中使用的“Sierra Glen”内核也没有。
此外,威龙V2内核还具有512kb的L1指令缓存、128kb的L1数据缓存和1mb的L2数据缓存。这些核心还有一个4MB的L3缓存,在威龙V2的芯片复合体中,32个核心的L3缓存总数为128MB。
每个芯片上的核心使用专有的片上网状网络相互连接,该网络为CPU核心、内存和其他I/O提供高达5TB/秒的总带宽。
四个Veyron V2芯片可以与UCIe互连,创建一个128核的复合体,如果你真的想突破极限,你可以将最多六个芯片连接在一起,获得192核。
下面是一个基于威龙V2内核的CPU的概念图,它有一个I/O芯片和六个32核威龙V2芯片,以及一些特定领域的加速器链接:
上图显示了连接到PCI Express 5.0控制器和DDR5内存控制器的I/O集线器,但如果Ventana愿意,可以将其换成HBM3内存控制器。
默认设计在6个威龙V2芯片上有12个DDR5内存控制,在4个威龙V2芯片上有8个内存控制,这与我们今天在任何服务器CPU上看到的配置相同。
优于AMD Epyc 9754
当Ventana的威龙V1发布时,它声称它的性能超过了AMD EPYC 7763。那么威龙V2的性能能有多强呢?
以下是Ventana如何模拟威龙V2的整数性能,以及每个插槽的原始SPECint2017性能:
根据Ventana公布的数据,192核威龙V2 RISC-V CPU的整数吞吐量将比配备相同360瓦功率范围的AMD“Bergamo”Epyc 9754处理器高23%。128核256线程;
同样,威龙V2比96核AMD“热那亚”Epyc 9654高约34%;与56核的Intel“Sapphire Rapids”至强SP 8480+相比,威龙V2的性能提升了2.7倍。
这并不奇怪,因为威龙V2的内核多了3.4倍,线程多了1.7倍,尽管威龙V2内核必须以较低的时钟速度运行;
另一款基于Arm Neoverse V2的64核产品似乎是亚马逊云(AWS) gravon3的替代品。它有64核,性能略高于英特尔Sapphire Rapids Xeon SP 8480+核,但只有威龙V2的一半。的到来。
支持DSA
威龙V2还支持DSA(针对特定领域的定制和优化设计),该功能允许客户在其soc中添加定制加速器芯片。
Lanier表示,这是针对那些可能希望在数据中心增加特定工作负载的超大规模客户的,例如压缩和加密,网络中的TCP卸载处理或数据库中的密钥/值处理。这些加速器芯片通过Ventana添加的自定义指令由威龙V2内核提供动力,这是整个RISC-V架构的主要卖点。
在这种情况下,自定义指令使软件能够调用加速器,这可以看作是英特尔处理器使用指令调用浮点单元(FPU)的方式的回声,当其中一个是可选的单独的FPU (FPU)时。
△Ventana可编程DSA
总之,Ventana的目标是使其客户设计能够使用这些DSA芯片(无论是fpga还是asic)来提供更好的工作负载效率,而不仅仅是最大的SPECint吞吐量。
安全性大大提高
Veyron V2的另一个特点是它支持全面的RAS,具有ECC功能,并防止数据中毒。
如今,数据中心处理器还需要安全引导和身份验证功能。威龙V2的设计也更能抵御侧信道攻击,比如spectre和Meltdown漏洞,这些漏洞会导致服务器内存中的数据被盗。
然而,Lanier强调,这并不意味着威龙V2芯片不能受到此类攻击的攻击,而是V2在设计时就了解这些攻击是如何进行的,并且可以在一定程度上阻止它们。“数据中心客户为受影响的服务器运行软件补丁或缓解措施的成本通常会使性能降低10%甚至20%。”
2024年第三季度投产
Ventana还将提供基于威龙V2的192核1U服务器参考设计,具有4个128核芯片和12通道DDR5-5600内存。芯片上有一个UCI Express互连和一个I/O接口,可以将它们放置在服务器CPU插槽内。
据报道,威龙V2将于2024年第三季度投产,届时有望推出用于连接小型芯片的UCIe 1.1 PHY。
编辑:核心情报-茹茹尼剑
来源:
https://www.theregister.com/2023/11/07/ventana_riscv_server/



