又到了ARM每年架构更新的时候。昨天晚间消息,ARM推出移动端新架构,分别为超大核心Cortex-X2、大核心Cortex-A710、小核心Cortex-A510,代替现有的X1、A78、A55。
终于,使用多年的A55小核更新了。同时三款CPU架构均基于Armv9兼容设计,其中X2仅支持AArch64 64位指令,拥有全新层级的性能。先来看Cortex-X2,官方表示在同一节点上构建并在相同频率的环境下,X2相比X1内核实现16%的速度提升。同时优化了X2的峰值性能,机器学习(ML)性能翻了一倍。 前端方面,分支预测与预取单元解耦分离,从而可以在内核之前提前运行,从而减少预测错误,同时改进了分支预测精度,提升了大型指令负载的性能。核心方面,流水线长度从11个指令周期减少到10个,其中分派阶段从2个周期减少到1个。乱序执行窗口增大了最多30%,244条增至最多288条。 后端方面,载入存储窗口和结构增大了33%,可以提升内存级并行度,一级缓存d-TLB也增大了20%,另外增强了数据预取能力。综上所述,ARM号称X2的最高单线程性能比英特尔i5-1135G7高出40%。然后是A710、A510,同样基于ARMv9 64位指令集,架构上和X2相通,因此可以集成于同一颗SoC。不过需要注意的是,X2、A510都是64位,不再兼容32位,A710则应中国客户要求特殊设计的,继续支持OL0 AArch32。 A710同样改进了分支预测,精度更高,一级指令缓存TLB也从32条增至48条,不过macro-OP缓存仍然是1.5K(X2 3K)。macro-OP缓存、分支单元的宽度从6缩减到了5,主要是功耗、能效优化考虑,也是X、A系列的重要区分。 因此,Cortex-A710只是比A78快10%(在同一节点和频率上),但能效提高了30%,而且机器学习速度也是翻了一番。 最后是A510,也是最为重要的升级,相比三年前的A55提升35-62%%不等,功耗降低20%,机器学习能力提升3倍。根据ARM的说法,A510在性能方面接近之前的A大核芯。也就是说,未来采用A510的SoC的中低端机型,将有着相当大的性能提升。