G710、G510、G310分别定位旗舰、主流、入门级市场,依次取代现有的G78、G57、G31。
G610继承了Mali-G710的所有功能,但价格更低,只是相比G710核心数较少。
G710综合性能提升20%、机器学习性能提升35%、纹理性能提升50%、能效提升20%,用于高端旗舰智能手机;
作为ValhallGPU架构的延续G710的执行引擎设计和G77、G78十分类似,变化更多是一些细节。
在上图中,“8x”和“4x”指标是关于每个内核每个周期的吞吐量;可以看到每核心每时钟周期的不同吞吐量也有4倍、8倍的增加。
我们看到从16宽(warp宽)处理元素和执行单元的单个实例转变为4宽执行单元的四个实例。设计之间的吞吐量没有改变,但新的微架构为处理元素提供了更多专用资源,并允许更好的结构以提高效率。
总体而言,新的执行引擎设计使FMA每个内核的每时钟频率增加了一倍,也有利于将着色器内核内的能量分布从执行引擎降低20%。
另外,传统的工作管理器(JobManager)变成了新的“指令流前端”(CommandStreamFrontend),负责调度和处理draw-call,CSF引入了一种未公开性质的新CPU,还首次引入固件层,与硬件紧密配合处理主机需求。(drawcall是CPU向GPU发出的一种命令,CPU每调用一次API让GPU进行一次绘制,就是一次drawcall)。
G710可以配置8-16个不同核心数,G610则是最多6个核心,另外二级缓存可以配置2个或4个区块,每个区块256KB或者512KB,也就是整体最小512KB,最多2MB。
在中低端,新的Mali-G510和Mali-G310是对市场之前G57和G31的改进。
G510综合性能提升100%、机器学习性能提升100%、能效提升22%,电池寿命更长,ML提升100%,适用于中端智能手机、高级智能电视和机顶盒;
G510支持2-6个核心配置,每核心每执行单元的配置也可以定制,shader核心以外纹理单元可选配每周期4纹素或每周期8纹素,使得纹理单元也大大加强。
加上L2cache可选配,就决定了Mali-G510可以有很多种配置选择,实现多种多样的性能。
在执行引擎方面,执行引擎还是2个,但也可以配置为只用1个,从而可以将每时钟周期从64FMA减少到48FMA(每周期FMA执行能力在48-64之间可选);
ARM列举了G51010种可能的不同规格配置,计算能力、填充率各有不同,适合不同应用需求。
G310以最小的面积成本提供最高的性能,虽然定位最低但变化最大,号称纹理性能提升多达6倍、Vulkan性能提升4.5倍、安卓UI内容性能提升2倍;适用于入门级智能手机、AR设备和可穿戴设备。
与上一代最小的MaliIP产品G31相比,这款GPU实际上是一个重大的性能飞跃,从Bifrost架构向新Valhall设计的转变。
采用了新的执行引擎设计,支持灵活的规模配置,允许将集群进一步缩小到每个EE仅一个,并且还允许在最低配置中只允许一个EE,允许每核心可以有16、32、48、64FMA,纹理单元最低则是每时钟周期2个。
不过,G310仅支持单核心设计,因此配置仅通过更改该核心内的不同执行单元来实现。
从Mali-G710到G610是核心数减配;而到G510,除了核心数减配,还包括shader核心规模、纹理单元规模等的减配;G310则属于核心再减配,并对shader核心规模和其他各部分单元再再减配的低配版。