RDNA3的Fp16和40系列对比

可以看到，RDNA3的fp16算力是fp32的两倍，而40系列的fp16算力分两块，一部分是1:1，另一部分Tensor Core则是4倍于fp32。
换言之，相同fp32的算力规格，fp16的算力是2:5。
我看有些报道里说RDNA3有AI core，但是没怎么找到具体资料，有人说就是传统的CU里增加的fp16算力。
如果按照这个算力规格的话，大多数fp16 training和inference场景，同价位的显卡性能至少要落后一半了

在chiphell上看到这么一段话
“AMD 所谓的 AI 矩阵加速器使用 SIMD 单元，任何此类计算（称为 Wave Matrix Multiply Accumulate，WMMA）将使用整组 64 ALU”
我的理解是，wmma（也就是fp16或更低精度的矩阵加速）是能让调度器更高效率调度CU算矩阵，而不是有一个独立于ALU的计算单元。
如果有benchmark或者应用跑fp16但又不能调用wmma的话，那么rdna3的fp16会很有价值的。

北京奇虎科技有限公司

radeongraphics显卡实时网络监控 + 智能丢包重传，跨国联机也流畅!

2025-04-02 23:02广告

立即查看

另外还看到个链接也分析了这个算力问题，
题目是：Recomputing ML GPU performance: AMD vs. NVIDIA

等下新驱动再说……12.1里面性能倒退

秒爷说RDNA3的WMMA是功能性的，大概就是这个意思。

amd通算fp16一直是跑simd32 rpm提供的两倍于fp32吞吐量。rdna3这代wmma是有单独的dot2/4 simd64的，结合一些资源调度优化可以实现双倍于fp32的fp/bf 16矩阵乘累加。这个矩阵算力只能打平ad102的tensor算力。再就是fp16在mobile与console的游戏里是很常见的优化资源压力的手段。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

12回复贴，共1页

<<返回ati吧

分享到:

日	一	二	三	四	五	六