网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
04月02日
漏签
0
天
ati吧
关注:
51,930
贴子:
636,733
看贴
图片
吧主推荐
视频
游戏
12
回复贴,共
1
页
<<返回ati吧
>0< 加载中...
RDNA3的Fp16和40系列对比
只看楼主
收藏
回复
shadowswim
HD4890
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
可以看到,RDNA3的fp16算力是fp32的两倍,而40系列的fp16算力分两块,一部分是1:1,另一部分Tensor Core则是4倍于fp32。
换言之,相同fp32的算力规格,fp16的算力是2:5。
我看有些报道里说RDNA3有AI core,但是没怎么找到具体资料,有人说就是传统的CU里增加的fp16算力。
如果按照这个算力规格的话,大多数fp16 training和inference场景,同价位的显卡性能至少要落后一半了
shadowswim
HD4890
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
在chiphell上看到这么一段话
“AMD 所谓的 AI 矩阵加速器使用 SIMD 单元,任何此类计算(称为 Wave Matrix Multiply Accumulate,WMMA)将使用整组 64 ALU”
我的理解是,wmma(也就是fp16或更低精度的矩阵加速)是能让调度器更高效率调度CU算矩阵,而不是有一个独立于ALU的计算单元。
如果有benchmark或者应用跑fp16但又不能调用wmma的话,那么rdna3的fp16会很有价值的。
北京奇虎科技有限公司
radeongraphics显卡实时网络监控 + 智能丢包重传,跨国联机也流畅!
2025-04-02 23:02
广告
立即查看
shadowswim
HD4890
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
另外还看到个链接也分析了这个算力问题,
题目是:Recomputing ML GPU performance: AMD vs. NVIDIA
贴吧用户_0JN9RyJ
Vega
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
等下新驱动再说……12.1里面性能倒退
Aqvjrm
9800xt
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
秒爷说RDNA3的WMMA是功能性的,大概就是这个意思。
CGBull
9700pro
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
amd通算fp16一直是跑simd32 rpm提供的两倍于fp32吞吐量。rdna3这代wmma是有单独的dot2/4 simd64的,结合一些资源调度优化可以实现双倍于fp32的fp/bf 16矩阵乘累加。这个矩阵算力只能打平ad102的tensor算力。再就是fp16在mobile与console的游戏里是很常见的优化资源压力的手段。
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示