前几天发现x265,突然一声不响的把AVX512针对性优化放出来了,一共三百余项优化,涵盖从去年6月份开始的近一年的改进。结果今天居然准备大版本直接跃进到3.0了。发现之前官方出了一篇报告,称xeon scalable上,4K HDR下,"最大"能提升18%的性能。相比前一代(xeon E5 V4)"最大"提升56%。
整篇白皮书读下来,感觉avx512优化真心难。。。白皮书里面对比的应该是同频,而实际avx-512受频率低,TDP限制等,反而可能并没有明显的提升。(比如8180的全核心睿频,avx2最高2.8g,avx-512最高2.3g)。注意到这所谓18%,只是"特定"预设下,"特定"4核心,"特定"同频2.5g低频对比的结果,随着4->8->10,幅度越来越不明显(这里的7900x十核是1.2Ghz下的。。。),甚至还不如avx2。如果实际环境下,频率正常,随着核心数增加,内存带宽的局限会非常明显(6通道下,8核已经区别不大了),我认为几乎不会有任何可观提升。
当年我曾经众测过x265-1.8在不同架构下,有无avx2的表现。“同频”+“同样”4核心下,4代haswell架构相对3代ivybridge架构,性能提升47%;6代skylake架构相对3代ivybridge架构,性能提升73%。希望以后x265和intel能共同努力,提升avx-512在实际应用中的表现吧,虽然这个愿望可能非常渺茫。
整篇白皮书读下来,感觉avx512优化真心难。。。白皮书里面对比的应该是同频,而实际avx-512受频率低,TDP限制等,反而可能并没有明显的提升。(比如8180的全核心睿频,avx2最高2.8g,avx-512最高2.3g)。注意到这所谓18%,只是"特定"预设下,"特定"4核心,"特定"同频2.5g低频对比的结果,随着4->8->10,幅度越来越不明显(这里的7900x十核是1.2Ghz下的。。。),甚至还不如avx2。如果实际环境下,频率正常,随着核心数增加,内存带宽的局限会非常明显(6通道下,8核已经区别不大了),我认为几乎不会有任何可观提升。
当年我曾经众测过x265-1.8在不同架构下,有无avx2的表现。“同频”+“同样”4核心下,4代haswell架构相对3代ivybridge架构,性能提升47%;6代skylake架构相对3代ivybridge架构,性能提升73%。希望以后x265和intel能共同努力,提升avx-512在实际应用中的表现吧,虽然这个愿望可能非常渺茫。