NVIDIA RTX 30系列架构详解(三)
GA102核心的SM单元
按照之前图灵GPU的路线走,安培GPU的SM单元增加的并不多,但实际上FP32性能翻倍了还多,算上频率,RTX 3080的理论性能差不多是RTX 2080的三倍了,这是怎么做到的?
答案就是CUDA核心的FP32翻倍,但翻倍的方式有点特殊,每个SM单元中有4个分区,每个分区除了第三代Tensor Core核心之外,还有一组是16个FP32单元及16个FP32、16个IN32组成的单元,后者可以同时执行FP32或者INT32运算。
16个FP32单元每周期可执行16个FP32运算,混合的那个单元可以执行32个FP32或者16个FP32+16个INT32。
如此一来,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。
只算FP32浮点的话,那么就是浮点翻倍了,因为图灵以及GA100都是每周期64个FP32浮点而已,现在可以做128个FP32运算了。
提升FP32性能不论对游戏还是运算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1带宽从116GB/s翻倍到219GB/s,共享内存的性能也从每周期64B翻倍到128B。
推荐
-
焦点事件
-
焦点事件
-
投融资
-
焦点事件
-
科技前沿
-
企业风采
-
企业风采
-
企业风采
-
焦点事件
-
企业风采
-
企业风采
-
企业风采
-
精英视角
-
精英视角
-
精英视角
-
精英视角
-
精英视角
-
焦点事件
-
焦点事件
-
综述
-
焦点事件
-
焦点事件
-
企业风采
-
焦点事件
-
会议会展
-
市场商机
-
焦点事件
-
焦点事件
-
焦点事件
-
产品技术
-
焦点事件
-
精英视角
-
企业风采
-
企业风采
-
项目成果
-
企业风采
-
科技前沿
-
企业风采
-
产品技术
-
焦点事件
-
焦点事件
-
财报
-
企业风采
-
焦点事件
-
技术原理
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
焦点事件
-
项目成果
-
焦点事件
-
综述
-
产品技术
-
企业风采