自动混合精度训练
NVIDIA从Volta架构之后就增加了专门用于加速矩阵乘法和累加操作的TensorCore硬件单元,在半精度甚至更低精度计算任务中相比传统CUDA核心可以实现数倍加速。
结合混合精度的训练方法可以在充分利用低精度优秀的计
2025-03-13