因热爱 而成长
欲买桂花同载酒,终不似,少年游
大语言模型中的Norm和激活函数 大语言模型中的Norm和激活函数
Norm 归一化策略主要是为了加强神经网络训练过程的稳定性,具体来说可以归纳为以下几点: - 加速收敛:归一化可以减少内部协变量偏移(internal covariate shift)以使得输入数据的分布更加均匀,学习过程中不用再考虑数据分
2025-03-18
大模型动力引擎-高级优化方法专题 大模型动力引擎-高级优化方法专题
自动混合精度训练 NVIDIA从Volta架构之后就增加了专门用于加速矩阵乘法和累加操作的TensorCore硬件单元,在半精度甚至更低精度计算任务中相比传统CUDA核心可以实现数倍加速。 结合混合精度的训练方法可以在充分利用低精度优秀的计
大模型动力引擎-分布式训练专题 大模型动力引擎-分布式训练专题
分布式训练的原理 目前流行的分布式策略有很多种,主要分为切数据(data parallel)和切模型(model parallel)两个大的方向。不同策略的算法和实现差异较大,但不外乎两个出发点: - 用通信开销来置换更紧缺的资源。分布式系
大模型动力引擎-单卡显存优化专题 大模型动力引擎-单卡显存优化专题
Pytorch的显存管理机制 显存池机制: 每当需要为张量分配显存时,PyTorch不会只申请张量所需的显存大小,而是向驱动一次性申请一块更大的显存空间,这样多出来的显存空间就会被显存池缓存下来。 除此以外,任何张量在销毁后,其占用的显存空
大模型动力引擎-单卡性能优化专题 大模型动力引擎-单卡性能优化专题
在单卡GPU训练环境中,性能问题主要分为四类: - GPU被阻塞:这是由于数据预处理或传输任务等前置依赖未完成,导致GPU计算资源空闲等待的情况。 - GPU运行效率不高:这通常是因为GPU上的计算任务设计得不够好,未能充分发挥硬件的计算能
大模型动力引擎-数据加载和预处理 大模型动力引擎-数据加载和预处理
数据接入准备 对于一些经典任务可以从公共数据集中抽取小规模子集来快速进行收敛性验证,排除代码错误。 ### 常用公开数据集 数据集的获取和预处理 获取原始数据 主要包含两个来源: - 公开数据集 - 自定义数据集 原始数据的清洗 一个算
大模型动力引擎-定位性能瓶颈的工具 大模型动力引擎-定位性能瓶颈的工具
性能瓶颈定位工具 为了保证分析结果的可靠性,对测试环境的稳定性有一定要求。由于程序运行的软件和硬件环境中影响因素较多,本节将根据重要性排序,依次介绍提升测试稳定性的方法。 减少无关程序的干扰 为了保证分析结果的可靠性,对测试环境的稳定性有一
线性代数-半正定与正定矩阵 线性代数-半正定与正定矩阵
基本定义 正定矩阵:一个 n×n 的实对称矩阵 \(A\),如果对于任何非零向量 \(x \in \mathbb{R}^n\),都满足:\(x^TAx > 0\),则称 \(A\) 为正定矩阵。 半正定矩阵:一个 n×n 的实对
2025-03-10
大模型动力引擎-深度学习必备的PyTorch 大模型动力引擎-深度学习必备的PyTorch
本章将从PyTorch的核心概念——张量和算子讲起,逐步深入PyTorch的内存分配、基于动态图的运行机制,以及作为训练框架的杀手锏级特性——自动微分系统的底层原理 PyTorch的张量数据结构 Pytorch通过张量(torch.Tens
大模型动力引擎-深度学习必备硬件知识 大模型动力引擎-深度学习必备硬件知识
GPU与内存 深度学习模型的基础计算单元是"算子",本质上是将输入映射为输出的计算过程,对于古老的CPU-内存体系来说,算子遵循一下步骤: - 从内存中读取输入数据 - 对独到的数据调用CPU指令,完成算子计算 - 将计算结果写回内存 内存
1 / 4