归档: 2025/3 | 庞贝堡垒

2025

03

27

BLIP2 & Q-former

Q-former 是 BLIP2 中提出的一个模块，目的在于从视觉编码器中提取出与文本最相关的视觉表示，而这种表示能够为大语言模型所解释。 1.BLIP2 1.1 组成 BLIP-2 由以下三个主要组件组成： Image Encoder：

2025-03-27 深度学习

26

分类任务中用MSE和CE损失的区别

1. 分类任务的解释 1.1 二分类对于一个二分类任务来说，输出层通常使用sigmoid函数，输出一个0-1之间的标量，表示分类为正例的概率。损失函数习惯使用二元交叉熵损失（Binary Cross Entropy Loss）： \[ L

2025-03-26 机器学习

MSE CE

18

大语言模型中的Norm和激活函数

Norm 归一化策略主要是为了加强神经网络训练过程的稳定性，具体来说可以归纳为以下几点：加速收敛：归一化可以减少内部协变量偏移（internal covariate shift）以使得输入数据的分布更加均匀，学习过程中不用再考虑数据分布

2025-03-18 LLMs

LLMs LayerNorm BatchNorm RMSNorm GLU SwiGLU

13

大模型动力引擎-高级优化方法专题

自动混合精度训练 NVIDIA从Volta架构之后就增加了专门用于加速矩阵乘法和累加操作的TensorCore硬件单元，在半精度甚至更低精度计算任务中相比传统CUDA核心可以实现数倍加速。结合混合精度的训练方法可以在充分利用低精度优秀的计

2025-03-13 《大模型动力引擎》阅读笔记

《大模型动力引擎》高级优化方法

13

大模型动力引擎-分布式训练专题

分布式训练的原理目前流行的分布式策略有很多种，主要分为切数据(data parallel)和切模型(model parallel)两个大的方向。不同策略的算法和实现差异较大，但不外乎两个出发点： - 用通信开销来置换更紧缺的资源。分布式系

2025-03-13 《大模型动力引擎》阅读笔记

《大模型动力引擎》分布式训练

12

大模型动力引擎-单卡显存优化专题

Pytorch的显存管理机制显存池机制: 每当需要为张量分配显存时，PyTorch不会只申请张量所需的显存大小，而是向驱动一次性申请一块更大的显存空间，这样多出来的显存空间就会被显存池缓存下来。除此以外，任何张量在销毁后，其占用的显存空

2025-03-12 《大模型动力引擎》阅读笔记

《大模型动力引擎》单卡显存优化

12

大模型动力引擎-单卡性能优化专题

在单卡GPU训练环境中，性能问题主要分为四类： - GPU被阻塞：这是由于数据预处理或传输任务等前置依赖未完成，导致GPU计算资源空闲等待的情况。 - GPU运行效率不高：这通常是因为GPU上的计算任务设计得不够好，未能充分发挥硬件的计算能

2025-03-12 《大模型动力引擎》阅读笔记

《大模型动力引擎》单卡性能优化

11

大模型动力引擎-数据加载和预处理

数据接入准备对于一些经典任务可以从公共数据集中抽取小规模子集来快速进行收敛性验证，排除代码错误。 ### 常用公开数据集数据集的获取和预处理获取原始数据主要包含两个来源： - 公开数据集 - 自定义数据集原始数据的清洗一个算

2025-03-11 《大模型动力引擎》阅读笔记

《大模型动力引擎》数据加载和预处理

10

大模型动力引擎-定位性能瓶颈的工具

性能瓶颈定位工具为了保证分析结果的可靠性，对测试环境的稳定性有一定要求。由于程序运行的软件和硬件环境中影响因素较多，本节将根据重要性排序，依次介绍提升测试稳定性的方法。减少无关程序的干扰为了保证分析结果的可靠性，对测试环境的稳定性有一

2025-03-10 《大模型动力引擎》阅读笔记

《大模型动力引擎》性能瓶颈 PyTorch

10

线性代数-半正定与正定矩阵

基本定义正定矩阵：一个 n×n 的实对称矩阵 \(A\)，如果对于任何非零向量 \(x \in \mathbb{R}^n\)，都满足：\(x^TAx > 0\)，则称 \(A\) 为正定矩阵。半正定矩阵：一个 n×n 的实对

2025-03-10 线性代数

线性代数正定/半正定矩阵