Pompeii BL
从来
大语言模型中的Norm和激活函数 大语言模型中的Norm和激活函数
Norm 归一化策略主要是为了加强神经网络训练过程的稳定性,具体来说可以归纳为以下几点: - 加速收敛:归一化可以减少内部协变量偏移(internal covariate shift)以使得输入数据的分布更加均匀,学习过程中不用再考虑数据分
2025-03-18
大模型优化-FlashAttention-v2/v3 大模型优化-FlashAttention-v2/v3
FlashAttention-v1回顾 我们先快速回顾一下V1的运作流程:以K,V为外循环,Q为内循环。 FlashAttention-v2 FlashAttention V2 出自论文(《FlashAttention-2: Faster
2024-12-10
大模型优化-FlashAttention-v1 大模型优化-FlashAttention-v1
前言 在传统的自注意力机制中,注意力矩阵的计算复杂度为 O(N²),其中 N 是序列的长度。对于长序列的输入(如文本或图像中的像素点),这种计算代价极高,特别是在训练大型语言模型或视觉模型时,内存占用和计算开销随着序列长度的增加而急剧上升。
2024-12-07
大模型高效微调方法PEFT--LoRA/QLoRA 大模型高效微调方法PEFT--LoRA/QLoRA
参数高效微调PEFT 微调 微调(Fine-tuning)是一种迁移学习的技术,用于在一个已经预训练好的模型基础上,通过进一步训练来适应特定的任务或数据集。微调可以在具有相似特征的任务之间共享知识,从而加快训练速度并提高模型性能。 以下是一
2024-12-04
大模型优化--PagedAttention 大模型优化--PagedAttention
前言 基于KV Cache的大模型推理过程通常分为两个阶段:Prefill 和 Decoding。 在 Prefill 阶段,推理引擎将整段 prompt 输入模型进行前向计算。如果引入了 KV Cache 技术,prompt 经 Wk
2024-12-03
大模型优化--KV Cache 大模型优化--KV Cache
KV Cache 介绍 KV Cache是Transformer标配的推理加速功能,transformer官方use_cache这个参数默认是True,但是它只能用于Decoder架构的模型,这是因为Decoder有Causal Mask,
2024-12-02
大模型显存占用分析 大模型显存占用分析
大模型消耗的显存 在详细说明大模型需要消耗的显存大小之前我们需要先明确几个概念。 一个就是大模型在不同阶段对显存的消耗是不同的。但是大致可以分为三个阶段或者说三个场景。即大模型预训练阶段、大模型微调阶段和大模型推理阶段。 - 在预训练阶段,
2024-11-30