大模型优化-FlashAttention-v2/v3

LLMs FlashAttention

LLMs

发布日期: 2024-12-10

更新日期: 2024-12-17

文章字数: 224

阅读时长: 1 分

阅读次数:

FlashAttention-v1回顾

我们先快速回顾一下V1的运作流程：以K，V为外循环，Q为内循环。

FlashAttention V2 出自论文(《FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning》)[https://arxiv.org/pdf/2307.08691]，主要改进包括：

Flash Attention V3 出自论文(《FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision》)[https://arxiv.org/pdf/2407.08608]，主要改进如下：

引入生产者-消费者异步机制，提升并行度。优化 GEMM 和 Softmax 操作的重叠计算。支持 FP8 低精度硬件加速，提升吞吐量并减少精度损失。

参考： > 图解大模型计算加速系列：Flash Attention V2，从原理到并行计算: https://zhuanlan.zhihu.com/p/691067658

庞贝堡垒

http://baoblei.github.io/2024/12/10/da-mo-xing-you-hua-flashattention-v2-v3/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源庞贝堡垒 !

LLMs FlashAttention

2024-12-10 杂谈

经济发展

2024-12-07 hexo

hexo hexo公式渲染