归档 | 庞贝堡垒

2024

12

07

我们平时使用markdown写文档的时候，免不了会碰到数学公式，好在有强大的Mathjax，可以解析网页上的数学公式，大部分情况下都是可以的，但是Markdwon本身的特殊符号与Latex中的符号会出现冲突的时候: _的转义，在markd

2024-12-07 hexo

hexo hexo公式渲染

07

前言在传统的自注意力机制中，注意力矩阵的计算复杂度为 O(N²)，其中 N 是序列的长度。对于长序列的输入（如文本或图像中的像素点），这种计算代价极高，特别是在训练大型语言模型或视觉模型时，内存占用和计算开销随着序列长度的增加而急剧上升。

2024-12-07 LLMs

LLMs FlashAttention

04

背景在建立好我们的博客或者个人网站后，需要再让自己的链接被搜索引擎所收录。这里有两种方法能够被搜索引擎添加自己网站的索引。一个是自己努力提高自己的网站知名度，让搜索引擎主动去添加索引。另外一种就是自己把自己的链接添加到搜索引擎的索引当中。

2024-12-04 google search console

hexo sitemap google search console

04

参数高效微调PEFT 微调微调（Fine-tuning）是一种迁移学习的技术，用于在一个已经预训练好的模型基础上，通过进一步训练来适应特定的任务或数据集。微调可以在具有相似特征的任务之间共享知识，从而加快训练速度并提高模型性能。以下是一

2024-12-04 LLMs

深度学习 LoRA PEFT

03

前言基于KV Cache的大模型推理过程通常分为两个阶段：Prefill 和 Decoding。在 Prefill 阶段，推理引擎将整段 prompt 输入模型进行前向计算。如果引入了 KV Cache 技术，prompt 经 Wk

2024-12-03 LLMs

深度学习 LLM PagedAttention

02

KV Cache 介绍 KV Cache是Transformer标配的推理加速功能，transformer官方use_cache这个参数默认是True，但是它只能用于Decoder架构的模型，这是因为Decoder有Causal Mask，

2024-12-02 LLMs

深度学习 LLM KV Cache MQA GQA

11

30

大模型消耗的显存在详细说明大模型需要消耗的显存大小之前我们需要先明确几个概念。一个就是大模型在不同阶段对显存的消耗是不同的。但是大致可以分为三个阶段或者说三个场景。即大模型预训练阶段、大模型微调阶段和大模型推理阶段。 - 在预训练阶段，

2024-11-30 LLMs

LLMs 深度学习 KV Cache AI LoRA

28

基础搭建 Hexo 选一个博客框架，hexo是静态网站框架，基于nodejs，可以生成静态网页，部署到github上。需要提前安装git，nodejs。 - check git version: git --version - check

2024-11-28 hexo

hexo next 个人静态博客搭建