Q-former 是 BLIP2
中提出的一个模块,目的在于从视觉编码器中提取出与文本最相关的视觉表示,而这种表示能够为大语言模型所解释。
1.BLIP2
1.1 组成
BLIP-2 由以下三个主要组件组成:
Image
Encoder:
2025-03-27