背景
多模态理解与生成是一个新兴的研究领域,许多研究项目已经展示了在优化生成和理解基准测试中联合优化的潜力。然而,现有的模型大多只在标准的图像生成和理解任务中的图像-文本配对数据上进行训练,导致学术模型与专有系统(如GPT-4o和Gemin
2025-07-16