当前的多模态大模型(MLLMs)取得了显著进展。然而,选择合适的 vision encoder 一直是一个经验性很强的过程,通常来讲研究人员需要对特定的 vision encoder 进行 pretrain+finetune,然后在多模态的 benchmark 上进行 performance 的测量。 这种方法开销很大,且未能深入探讨 ...