多模态入门--CLIP

发表于 2024-10-01 分类于 CS ，多模态本文字数： 3.2k 阅读时长 ≈ 6 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

放假了，小小水一篇多模态的经典之作，CLIP。

论文：《Learning Transferable Visual Models From Natural Language Supervision》

时间：2021年3月

机构：OpenAI

又是Ilya参与的一个工作。

CLIP = Contrastive Language-Image Pre-training，顾名思义，这是一个基于对比学习的语言图像多模态学习方法。CLIP训练的目的其实主要还是获得通用的图像表征模型，因此在CLIP框架里，语言数据可以认为是作为监督信号存在的，类似图像分类任务中的类别信号，只是从一个one hot label扩展成了自然语言的形式。使用自然语言作为监督信号的好处是，自然语言信号更加灵活，可以支持扩展到zero-shot的推理，并且能够提供更加丰富的监督信息。

数据

其实在CLIP之前就有好些多模态训练的工作，但是效果没有这么好，原因主要是数据量不够大，另外就是对自然语言数据使用不够好，未能充分发挥自然语言的作用。因此一个很重要的工作就是构建数据集。CLIP是这么干的：
- 以英文维基百科中出现至少 100 次的所有单词为基础构建词集，并增加了双词组合和所有 WordNet 同义词
- 爬取网上的数据，试（图像，文本）数据对中的文本包含词集中的一个词
- 为了尽可能覆盖广泛的视觉概念，对结果进行平衡，每个概念最多包括 20,000 个（图像，文本）对
- 构建的 WIT（WebImageText）数据集包含 4 亿个（图像，文本）对

WIT数据集比之前很多多模态数据集都大，包含的内容也更丰富。

训练框架

CLIP预训练框架如下图：

text encoder和image encoder分别对文本和图像进行编码。text encoder通过对比学习，把文本的表征向match的图像靠拢，而和batch内其他图像，也就是负样本的距离尽量拉大。image encoder也是同样地学习图像表征。

训练的pseudo-code如下：

# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter
# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]
# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)
# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2

在clip的训练框架中，text encoder和image encoder的地位是对称的。

和之前的对比学习一样，为了提升学习的效果，负样本需要尽量多，因此实验中使用32,768的batch size。

理论上，text encoder和image encoder可以是任意模型。OpenAI选择了ResNet/EfficientNet-style的模型和几个ViT（ViT-B/32、ViT-B/16、ViT-L/14）作为image encoder进行实验，而text encoder则是使用GPT-2的结构，最后一层的 [EOS] token 就作为text representation。

训练中，image encoder和text encoder都是随机初始化的，不需要预先训练。

使用

完成预训练之后，一个常规的用法是基于image encoder进行微调，包括仅训练classifier，和完整模型的训练。

CLIP另一个强项就是可以做zero-shot predictor。比如我们想要知道让预训练模型对一张图片的类别进行预测，可以把所有可能的类别填进一个prompt里：“A photo of {object}”，然后让text encoder给出所有representation，并计算不同类别下的text representation和image representation的相似度，取最高的那个就是预测结果了：

当然CLIP的用法不仅是可以做zero-shot的图像分类，后续还有很多其他应用方法，挖个坑后面来填。

博客：http://www.linsight.cn/
知乎：Linsight
微信公众号：Linsight
博主微信号(添加请注明来意)：

Reference

【1】Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020