smart media paper note

tirg

Composing Text and Image for Image Retrieval - An Empirical Odyssey

Posted by shay on October 6, 2020

TIRG

《Composing Text and Image for Image Retrieval - An Empirical Odyssey》是2018年被CVPR收录的一篇论文。主要研究的问题是带有修改任务的图像检索。例如。我们可能提供一张埃菲尔铁塔照片，然后想让系统查询出没有人并且是夜间的照片。

这个问题可被看作：

本文作者主要有三点贡献

系统研究了图像检索的特征合成，提出了一种新的方法。
创造了一种新的数据集CSS。
算法提升了在Fashion-200K和MIT-States数据集上的检索效果。

方法

文中提出的方法是在空间维度，建立图片和文本结合的嵌入空间，使用ResNet提取图片卷积特征fimg(x) =$\phi$，使用LSTM提取文本特征text(t) =$\phi$t，并结合二者$\phi$xt=fcombine($\phi$x,$\phi$t)。

已有方法

Only 图像
Only 文本
将\(\phi\)x,\(\phi\)t使用MLP方法进行连接计算。本文中使用2层MLP进行残差计算。
先使用LSTM编码图片特征，再逐步加入文本，最后生成\(\phi\)xt。（Show and Tell）
将文本嵌入作为转换矩阵对图片进行变换。
使用哈希编码文本特征，并将其应用于图片特征，用于替换CNN最后的全连接网络，最终输出图片和文本结合的表征。
寻找相关性是图片问答中常用的方法，从卷积网络中提取2d的图片特征，然后用串联的方式将文本特征与2d图片中特征提取的2个局部特征相结合，送入MLP，对输出的表征取均值得到最终表征。
FiLM将文本特征注入CNN网络，处理CNN的每一层数据，使用文本对图片特征做简单地仿射变换。

本文方法

使用残差网络和门网络结合的办法。称为TIRG。总的公式如下：

门控公式如下：

残差网络公式如下：

度量方法

图像文本查询表征：

正例表征：

训练时选择一个正例和k-1个反例进行训练。minibatch为B，重复M次。利用softmax+交叉熵计算损失。如下：

当k=2时，loss公式可重写为：

如果k=2，我们选择M=B-1，这样每一个样例i都可以和所有的可能反例为一对。

选择更大的K，每一个样例都能与更多的反例比较，这样取M=1，loss公式可简化为：

当K增大时，会使得实验更有识别力，识别更迅速，也更容易导致过拟合。因为fashion200k数据集更难被覆盖，所以选择K=B。其余两个数据集选择K=2.

实验

作者使用了fashion200k，MIT-States，CSS三个数据集。在fashion200k和MIT-states中，作者修正了最后的fc层，让特征更加全局和抽象。在CSS中修正了最后的2d特征图，捕捉更低维度和空间变化。