VAL

《Image Search with Text Feedback by Visiolinguistic Attention Learning》是2020年被CVPR收录的一篇论文。主要研究的问题是带文本反馈的图片检索。例如给一张黑色的图片，文本反馈是想要一个粉色的同款。

本文更加关注文本反馈，因为文本可以是属性描述，也可以是自然语言表达。

VAL

采用标准CNN学习图像表征，从low，mid，high-level 3个level提取，建造一个特征金字塔，表示如下：

其中$F_{r}$ 是参考图像，$F_{t}$是目标图像。

采用LTSM来学习文本表征，在LSTM后加入max-pooling和linear projection layer。

将文本表征与图像表征融合表示：

其中$i$表示第$i$个图像level，$F_{c}$是MLP

第二个表达式即self-attention函数，第三个表达式计算output

自注意力transformation捕获了用于特征变换的非局部相关性，但是没有确切表明参考图像特征如何保持与输入图像的的相似性。因此引入Joint-Attentional Preservation

$F_{sp}$,$F_{ch}$学习空间和通道。

$A^{i}_{ja}$是joint-attention 矩阵，动态调整保留参考图像的强度。

最终的输出表达时如下：

采用两种损失，两级层次，分别计算图像和图像，图像和语义的损失

确保目标特征和复合特征的高相似度，采用图像与图像损失表达式如下：

为了进一步将学习到的表征与期望的语义联系起来，采用辅助的图像与语义损失表达式如下：

Image Search with Text Feedback by Visiolinguistic Attention Learning