[视频作者] 揣摩研习社
[视频时长] 29:32
[视频类型] 计算机技术
视觉问答(VQA)模型往往容易学习到数据集中的语言偏见,无法从视觉知识中学习推理能力,从而做出错误的回答。因此, 在本文中,作者提出了一种新颖的因果关系来看待语言偏见,从因果推理的角度来看,偏见被表述为问题对答案的直接影响。 这种效果可以通过反事实 VQA 来捕捉,其中图像在想象的场景中并不存在。通过从图像和问题对答案的总因果效应中减去问题日对答案的直接语言效应,来实现减少语言偏差的效果。 作者通过详细的定量实验和定性分析,证明了所提出的CF-VQA框架的有效性和泛化性。作者提出的反事实VQA框架适用于各