石家庄铁道大学,刘三姐,梅花图片

admin 5个月前 ( 03-12 17:37 ) 0条评论
摘要: ACL 2018 Long Papers视觉化思维:通过虚拟图像问答Think Visually: Question Answering through Virtual Image...

ACL 2018 Long 石家庄铁道大学,刘三姐,梅花图片Papers

视觉化思维:通过虚拟图像问答

Think Visually: Question Answering through Virtual Imagery

密歇根大学

University of Michigan


本文使用深度神经网络(DNN)对几何推理进行建模的工作。全文主要贡献点:一是提出了动态空间记忆网络(DSMN),这是一种新的DNN,可以为问答执行几何推理。二是介绍了两个评估系统视觉思维能力的合成数据集。三是在合成数据上女排新星颜值逆天证明了DSMN在回答需要视觉思维问题的方面取得了卓越的性能。


引言


在人工智能研究中,推理与逻辑和符号的操作密切相关。但对于人类来说,推理不仅涉及逻辑和符号,还包含图像和形状。一些案例中,问题和回答都只是以文本形式表现的。但为了回答问题,在脑海中构建虚拟的图像并进行推理是很自然的事情。与人类相似,一些家用机器人拥有“视觉化的思维”是可取的。

在本文中,作者研究如何使用深度神经网络(DNN)对几何推理(一种视觉推理的形式)进行建模。

对于研究内容,现有的一些工作是针对于自然语言的理解和范金棠基于语义的推理等,虹桥书吧而本文专注于几何推理。

对于相关数据集,现有数据集较多的是自然语言的;而合成数据集bAbI中的两个推理相关的数据集——位置推理(PR)和路径寻找(PF)较为简单。本文提供的为合成数据集以便主要工作集中在推理研究上,但涉及到更长的描述信息,包含更多的实体和关系,因此得出答案会更为复杂。

对于模型的输入,现有的一些问答系统不仅提供了文本描述,还提供了图像;一些人机交互研究中,机器人是有视觉感知的。而本文模型的输入仅为文本,然后根据文本在中间网络形成图像。

对于模型的构建,memory和attention逐渐被融入到深度神经网络(DNN)中,尤其是涉及到自然语言中与/或的算法任务,memory和attention对丝足踩踏于磷石膏压球机state-of-the-art(SOTA)方法十分重要,因而本文使用空间存储(spatial memory)来进行问答系统中的推理以使得网络有更好的表现。


数据集斗宝斋


作者所提出的数据集是第一个明确地测试了视觉化思维的。提出的数据集包含了问题的视觉化表达。每个数据集有38400个问题,被平均分为训练集、验证集和测试集。

FloorPlanQA

每一个FloorPlanQA的样本包含了一个有多个房间(room,最多为3个)的房屋(house),房间有大、中、小。所有的房间和屋子都有门。每个房间和屋子里为空的空间都有可能包含一个物体(立方体,长方体,球体或圆锥体)。

每个样例(sample)有四个组件:描述(description),问题(question),回答(answer),和视觉表达(visual representation)。

描述里的每句话(sentence)描述了一个房间、一个门或者一个物体。

问题模板,“假设你进入{房子,房间1,房间2,房间3},{房门,房间1门,房间2门,房间3门,立方体,立方体,球体,锥体}相对于你在哪里?”

答案是左,右,前或后。

一个样例的视觉化表达由图像通道(imagechannels)的一个有序集合组成,描述中的每个句子(sentence)对应一个通道。一个例子如下图所示。




ShapeIntersection

该数据集关注于图形之间的交点的个数。

描述(description)是由表示不同形状(shapes)的符号组成,以一系列的一维向量(1D vector)表示,每个向量表示一个图形,一个向量可类比于FloorPlanQA里的一个句子(sentence),每个向量由5个实数组成,第一个数表示形状的类型:1-线条,2-圆形,3-矩形。剩余的四个数字用于表明形状的大小和位置。

问题(question)固定为——这些形状之间有多少个交叉点。

在给定的描述中,平均有6.5个形状,最多6个线,3个矩形和3个圆。数据集中的所有形状都是唯一的,位于1010画布上。

视觉化表达(visual representation)也是图像通道的有序集合,每个通道与一个句子(sentence)相关联并绘出相应的图形。一个例子如下图所示。






模型


与其他问答深度神经网络(QA DNNs)不同的是,DSMN对于输入(input)形成一个内部的(interval)视觉化表达。

DSMN由五个模块组成:输入(Input Module)、问题(Question Module)、视觉表达(Visual RepresentationModule)、空间存储(Spatial Memory Module)、回答(Answer Module)。

输入模块对于描述中的每个句子(sentence)生成一个embedding;

视觉表达模块沙丁鱼挂机用这些embedding为每个模块生成一个中间视觉表达;

问题模块生成问题的embedding;

空间存储模块在问题embedding,sentence embedding和视觉表达上多次遍历以更新空间存储;

回答模块利用最终空间存储输出答案。

如下图所示,展示了DSMN的整体架构。



输入模块


为描述(description)中的每句话sentence产生一个embedding,根据数据集提供的描述不同生成不同的embedding。

(1)生成初始embedding。

FloorPlanQA中的输入是以单词(words)组成,使用位置编码层(PE layer)。

ShapeIntersection 描述是一系列的向量,因此使用两个全连接层(FC layer)(中间经过ReLU函数)。

(2)然后将这些初始的sentenceembedding输入到一个双向的门控循环单元(GRU)来跨句子传播信息。用

分别表示GRU在第i步的前向和后向输出。于是第i个sentence的最终的sentence embedding

问题模块

这个模块为问题生成question embedding。

FloorPlanQA,问题中的词语输入到一且望骄阳个GRU中,GRU的最终的隐藏状态被用作问题embedding;

ShapeIntersection,由于问题总是固定的,我的麻辣女友所以使用全零向量作为问题embedding。

视觉表达模块

对于描述中的每个sentence生成视觉表达。由两个部件组成——attention 网络和编-解码网络。

在所提炫彩生活皮具出的模型中,作者简化地假设视觉表达仅依赖于之前的sentence。

假设现在进行第t句sentence的处理。AtteFay霞宝ntion网络收集来自之前sentence的视觉化信息

,然后将收集到信息输入到编解码网络,则得到St的视觉化表达

编码器

将图像作为输入,然后生334eee成embeddi付立志ng,而解码器

与之相反。编码器由一系列卷积层组成,而解码器则由反卷积层组成。

其中

为sentence,

为对应的视觉化表达,i表示第i句话,

的全零向量表示空的sentence,attention网络为第i个sentence生成一个标量attention权重

,其中

为向量,

为标量;

表示逐个元素相乘,|.|表示绝对值,

表示向量的级联。在多次迭代中,

的参数是相同的。

空间存储模块

这个模块从描述(descriptio谢梦伟n)中多次收集相关信息并相应地更新存储。一次信息的收集和存储的更新被称为“一跳”。

存储(memory)由两个部件构成——一个二维的空间存储(2D Spatial Memory)和一个标签向量(tag vector)。二维的空间存储可以被认为是一个视觉化表达的草稿板,然后标签向量用来展示二维空间存储中的草稿。

假设现在在第t步,

表示二维空间存储,

表示标签向量。

(1)网络根据问题和当前的存储来计算attention值以收集相关信息。

每个sentence

,标量attention值

,其中


表示初始的空白存储,元素为全零。

收集的信息被表示为上下文标签向量

,和二维上下文

(2)最终使用二维上下文和上下文标签向量来更新存储:




回答模块


使用最终的存储和问题embedding来生成输出。用来预测答案的特征向量给定为

[

] 。

在回归的情况下将全连接层(FC layer)应用于

而在分类的情况下全连接层后跟随Softmax函数。并且本文在句子编码(

)和

上应用了一个dropout层。

有中金袋子间视觉监督或无中间视觉监督的DSMN。

DSMN形成了输入的一个中间视觉表达。对于训练数据,如果有一个“事实的”中间视觉化表达,可以利用它更好地训练网络。这便导致了有两种不同的方法来训练DSMN,一个是有中间视觉监督,而另一个没有。

没有中间视觉监督的网络,作者以一种使用了损失函数

端到端的方式来训练网络。

有中间视觉监督的网络,还要使用一个额外的视觉表达损失函数

。所以有中间监督网络的误差函数为

,其中

是一个对于不同数据集可调的超参数。

即使训练王翰哲数据中只有部分样本的视觉化表示可用,也可以为DSMN提供中间视觉监督。


实验


基准

使用了LSTM-1和LSTM-2两个基准(具体细节参考原文所在处)。

此外,将本文的模型与DMN +和MemN2N进行比较,还比较了DSMN,DMN +和MemN2N的3跳版本。

训练细节

使用随机优化(ADAM)来训练所有的模型,并且每个模型的学习率根据每个数据集来进行调整。对于每对模型和数据集,分别调整embedding大小和

正则化权重。

存储网络(memory network)在多次运行中的结果是不稳定的。因此,对于每个超参数的选择,作者运行所有模型10次,并选择在验证集上具有最佳性能的一次运行。对于FloorPlanQA,所有模型都训练最多1600个时段。ShapeIntersection的最大历时段是800个时段,如果验证准确性没有增加,两个数据集都是在80个时段之后提前停止。

另外,修改DMN +和MemN2N的输入模块和问题模块与ShapeIntersection数据集的输入模块和问题模块相同。

对于FloorPlanQA和ShapeIntersection的实验结果总结在下表中。简化地称, DSMN称为DSMN为训练中没有中间视觉监督,DSMN *谢咏殊为有中间视觉监督。




可以看到DSMN在两个数据集上都优于DMN +,MemN2N和LSTM基线。然而,文中认为DSMN仅略好于DMN +,因为两者都被观察到在多次运行中不稳定,因此两者之间的差距具有较大的变动。最后,DSMN*在两个数据集上都大大优于所有其他方法,这证明了视觉监督在提议任务中的实用性。

样本提供不同占比的中间视觉监督的结果

进一步研究DSMN *在中间视觉监督仅适用于部分训练样本时的表现。祖艾妈如下图所示,即使对仅为1%的训练样本提供中间视觉监督,DSMN *也大大超过DMN+。当获得可视化表示昂贵且耗时时,这可能是有用的。




答案特征向量的剥除研究

对答案特征向量

(参见方程使用最终的存储和问题embeddin巴洛克防线g来生成输出。用来预测答案的特征向量给定为f,

[

] ( 1))中的最终存储标签向量(

)和二维空间存储(

)的有用性进行了剥除研究(结果如下表所示)。




分别删除其中一个,并重新训练(使用超参数调整)DSMN和DSMN *模型。它们仅从最终特征向量

中移除。

具有标签和二维空间存储器(

= [

])的模型比仅有标签向量的模型(

= [

])稍微好一点。此外,正如预期的那样,仅有二维空间存储的模型(

= [

])上DSMN *的表现要比DSMN好得多,因为有中间监督。

跳数对结果的影响

下表示出了在FloorPlanQA上改变DSMN和DSMN *的存储器“跳数”的效果。 DSMN和DSMN*的性能随着“跳数”的增加而增加。DSMN*即使在较少的存储“跳数”下也能表现良好的原因可能是DSMN *在可视化表示模块本身中完成了一些“推理”(详细见原文例)。



对于来自FloorPlanQA的样本,可视化如下图所示,其中3跳DMN +和3跳DSMN *的存储器模块中的注意力图。可以看到为了推断房间1门的位置,DSMN *直接获取sentence3,而DMN +尝试通过取两个句子来做到这一点(一个用于房间的门位置和一个用于房间位置的房间)。




结论


本文研究了如何使用DNNs建模视觉思维。我们引入了两个合成的QA数据集,Floorplanqa和ShapeCom交集,用于测试系统的视觉思考能力。我们开发了一种新颖的DNN模型DSMN,它可以在可视空间中解释问题的原因。实验结果证明了DSMN在合成数据几何推理中的有效性。

文章版权及转载声明:

作者:admin本文地址:http://www.dollfacebarbie.com/articles/204.html发布于 5个月前 ( 03-12 17:37 )
文章转载或复制请以超链接形式并注明出处多啦face,面部表情识别专家