Supervised Learning of Universal Sentence Representations from Natrual Language Inference Data

Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

Alexis Conneau, etc.

Intro

在一个large corpus上学习sentence representation,然后转移到其他任务。有两个需要解决的问题

  1. 用什么network结构
  2. 在什么数据(large corpus)上进行训练

目前最新的做法是尝试未监督方式,如SkipThought和FastSent。这篇paper想尝试能否使用监督的方法,motivation是在图像识别领域,很多模型都可以在ImageNet进行预先训练,然后迁移到专门的task上。这篇paper比较使用不同的数据源作为large corpus,然后发现natural language inference (NLI) task可以很好作为large corpus来transfer task。

在neural network结构选择上,可以用RNN,CNN,甚至更简单的word composition方法。这篇paper研究了结构对于transferability的影响。实验结果显示bi-directional LSTM加上max pooling,在Stanford Natural Language Inference (SNLI)数据集上能够达到目前最好结果(相比较SkiptThought和FastSent),而且训练更加快速。

sentence embedding

有从word embedding composition,到更复杂的neural network。SkipThought vectors提出了一个objective function可以接受word的skip-gram,并映射到sentence-level。也就是说,这篇paper准备展示使用在NLI上面训练的sentence encoder,能够学习到sentence representation,而这个representation又能够作为一般化的特征。

Approach

这里一个重要的假设:语义作为NLI(natural language inference)的本质,使得NLI能够很好作为supervised task来学习一般化的sentence embedding。

有两种方法在SNLI上面训练模型

  1. 使用sentence encoding-based方法,且不同的句子分开encoding
  2. 联合训练,可以同时将两个句子一起进行encoding

这篇paper目的是为了训练一个一般化的sentence encoder,因此使用第一个方法。具体方法如图一展示。两个句子分别进行encoding,然后将这两个encoding,encoding的 element-wise product,encoding的 element-wise difference进行concatenation,从而作为特征传入。

比较了7个模型

  • LSTM
  • GRU
  • BiGRU-last
  • BiLSTM with mean pooling
  • BiLSTM with max pooling
  • self-attentive network
  • hierarchical ConvNet

results matching ""

    No results matching ""