Supervised Learning of Universal Sentence Representations from Natrual Language Inference Data
Supervised Learning of Universal Sentence Representations from Natural Language Inference Data
Alexis Conneau, etc.
Intro
在一个large corpus上学习sentence representation,然后转移到其他任务。有两个需要解决的问题
- 用什么network结构
- 在什么数据(large corpus)上进行训练
目前最新的做法是尝试未监督方式,如SkipThought和FastSent。这篇paper想尝试能否使用监督的方法,motivation是在图像识别领域,很多模型都可以在ImageNet进行预先训练,然后迁移到专门的task上。这篇paper比较使用不同的数据源作为large corpus,然后发现natural language inference (NLI) task可以很好作为large corpus来transfer task。
在neural network结构选择上,可以用RNN,CNN,甚至更简单的word composition方法。这篇paper研究了结构对于transferability的影响。实验结果显示bi-directional LSTM加上max pooling,在Stanford Natural Language Inference (SNLI)数据集上能够达到目前最好结果(相比较SkiptThought和FastSent),而且训练更加快速。
Related Work
sentence embedding
有从word embedding composition,到更复杂的neural network。SkipThought vectors提出了一个objective function可以接受word的skip-gram,并映射到sentence-level。也就是说,这篇paper准备展示使用在NLI上面训练的sentence encoder,能够学习到sentence representation,而这个representation又能够作为一般化的特征。
Approach
这里一个重要的假设:语义作为NLI(natural language inference)的本质,使得NLI能够很好作为supervised task来学习一般化的sentence embedding。
有两种方法在SNLI上面训练模型
- 使用sentence encoding-based方法,且不同的句子分开encoding
- 联合训练,可以同时将两个句子一起进行encoding
这篇paper目的是为了训练一个一般化的sentence encoder,因此使用第一个方法。具体方法如图一展示。两个句子分别进行encoding,然后将这两个encoding,encoding的 element-wise product,encoding的 element-wise difference进行concatenation,从而作为特征传入。
比较了7个模型
- LSTM
- GRU
- BiGRU-last
- BiLSTM with mean pooling
- BiLSTM with max pooling
- self-attentive network
- hierarchical ConvNet