Improved Graph-based Dependency Parsing via Hierarchical LSTM Networks

Improved Graph-based Dependency Parsing via Hierarchical LSTM Networks

Wenhui Wang, Baobao Chang

PKU

Intro

这篇paper提出了graph-based dependency parsing,使用hierarchical LSTM的方法。

Neural Network

首先是一个character-level Bidirectional LSTM来计算character-based word embedding。然后将四个向量embedding到一起:前向LSTM hidden vector,后巷LSTM hidden vector,word embedding $$e(w_i)$$,和POS tag embedding $$(e(p_i))$$。然后使用linear transformation $$w_e$$,和activation function g。

然后将这个concatenated向量作为word-level LSTM的输入。用于enrich word vector representation。

Score Model

neural network经常用来score dependency arcs。后面的一段描述不够详细,follow up中的一篇有更加详细的解释。

对于一个dependency pair $$(h,m)$$,是一个句子中的两个单词,head word h 和 modifier word m。使用word representation,h和m之间的distance,和segment embedding作为特征,其中distance feature embedding 随机初始化。每一个句子通过h和m分成了三个segment。然后在word representation上面通过一个forward LSTM,segment embedding能够通过LSTM hidden vectors直接进行减法计算。

所有的feature embedding都映射到了隐藏空间,使用direction-specific transformation来对edge direction建模

$$h = g(\sumi W{h_i}^d a_i + b_h^d)$$

其中$$ai$$是feature embedding,$$W{h_i}^d$$和$$b_h^d$$中的index $$d \in { 0, 1}$$,表明head和modifier之间的方向。

输出层最终加到hidden layer的最上面作为scoring dependency arcs,

$$Score(h,m) = W_o^d h + b_o^d$$

$$Score(h,m) \in \mathbb{R}^L$$是输出向量,L是dependency type的数量。

Appendix

一个从直觉上能解释的通,但论文中没有给定足够的理论支持。刚刚读完Omer Levy使用PMI matrix来解释embedding。个人觉得如果能有理论支持最好,否则还是偏把deep-learning当作黑箱操作的方法。

另外打算follow两篇paper

Improved transition-based parsing by modeling characters instead of words with lstms

Graph-based dependency parsing with bidirectional lstm

results matching ""

    No results matching ""