Massively Multilingual Word Embeddings

WAleed Ammar, George Mulcaire, Yulia Tsvetkov, Guilanume Lample, Dhris Dyer, Noah Smith

在一个共享的embedding space中，对embedding words进行评估。

Estimating Multilingual Embeddings

希望对embedding进行评估

同一种语言内，语义上类似的单词会比较近
不同语言，但是含义一样的单词会比较近
domain包含尽量多的单词

使用distributional similarity来评估同一个语言内单词的相似度；至于不同的语言之间，或者使用parallel corpus $$P^{m,n}$$，或者使用bilingual dictionary $$D^{m,n}$$，这篇paper使用了后一个。

Evaluating Multilingual Embeddings

关于单词的相似度，比如WordSim-353EN和MEM都是人工标记的语义相似度，但是仅限于来自同一个语言。

不同语言，可以采取word translation的方法。考虑一只language $$l1$$的单词$$w_1$$与language $$l_2$$中的单词$$w_2$$。那么当$$cosine(E(l_1, w_1), (l_2, w_2)) \ge cosine(E(l_1, w_1), E(l_2, w_2')), \forall w_2' \in G{l2}$$，embedding是1。其中$$G_{l_2}$$是language 2中包含的所有单词集合。

检测结果的评估使用QVEC-CCA。

QVEC：主要是衡量word embedding的语言学含义，通过最大化和一个人工标记的语言源的correlation。

$$QVEC = max \sum{i=1}^{X} \sum{j=1}^{S} r(xi, s_j) \times a{ij}$$

其中$$a_{ij} = 1$$ iff $$x_i = s_j$$，$$r(x_i, s_j)$$是Pearson correlation。

QVEC-CCA：

为了评估embedding matrix $$X$$和linguistic matrix $$S$$，然后找到两个投影，使得投影过后的correlation最大。

$$QVEC-CCA = CCA(X^T,S^T) = max_{v,w} r(X^Tv, S^T w)$$

Appendix

这篇的第二个部分得先挖坑后面再看了。太多NLP方面的东西需要补充。

Massively Multilingual Word Embeddings

Massively Multilingual Word Embeddings

Estimating Multilingual Embeddings

Evaluating Multilingual Embeddings

Appendix

results matching ""

No results matching ""