Massively Multilingual Word Embeddings

WAleed Ammar, George Mulcaire, Yulia Tsvetkov, Guilanume Lample, Dhris Dyer, Noah Smith

在一个共享的embedding space中,对embedding words进行评估。

Estimating Multilingual Embeddings

希望对embedding进行评估

  • 同一种语言内,语义上类似的单词会比较近
  • 不同语言,但是含义一样的单词会比较近
  • domain包含尽量多的单词

使用distributional similarity来评估同一个语言内单词的相似度;至于不同的语言之间,或者使用parallel corpus $$P^{m,n}$$,或者使用bilingual dictionary $$D^{m,n}$$,这篇paper使用了后一个。

Evaluating Multilingual Embeddings

关于单词的相似度,比如WordSim-353EN和MEM都是人工标记的语义相似度,但是仅限于来自同一个语言。

不同语言,可以采取word translation的方法。考虑一只language $$l1$$的单词$$w_1$$与language $$l_2$$中的单词$$w_2$$。那么当$$cosine(E(l_1, w_1), (l_2, w_2)) \ge cosine(E(l_1, w_1), E(l_2, w_2')), \forall w_2' \in G{l2}$$,embedding是1。其中$$G_{l_2}$$是language 2中包含的所有单词集合。

检测结果的评估使用QVEC-CCA。

QVEC:主要是衡量word embedding的语言学含义,通过最大化和一个人工标记的语言源的correlation。

$$QVEC = max \sum{i=1}^{X} \sum{j=1}^{S} r(xi, s_j) \times a{ij}$$

其中$$a_{ij} = 1$$ iff $$x_i = s_j$$,$$r(x_i, s_j)$$是Pearson correlation。

QVEC-CCA:

为了评估embedding matrix $$X$$和linguistic matrix $$S$$,然后找到两个投影,使得投影过后的correlation最大。

$$QVEC-CCA = CCA(X^T,S^T) = max_{v,w} r(X^Tv, S^T w)$$

Appendix

这篇的第二个部分得先挖坑后面再看了。太多NLP方面的东西需要补充。

results matching ""

    No results matching ""