Multimodal Word Distributions

Ben Athiwaratkun, Andrew Gordon Wilson

Cornell University

Intro

提出使用multimodal Gaussian(GMM, Guassian Mixture Model)来表示一个单词,每一个维度就能表示一个意思.

将以往常用的word2vec称作point embedding,而类似本文研究的probabilistic word embedding刚刚开始.

Method

Word Representation

每一个单词$$w$$的分布是

$$fw (x) = \sum{i=1}^K p{w,i} \, \mathcal{N} [x; \mu{w,i}, \Sigma{w,i} ] = \sum{i=1}^K \frac{p{w,i}}{\sqrt{2\pi|\Sigma{w,i}|}} e^{-\frac{1}{2} (x-\mu{w,i})^T \Sigma{w,i}^{-1} (x-\mu_{w,i}) }$$

这里假设GMM是由K个component / Gaussian Model 组成,每一个component的mean vector都表示单词的一个意思.

Skip-Gram

训练的时候使用Skip-Gram. Skip-Gram是根据一个分布假设:每一个单词都和上下文有语义上的联系.

Energy-based Max-Margin Objective

使用类似negative sampling方法进行训练.$$(w,c)$$分别是word和context,$$(w,c')$$则是negative context word.

训练目标是最大化$$(w,c)$$的energy函数,而最小化$$(w,c')$$的energy函数.

使用max-margin ranking objective:

$$L\theta(w,c,c') = max(0, m - log E\theta(w,c) + log E_\theta (w,c'))$$

Word Sampling

有一些单词出现频率太高,比如the, a, to,而一些名词更有意义,所以采取一些方法来平衡一下.$$P(w_i) = 1 - \sqrt{t / f(w_i)}$$.

至于negative sample的采样,就从unigram distribution的变形$$U(w_i)^{3/4}$$采样.

Energy Function

energy function,或者similarity function,在vector embedding情况下,通常使用点乘来体现point similarity.但对于probabilistic embedding,不仅仅要提醒相似性,还要体现不确定性.

提出了使用expected likelihood kerner,一般化的点乘方法.

$$E(f,g) = \int f(x) g(x) dx = \langle f, g \rangle _{L_2}$$

Appendix

follow up paper: Word representation via gaussian embedding

Multimodal Word Distributions

Multimodal Word Distributions