From Word Embeddings To Document Distances
4 Word Mover's Distance
word2vec 用来表示word
而text document则用$$d_i = \frac{c_i}{\sum_j c_j}$$ 表示
Word travel distance 两个单词之间的距离用L2 norm表示。
Document distance 可以认为是把d中的所有word转移到d'中的word所要花费的cost。
Transportation problem 把问题就进行如下转换
$$ \minT \sum{i,j} T_{i,j} c(x_i, x_j)
$$
以上是earth mover distance (EMD)的一个特殊情况。这里我们改成为word mover distance (WMD)。