Wasserstein Weisfeiler-Lehman Graph Kernels

2 Background

2.1 Graph Kernel

Weisfeiler-Lehman (WL) subtree 是通过将node representation求个sum来得到graph-level representation。然后引用了optimal transport theory,比如Wasserstein distance。

2.2 Wassertein distance

$$Wp(\sigma, \mu) = \big(\inf{\gamma \in \tau(\sigma, \mu)} \int_{M \times M} d(x,y) ^p d\gamma (x,y) )\big)^{1/p}$$

$$\Gamma (\sigma, \mu)$$是所有transportation plans,over $$M \times M$$ 且两个marginal分别是$$\sigma$$和 $$\mu$$。

如果$$d$$是一个metric,那么wasserstein也符合metric定理。

这篇paper里面,我们处理的是set of node embeddings,not with continuous prob distributions。因此我们可以将wasserstein distance重写为sum,而不是integral。两个vector set之间的distance定义为

$$ W1(X, X') = \min{P \in \Gamma(X, X')} \langle P, M \rangle

$$

3 Wasserstein distance on graphs

3.1 Generating node embeddings

用Weisleifer-Lehman scheme,定义

$$l^{h+1}_{v} = hash(l^h_v, \mathcal{N}^h(v))$$

但上述的特征是离散的,我们为了是的他能够连续,提升了WL refinement step。

$$a^{h+1}v = \frac{1}{2} \Big( a^h_v + \frac{1}{deg(V)} \sum{u \in \mathcal{N}(v)} w(v,u) \cdot a^h_u \Big)$$

有了以上,可以顺带提出WL-based graph embedding。对于某一层,有graph embedding是每一个node embedding的concatentation。而后把所有层的graph embedding concat即可。

3.2 Computing the Wasserstein distance

对于categorical node features,使用Hamming distance。

对于cts node features,使用Euclidean distance。

然后将这个distance放到matrix $$D$$中。

4 From Wasserstein distance to kernels

有了Wasserstein distance,就可以计算kernel。

$$K{WWL} = e^{- \lambda D_W^{f{WL}}}$$

results matching ""

    No results matching ""