Semi-Supervised Graph Classification: A Hierarchical Graph Perspective
Semi-Supervised Graph Classification: A Hierarchical Graph Perspective
abstract 如果将每一个node也用graph表示,那么整个图可以表示为一个hierarchical structure。
1 Intro
有两个挑战
- hierarchical的结果比较复杂。引入了instance-level classifier叫IC,还有hierarchical graph-level classifier叫HC。我们定义了这两个classifier之间的disagreement loss,然后要训练是的这个loss最小。
- class label比较少。因此提出了semi-supervised learning框架。定义了一个iterative算法框架,轮流更新IC和HC。
2 Problem Definition
每一个node是object/entity,然后有一个KG来表示object之间的关系。有$$V$$表示node set,$$X$$表示node feature,$$A$$表示adjacency matrix。
然后set of graph instances $$G$$是可以相互连接的,adjacency matrix为$$\Theta$$。graph instace和他们相互之间的链接所构成的一个图,被叫做hierarchical graph。
有点graph instance是labeled graph $$G_l$$,或者为unlabeled graph $$G_u$$。
3 Method
3.1 Problem Formulation
我们有graph level classifier和hierarchical graph level classifier,IC和HC,两个都用来预测$$G_u$$。
目标有两个:一个是最小化supervised loss,另外一个是最小化disagreement loss,后者是为了强化两个classifier之间的consistency。
目标是$$\min \xi(G_l) + \xi(G_u)$$
前面一个是labeled data上的supervised loss,后一个是unlabeled data上的disagreement loss。
$$\xi(Gl) = \sum{g_i \in G_l} \ell(y_i, \psi_i) + \ell(y_i, \gamma_i)$$,前一个是IC的预测结果,而后者是HC的预测结果。
$$\xi(Gu) = \sum{gi \in G_u} D{KL}(\gamma_i || \psi_i)$$
3.2 Design of Classifiers
IC是将graph instance当作input。也就是对于graph, input $$A_i$$ and $$X_i$$,得到graph embedding vector $$e_i$$和预测的每一个类的概率 $$\psi_i$$。
HC是将整个hierarchical graph当作input,尤其是graph instace embedding vector和$$\Theta$$。input为 $${ei}{i=1}^{L+U}$$ and $$\Theta$$,输出class probability $${ \gammai }{i=1}^{L+U}$$。
3.2.1 Discriminative graph embedding
self-attention graph embedding method,SAGE。首先用基层GCN来得到smooth node representation,然后用self-attention mechanism来学习node importance,最后用transform将node representation转化为fixed-length embedding vector。
TBA: self-attention part, check [1]
3.2.2 Graph-based classification
就是GCN
3.3 The Proposed SEAL-CI Model
因为只有很少的数据有label,因此加入了disagreement loss,作为一个regularization term 来避免overfitting。
将3.2.1 和 3.2.2 的两个算法整合到一个迭代的算法里。
3.3.1
因为HC生成的prediction $$\Gamma^t$$的false prediction会导致wrong embedding,因此选择confidence最高的 $$t\lambda$$ predicted labels。这个操作一直到所有的label都用到了。这个方法叫做SEmi-supervised grAph cLassification via Cautious Iteration (SEAL-CI)。
3.4 The Proposed SEAL-AI Model
衍生到了active learning框架。