WIKIQA: A Challenge Dataset for Open-Domain Question

WIKIQA: A Challenge Dataset for Open-Domain Question Answering

Yi Yang, Georgia Institute of Technology

Wen-tau Yih, MSR

Christopher Meek, MSR

问答系统，有一种做法是单纯地判断多少词overlap，这个做法在实际场景中，会得到过分好动结果（尤其和其他复杂的方法相比）。

另外，也产生了另外一个挑战：answer triggering：不一定在给定的答案中有正确解，需要QA系统判断出来。

使用WIKIQA的数据集，从Bing中挑选查询的logs，每一个log都对应于一个wiki page，将wiki page中总结的段落当作可能答案，label通过crowdsourcing完成。大约有1／3的包含正确的答案。

描述了如何生成数据，以及和QASENT的比较。

选取"WH"问题，然后提取对应的wiki page的summary。

crowdsourcing阶段，先判断是否包含答案，否则全部pass，是就进一步问是哪个句子回答了问题。

使用了三种方法：

ICLR，Paragraph Vector（PV），CNN。

ICLR：一种答案选择的模型，利用了词汇语义特征，包括单词匹配、WordNet和向量空间的词汇语义模型。
PV-cnt：是question vector和answer vector的余弦相似度。然后一层logistic regression，接word count。
CNN-cnt：使用word2vec作为输入，average-pooling。然后一层logistic regression，接word count。

很有意思的数据集。最后也强调了，主要是用来提出answer triggering这个问题。而且，相对应的，