WIKIQA: A Challenge Dataset for Open-Domain Question

WIKIQA: A Challenge Dataset for Open-Domain Question Answering

Yi Yang, Georgia Institute of Technology

Wen-tau Yih, MSR

Christopher Meek, MSR

Introduction

问答系统,有一种做法是单纯地判断多少词overlap,这个做法在实际场景中,会得到过分好动结果(尤其和其他复杂的方法相比)。

另外,也产生了另外一个挑战:answer triggering:不一定在给定的答案中有正确解,需要QA系统判断出来。

使用WIKIQA的数据集,从Bing中挑选查询的logs,每一个log都对应于一个wiki page,将wiki page中总结的段落当作可能答案,label通过crowdsourcing完成。大约有1/3的包含正确的答案。

WIKIQA Dataset

描述了如何生成数据,以及和QASENT的比较。

选取"WH"问题,然后提取对应的wiki page的summary。

crowdsourcing阶段,先判断是否包含答案,否则全部pass,是就进一步问是哪个句子回答了问题。

Experiments

使用了三种方法:

ICLR,Paragraph Vector(PV),CNN。

  • ICLR:一种答案选择的模型,利用了词汇语义特征,包括单词匹配、WordNet和向量空间的词汇语义模型。
  • PV-cnt:是question vector和answer vector的余弦相似度。然后一层logistic regression,接word count。
  • CNN-cnt:使用word2vec作为输入,average-pooling。然后一层logistic regression,接word count。

Appendix

很有意思的数据集。最后也强调了,主要是用来提出answer triggering这个问题。而且,相对应的,

results matching ""

    No results matching ""