在众包数据分析中识别信息冗余和检验信息来源 (Identifying Redundancy and Exposing Provenance in Crowdsourced Data Analysis)

在很多分析工作中,分析师们需要针对图表进行分析任务,例如分析某个城市就业率曲线的增减。也许分析少数几张图表并不是什么难事,但假若我们要分析上百个甚至上千个城市的就业率曲线时,这便成为一个任务量巨大的工作。分析师们可以利用众包完成分析任务,例如在 Amazon Mechanical Turk 上付点小钱让工人们 (crowd workers) 每人完成一两个小任务,聚集起大家的分析结果就可以完成整个分析任务。但是,通过众包方式获得的结果也存在一些问题:1) 工人们提供的信息中含有冗余信息,这增加了分析师们的工作量 2) 由于工人的知识水平不同,他们的答案准确性也有差别。这篇论文工作的目标是帮助分析师们再一次用众包的方法来分析由众包提供的答案。

在通过众包获取完成数据分析的过程中,分析师们将每个待分析的图表作为一个任务发布到众包平台上,让广大的众包工人完成任务。任务界面如下图所示,左边提供了一张图表及任务描述,工人需要对问题做出解释,并提供信息来源(如网页链接、相关段落等)。右边为一个浏览器,供工人们浏览网络获取相关答案。

crowdsourced1

图1 众包分析任务界面

通过众包完成分析任务后,分析师们需要对通过众包方式获取来的数据进行进一步分析。

针对冗余信息,本文提出用代表性选择的颜色聚类 (color clustering with representative selection)的方法来对工人们提供的答案进行聚类,相似的答案被被聚为一类,从而分析师们只要查看每个聚类中最具代表性的答案即可大致了解该聚类内的内容。然而,由于答案的长度都较短,传统的文本聚类方法在这里并不适用,本文提出通过众包来进行聚类。首先,分析师们在众包平台上发布任务,让工人们对一张图标的所有答案进行聚类。为了提高聚类效率,工人们可以用颜色标示答案所属的聚类,被标示为相同颜色的两个答案被认为是属于同一个聚类。

crowdsourced2

图2 颜色聚类任务界面示意图

当分析师们通过众包平台收集到多种聚类结果后,本文提出用如下的算法来提取出最具有代表性的聚类结果。首先,将每个工人的聚类结果转化为一个矩阵,矩阵的每一行和每一列都表示一个答案,矩阵中的值为1的方格表示其对应行、列的答案被工人认为是属于同一个聚类的。最后,将所有矩阵相加得到并归一化后得到一个相似矩阵。这篇论文认为,一个工人所提供的聚类结果要优于综合所有结果所得到的聚类要好,因为一个人的结果在逻辑上更一致、更易于理解。因此,该算法要找出最具有代表性的一个聚类。算法将每一个单一矩阵与相似矩阵相乘(这里的相乘指两个矩阵对应位置的值相乘后累加求和),选择乘积最大的一个矩阵,该矩阵与平均聚类结果最为相似,因此也最具有代表性。通过这种方法,分析师们能够从众包的聚类中选出一个最具代表性的聚类结果。

crowdsourced3

图3 聚类算法过程示意图

对于答案的准确性,本文认为,如果工人提供的答案是从权威来源中复制或改写的,其准确性要优于工人自己撰写的答案。因此,为了收集工人们答案的参考资料来源,任务界面(如图1)提供浏览器供工人浏览网页,并要求工人在回答问题填写参考来源。在验证答案有效性阶段,分析师可以发布众包任务让工人们对照答案与参考资料,判断该答案是由工人自己撰写还是复制或改自参考资料的。通过这种方式,分析师就可以通过众包方式获得每个答案的准确性,从而可以轻松地得到准确性较高的答案。

总的来说,这篇论文新颖地提出了通过众包来分析众包结果的思路,解决了众包中信息冗余和信息准确性的问题。

[1] Willett W, Ginosar S, Steinitz A, et al. Identifying Redundancy and Exposing Provenance in Crowdsourced Data Analysis[J]. Visualization and Computer Graphics, IEEE Transactions on, 2013, 19(12): 2198-2206.

 

评论关闭。