基于众包的数据分析策略(Strategies for Crowdsourcing Social Data Analysis)

说起众包(crowdsourcing),现在大家也许并不陌生。最早在2006年,《连线》(Wired)杂志记者Jeff Howe于2006年发明的一个专业术语,用来描述一种新的商业模式,即企业利用互联网来将工作分配出去、发现创意或解决技术问题。通过互联网控制,这些组织可以利用志愿员工大军的创意和能力——这些志愿员工具备完成任务的技能,愿意利用业余时间工作,满足于对其服务收取小额报酬,或者暂时并无报酬,仅仅满足于未来获得更多报酬的前景。尤其对于软件业和服务业,这提供了一种组织劳动力的全新方式。(来源wikipedia)。我们搜索关于众包的项目,在wiki上至少有120个里列出的,更不用说还有许许多多形形色色的新应用的产生。其中最出名的应该要数Amazon的MTurk(https://www.mturk.com/mturk/welcome)。

图一:工作流,1)数据选择,2)专家选择图表,3)众包分析,4)众包评价,5)专家整理

如图一所示工作流,这是一个用户与专家联合参与的分析,因此如何设计让用户更好地参与到分析工作中来,如何更好地设计问题形式与分割子任务就是一个很大的挑战。

随着众包的应用不断增加,许多问题也扑面而来。最重要的问题之一就是利用众包是否能够有效、高质量地完成数据分析。尤其在可视化领域,这样的尝试还比较少。有代表性的作品包括,Jeffery Heer在之前的一篇文章中[1],他们设计了许多用户研究实验,包括80年代经典的可视化判断样例(位置、大小、颜色对于可视化的影响问题)在众包上的重新呈现和新的用户研究设计,证明了利用众包方式能够帮助可视化设计。而在这次介绍的文章中,作者证明了利用他们提出的七个策略,可以有效地提高众包用户帮助领域专家进行数据分析,在质量与产生新的探索上都有极大的提高。【2】

7个策略如下:

(S1) 使用特征导向的提示use feature-oriented prompts
(S2) 提供优秀的例子provide good examples
(S3) 让用户提供资料来源链接include reference gathering subtasks
(S4) 包含“读图题”include chart reading subtasks
(S5) 包含标注任务include annotation subtasks
(S6) 使用事先标注过的图表use pre-annotated charts
(S7) 让用户迭代循环地进行解释elicit explanations iteratively

作者提出这些问题并不是空穴来风,或者纸上谈兵,而是每个解决方案背后都有完整的分析过程,从问题的提出,到解决方案的选择,利弊分析以及用户实验证明。这里不会介绍所有的细节,但会将一些有意思的地方挑出来和大家分享。

首先,让我们看看众包最主要的特征是什么—-就是人多、且杂。你不能规定他们拥有什么样相同的技能,知识背景等等。并且可视化进行数据分析时,如果你让人们仅仅是回答“解释为什么这个表格很有趣”这样开放的问题的话,你得到的答案将会五花八门,也许和你需要的解释方向完全不同,或者解释不清晰。那么,怎么办呢?这就需要我们在图表提供上下功夫了。我们可以提供一些特征来启发他们,或者给他们一些实例。例子是最好的老师,经过他们的实验证明,有带特征提示和例子提供的,和控制组相比,答题质量上翻几倍。因此有无提示,对于众包分析来说,是至关重要的。还有一些比如提供一些简单的问题,既可以让用户强迫地去理解数据的一些方面,也可以测验他们是否真正专心在回答问题。

图二:用户参与图形解释的界面,包含了以上7种策略的设计。

作者不仅对每个解决方案进行了实验,还对综合的整体效果做了对比实验。同时也对一些特征(比如峰值、趋势等)进行细节测验,看哪些特征的提供对用户帮助较大。

总之,这是一篇很新的文章,新不仅仅在于它的时间,而在于它的思考方式,解决问题的方式和得出的结论,以此文章为切入点,让我们一起对众包进行更深入地探索吧。

【1】Heer, J. & Bostock, M. Crowdsourcing graphical perception: using mechanical turk to assess visualization design. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 2010, 203-212

【2】Willett, W.; Heer, J. & Agrawala, M. Strategies for crowdsourcing social data analysis. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 2012, 227-236 

评论关闭。