大数据研究的扩张(译)

广告位

​ 约20年前,数百万人员参与的心理学实验几乎是不可想象的,收集数据的过程既昂贵又耗时,常常需要数十甚至数百的…

大数据研究的扩张(译)

约20年前,数百万人员参与的心理学实验几乎是不可想象的,收集数据的过程既昂贵又耗时,常常需要数十甚至数百的主试才可完成。而如今,研究人员可以进行在线调查,收集来自世界各地的被试数据。主试只需几行计算机代码,然后使用强大的计算机分析技术,从这些大型数据集中深度挖掘人类的行为模式。正是在这些技术的推动下,大数据研究在众多领域(认知、人格、社会和工业/组织心理学)取得飞速发展。Samuel Gosling博士说,“五年前,很多人都在谈论大数据心理学时,我好奇他们是否能真的做到这一点?但令我惊喜的是,他们做到了!并且现如今大数据心理正在顺利进行。”

在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962,即可免费领取套系统的大数据学习教程

丰富的研究资源

Sean Wojcik 说,“大数据已成为一个热门词汇,但什么才是大数据?多大才算大?没有人可以回答这个问题。计算机科学家在讨论大数据时,通常指的是那些万亿字节,千万亿字节或更大(terabytes, petabytes or larger)的数据,需要分布式计算机系统来分析的数据集。然而,心理学家却很少研究那么大的数据集。我们经常用‘大数据’来表示这些数据比我们过去使用的数据要大得多,实际上‘心理学大数据’是没有明确的规定的。”因此,一些相对计算机科学家来说不能够算上“大型”的数据集,对心理学来说是足够大的,大到可以为研究人类认知与行为提供丰富的养料。

通常心理学研究的大数据集包括在线调查或社交媒体帖子(social media postings)。例如,在一项人格研究中,Gosling和他的同事将美国各个地区的气象数据与160多万份在线人格测试的数据结合起来作分析。结果他们发现,在温和气候下长大的人比在寒冷地区长大的人相对更容易随和、开放和情绪也更稳定。

此外,宾夕法尼亚大学成立了一个由心理学家和计算机科学家组成的团队,该团队目前正主持“全球幸福感项目(World Well-Being Project)”,这一项目旨在通过分析社交媒体帖子(social media postings)来衡量世界范围内的幸福感水平。在最近的一项研究中,他们通过分析数百万条推特内容,预可以测出美国哪些区域的酒精消费会相对更高。

在另一个领域,认知心理学家Brendan Johns 研究文本大数据,而不是社交推文。Johns使用大数据分析方法分析维基百科(Wikipedia)、免费电子书和其他书面语言的电子库。其研究目的是理解人们如何从语言结构中学习单词的含义,以及这种学习如何影响记忆和其他形式的认知。Johns说:“我们可以在一个包含20亿单词的语料库中训练我们的模型,相比以前,这种研究是一个巨大的变化。”

规则与挑战

全球幸福感项目(World Well-Being Project)的主持者 Lyle Ungar 博士认为,这种变化体现在从“假设检验”到“假设生成”的转变上。他指出,“大多数心理学研究都会运用‘以实验来检验一种假设’的研究逻辑,但这只是科学研究的一部分,而非所有。与此不同,大数据主要是数据驱动,而非假设驱动。”例如,一个经典的大数据研究中,主试可能会收集数以百万计的ADHD(注意力缺陷多动障碍)患者的推文,接着再对这些数据进行挖掘,找到ADHD患者与正常人在推文上的差异,这一整个过程中没有预先设定假设。这样一种使用大数据对ADHD患者生活经历进行调查的方法能够促进更适当的治疗方式的寻找。

亚利桑那州立大学心理学家Kevin Grimm 博士认为,大数据分析提供了系统性的方法来探究不可预测的事物,这是大数据研究的一个重要方面。虽然使用验证性的方法来检验假设是重要的,但我们也要检验其他不可预测的趋势,这些趋势只有经过深度探索才能被发现。

Gosling认为,大数据的另一个优点是,可以让研究人员更好的理解现实世界人类行为的复杂性。他说:“人类的大多数行为都极其复杂,除非你有足够的能力,否则你根本无法检验这些事物之间的相互作用。在大数据时代到来之前,我们没有工具可以很好的研究复杂的现象。”在传统的心理学研究中,研究人员只能探究少数的几个因素,或者在极端控制的环境中进行研究,这些研究环境可能与现实世界并不相同。

大数据的潜在价值是巨大的,但对许多心理学家来说,这个门槛可能很高。

“从哪里入手对人们来说也是一个很大的障碍,”Wojcik说。“许多心理学家仅接受了SPSS使用的训练,但SPSS不是分析大数据的理想工具。”学习一种新的编程语言(比如R或Python)可能会好点,但这些新的编程语言也常常使人望而生畏。Wojcik建议人们把学习编程语言的时间投资看作是传统心理学研究的数据收集,一旦学会了R或Python,数据收集就会非常快。在传统的实验室里,你可能要花几个月的时间来收集数据,你完全可以把这些时间用来学习R。

从一个更广的视角出发,大数据收集也给心理学和其他领域带来了一系列伦理和隐私方面的挑战。比如,当被试授权我们访问他们的帖子时,我们不能越界收集他们朋友发布的内容,因为那些信息没有被授权。”

Gosling认为,心理学家应该规范的管理数据,避免涉及数据隐私的争论。同时也可以利用心理学的专业知识,对影响人们隐私和数据安全的决策因素进行研究,即,人们在分享数据时,感到的安全感和不安全感取决于什么?

程序员

关于作者: 程序员

为您推荐