计算社会科学诞生近10年,未来何去何从?重读经典寻答案
自计算社会科学问世以来,时间已接近十年。当前,自然科学界广泛采用大数据、分布式计算等手段来提升研究品质,然而,社会科学领域的关键数据依旧集中在少数机构手中,并由此产生了巨大的经济价值。与此同时,数据隐私、制度规范等问题也不断对计算社会科学的发展构成挑战。那么,计算社会科学的未来走向何方?或许,通过重温经典,从历史的长河中探寻答案。
编译:集智翻译组
来源:
计算社会科学领域的研究禁令
计算社会科学的诞生
2009年2月6日,这一日见证了信息革命的高潮,技术领域的重大突破,以及一门全新学科的诞生。这一天,计算社会科学界迎来了值得铭记的时刻。15位来自社会科学、计算机科学和物理学的杰出科学家,共同在《Science》杂志上发表了名为《Computer Social Science》的论文,正式宣告了计算社会科学的诞生。
来源:
21世纪,网络已经成为了我们生活的核心,脸书、微信、电话以及邮件,让彼此间的交流瞬间实现,互联网上留下了无数信件往来的痕迹;信用卡和公交卡记录了我们的行踪和消费记录;汽车上安装的摄像头记录了行车的状态,而政府则在公共场所广泛安装监控设备,以收集犯罪行为的证据。我们身处现实生活之中,却在虚拟领域留下了众多数字痕迹,这些痕迹不仅重塑了我们的生活方式,也改观了我们对社会的看法,还影响了科学研究的方向。
搜集与解析大量数据的能力已经深刻地重塑了自然科学领域,诸如生物学与物理学。尽管如此,以数据为驱动力的计算社会科学的进步却显得相当迟缓,在经济学、社会学和政治学等领域的核心期刊中,关于计算社会科学的研究论文数量寥寥无几。然而,不容忽视的是,在诸如Google、Yahoo等知名互联网公司以及美国安全局等政府部门,计算社会科学的研究工作正在稳步推进。
社会科学的计算领域或许仅限于私营企业与行政机构之中。或者,一些享有特殊地位的学者可能会利用这些独特的“机密”资料,进而撰写出他人无法评判和复制的论文。从发展的角度来看,这两种情形均不利于知识的积累、验证与扩散。让我们设身处地地想象,在一种开放式的学术氛围中,计算社会科学将如何助力我们深化对个体以及群体行为的认识?
计算社会科学关心的问题
截至目前,人类互动领域的研究主要还是借助特定时间段内个体填写的问卷数据。然而,随着技术的进步,产生了大量数据资源,这些数据有望显著提升研究质量。电子邮件往来记录揭示了不同时期人际互动的模式与实质,通过这些数据,我们得以探究人际关系随时间推移的演变规律,进而引发对人类互动行为的深入思考:团体内部的人际关系是处于稳定状态,变化微小,还是持续经历着剧烈的波动?优秀的团队和个人具备怎样的互动模式?
同样,我们还有能力审视整个社会的网络结构,并探究其随时间推移的演变过程。例如,移动电话运营商以及像Google、Yahoo这样的巨型互联网企业,都掌握了大量用户间的交流信息。这些数据是否能够勾勒出一幅社会通信模式的复杂画卷?这幅画卷又将以何种方式作用于经济生产力和公共健康?手机极大地简化了追踪人们日常活动的流程,并且这些活动数据对于我们探究流行病是如何在个人之间传播的等关键问题具有重要意义。
总的来说,互联网开辟了一条全新的途径,帮助我们洞察人与人之间的联系。深入思考,回顾最近的政治选举阶段,若能追踪那些广泛传播的观点、谣言、政治立场,以及博客圈内的讨论和网络上的浏览行为,每位选民最关注的问题便会一目了然。
图1展示了博客圈的数据,图中呈现了自2004年起的一个政治博客社区的链接布局。红色节点代表保守派博客,蓝色节点则代表自由主义博客。橙色线条象征着从自由主义博客指向保守派博客的连接,而紫色线条则表示从保守派博客指向自由主义博客的连接。此外,每个博客的大小代表了它被其他博客链接的频率。资料来源:参考文献。
互联网构建的虚拟空间,自然而然且轻松地捕捉到了个体行为的全面信息,这为原本难以实现的研究提供了丰厚的资料库。比如,这些详尽的个人资料使我们得以探究一个人在社交网络中的地位如何塑造其偏好、情绪,甚至身心健康。同时,自然语言处理(NLP)技术的进步也显著提升了我们分析海量文本资料的能力。
未来,我们期望,对于社会的理解将不再依赖人工记录面对面交流者的信息,转而借助各式各样的电子设备自动生成并保存社交数据。简而言之,计算社会科学正以前所未有的宽度、深度和规模进行数据的搜集与分析,然而,其兴起与发展却面临着诸多挑战。
计算社会科学研究障碍
在研究方法上,现行的阐释人类行为的理论框架与模式,是在无法获取及处理数以亿计的人类互动信息数据的情况下形成与确立的。以几十人的某一特定时刻数据为基础构建的社会网络理论,又怎能有效解释百万级别人群间的复杂联系呢?大量关于人类互动的新数据为探究集体行为提供了新的观察角度,然而,现有的社会科学研究方法并不必然对此表示认同。
在推动计算社会科学的发展过程中,诸多制度性的难题亟待克服。与物理学和生物学的研究课题相比,计算社会科学在观察和干预研究对象时面临独特的挑战。在物理和生物学的实验中,研究对象如夸克和细胞,它们不会像人类那样,在他人观察下无意识地或有意地隐藏自己的行为;它们对人类的干预通常表现得顺从,不会产生反抗。
在探讨基础条件时,我们发现从社会科学领域扩展至计算社会科学所面临的挑战,相较于从生物学领域过渡到计算生物学所遇到的困难,显得尤为艰巨。那么,这种差异的根源究竟在何处呢?关键在于,计算社会科学的发展过程中,必须解决诸如分布式监控、数据使用权获取以及加密技术等一系列难题,而这些资源在社会科学领域普遍较为稀缺。
数据获取与保护的问题或许最为棘手,当前众多研究所需的数据往往牵涉到个人隐私信息。以美国AOL公司的事件为鉴,2006年8月,该公司披露了从3月1日至5月31日三个月内用户的实际搜索数据,这些数据涵盖了1900万次搜索,超过1080万个独特的搜索词汇,以及658000个用户身份标识。AOL公司,作为一家提供电子邮件、新闻组、教育及娱乐服务的在线信息服务企业,在2015年被威瑞森通信公司收购。
尽管用户的账号名称隐去了真实身份,但只要你的观察细致且态度严谨,依然能在这超过8000名用户中挖掘出大量线索。比如,有位记者便通过检索到的住址和名字迅速锁定了一位62岁的老妇人,而这位老妇人本人也确认了那些列出的搜索词汇确实与她有关。此外,通过这些搜索词汇,你还能发现一些关键信息(来源:)。
1.怎样炸掉一栋楼
2.怎样给别人下药
3.怎样制造炮弹
4.怎样攻入别人的电脑
5.怎样杀死太太
6.怎样杀人能够不留痕迹
7.......
AOL公司此举引发了社会的大动荡,尽管该网页在数小时后便被撤除,然而数据已在网络上被广泛传播,这无疑对私人企业擅自泄露个人资料的行为敲响了警钟。
来源:
设想当下,若谷歌、百度、天猫、腾讯、京东等互联网巨头忽然披露了所有用户的搜索历史、对话记录、购物数据等,更糟糕的是,假如你的浏览器昵称就是你的真名,并且你频繁在浏览器中查询你家周边的加油站、超市等资讯,同时在天猫购物时多次填写你的住址,那么你可能会迅速被精准定位。依据你的搜索历史,你将遭受各式各样的标签的附着,“房奴”、“彩妆爱好者”以及“动漫迷”等。更令人担忧的是,你的电话可能会频繁地被各类销售公司拨打,这会导致你的生活陷入一片混乱。
鉴于保护个人数据隐私及企业权益的重要性,并且为了使这些数据得以充分利用,进而推动科学研究的进展,构建企业与科学家之间的互利共赢数据共享机制显得尤为关键。总体而言,妥善解决隐私问题至关重要。近期,美国国家研究委员会发布的关于地理信息系统的报告明确指出,即便对数据进行极为严格的匿名处理,依然存在重新解析并识别出个人隐私信息的可能性。
去年,美国国家健康局与惠康信托基金会突然终止了对某些基因数据库的在线访问权限。尽管这些数据仅粗略地展示了特定遗传标记的总体出现频率,并未涉及任何个人隐私信息,但仍有研究者坚信,借助数据库中个体的大量数据,并运用现行的统计方法,依然有可能重新识别出个人身份。
一次偶然的侵犯个人隐私事件一旦发生,便可能导致社会对信息共享产生强烈的厌恶情绪,甚至可能出台一些抑制计算社会科学进步的法律条款。在这种背景下,我们亟需建立一套既可减少信息泄露风险,又能确保数据研究价值的规章制度。作为学术领域自我监管的关键机制,美国机构审查委员会(IRB)亟需提升自身科技素养,以便充分认识新技术可能对个人权益造成的潜在侵犯和损害。鉴于其现行规定中对伤害的界定已无法有效评估这些新出现的伤害形式,IRB的审查人员亦面临挑战,他们现有的技术手段难以准确判断数据是否实现了“真正的匿名化”。除此之外,IRB或许需要设立一个专门负责数据安全的部门。现阶段,众多私营企业掌握着大量数据,然而,缺乏一套统一的数据安全保护标准。当科学家们计划利用这些数据进行研究时,他们必须重视数据隐私的保护,并研发出相应的技术来确保个人信息的私密性。这些技术不仅能够助力政府和公司维护数据安全,还能保护客户的隐私。
结语
如同其他新兴的交叉学科(例如可持续发展科学)那样,若欲推动计算社会科学的进步,就必须构建新的研究模式并培育新一代的研究者。在大学里,那些负责终身教职评定的委员会以及各类期刊的编辑部,均应主动支持并激励年轻学者在跨学科领域所付出的辛勤努力。起初,推动计算社会科学的进步需要社会科学与计算机科学领域的专家携手合作,然而,仅凭不同学科专家的共同努力尚显不足,计算社会科学的真正发展最终还是依赖于学术界是否愿意培育出既精通计算技术又具备社会科学素养的学者,或是那些兼具社会科学背景的计算机科学团队。认知科学的出现,为计算社会科学的进步树立了一个优秀的榜样。这一学科的研究领域横跨神经生物学、哲学以及计算机科学等多个学科。它汇聚了众多资源,致力于构建一个共享的研究领域,并在前一代的研究中为公共事业带来了显著的进步。我们坚信,计算社会科学同样拥有巨大的发展潜力,值得我们投入相应的资源去推动其发展。
文章评论