好奇心日报

好奇驱动你的世界

打开
文化
  • MeToo
  • Cover
  • 纽约客

#Cover:“Metoo”作为一项重要历史事件,该如何存档?

档案管理者们需要回答数个问题:如何从社交平台有效收集大量信息?如何界定什么值得保存?如何平衡存档研究与个人隐私的关系?

去年 6 月,哈佛大学拉德克利夫学院(Radcliffe Institute)施莱辛格图书馆(Schlesinger Library)宣布了一项宏大的档案计划:收集与 #MeToo 运动相关的上百万条推特帖子及上万个网页,包括新闻报道、立法进程、人事政策变动、公开致歉声明等,将其作为一手历史资料存档,并且希望在 2019 年下半年前向研究者开放部分馆藏。

他们希望这些数据能回答关于 #MeToo 运动的一些关键问题:它究竟取得了什么成就?它只是转瞬即逝的、变革精神的瞬时爆发,还是一种尚待组织、十分分散但仍在持续扩展的尝试?

回答这些问题的难点在于,尽管施莱辛格图书馆一直以专门收藏有关美国女性地位发展的历史资料著称,但 #MeToo 运动的存档工作却没有什么先例可供参考。

许多人都天真地认为网上的内容会永远存在。但根据《纽约客》作者 Jill Lopre 的说法,互联网是人类发明中“有效期”最短暂的一个。一张纸可以保存 700 年;但网页的平均寿命其实只有约 100 天。

差不多 10 年前,历史学家们才意识到社交媒体的重要性,图书馆也才开始研究可用于大规模收集此类信息的工具。

在互联网存档的早期阶段,保存主义者们的设想是能够将整个网络完整保存下来。从 2001 年,Internet Archive 都在做这件事。它的 Wayback Machine 每天会检索上千次,尽量快、尽量多的存储信息。但这种存储与其说是存档,更类似备份。它并不会按照传统的存档守则去筛选信息:这条信息是否值得保存?还有什么信息需要一同保存,以完善其真实性及完整性?谁创造并拥有这条信息,他们的权利如何考量?

到 2010 年,美国国会图书馆(Library of Congress,简称 LOC)试图做一个社交媒体版的 Internet Archive。当时它宣布将从 2006 起存储所有推文,这让媒体和研究者们十分兴奋。最初 3 年,每天都有约 400 多人写信要求查看数据。但根据 Harper's Magazine 的报道,截至去年 12 月,没人获得任何信息。相反,这个项目证明了图书馆对于互联网时代是多么准备不足。LOC 光是给这些推文编号就得花费数年;2013 年,检索一个简单的关键词要花 24 小时。

 Hanna Barczyk,图片来自 Harper's Magazine

对于 #MeToo 运动的存档来说,他们面临的问题还要更加具体。

《纽约客》作者 Nora Caplan-Bricker 在今年 1 月采访了施莱辛格图书馆馆长、哈佛大学历史学教授 Jane Kamensky 及其团队。她们每周在推特上搜索 #MeToo 及相关话题标签,都会找到至少 150 条推文。这让她们没法确定什么时候才是尽头,或者说,历史学家回看时到底应该把什么时间节点作为 #MeToo 的落幕?

Kamensky 团队目前使用的 Twitter 数据存储工具是由乔治华盛顿大学(George Washington University)研发的 Social Feed Manager。它每周会下载约 50 条话题标签,包括热门相关话题((#MuteRKelly)、细分行业领域的话题(#ChurchToo )以及持反对意见的话题(#MeTooLiars、#IStandWithBrett)等,收集的信息包括转发量、粉丝量、地理位置等。

不过,Twitter 的 A.P.I. 系统只允许大规模免费下载发布时间在一周以内的推文。因此图书馆需要与该公司合作,才能购买自 #MeToo 话题标签出现以来的 1900 万条推文。

针对 Facebook 和 Instagram,Kamensky 团队最初使用的是“Webrecorder”,但用它大规模收集数据十分困难。团队成员最初选择手动挑选新闻报道及 URLs 链接,后来为保证覆盖面够全,又改用了 Media Cloud——一套由 M.I.T. 和哈佛大学共同研发的工具,能够批量搜索新闻报道并存档。但用团队成员的话来说,收集这些信息仍然“像站在漫天纸条雨中,试图找出有用的捡起来,不然它们就会被扫到垃圾桶里”。

除了技术难题,#MeToo 运动的存档也意味着档案管理者还得把自己变成策展人的角色。标准的档案管理原本是有明确边界的:某个人或机构的一系列论文,或者是某个事件现存的所有文档。但 #MeToo 运动的信息源有上百万条,各自在不同方面带来不同影响,因此只能以一种被“构建”(constructed)或“虚构”(artificial)的方式保存。它们的边界是由人去定义,而非绝对的。这也迫使图书馆从传统角色中跳脱出来,从尽量不留下一丝指纹的存档者转换为试图从黏土中还原历史的学者。

另一个更难解决的问题是如何平衡保存历史的需要与个人隐私。#MeToo 运动的主题之一是女性的主动权:为自己发声,讲述自己的故事。而在保存或研究这些故事时,存档者和研究者却不可能一一征询上百万 Twitter 账户用户的同意。虽然从法律上说,Twitter 的用户协议意味着存档者的做法并不违法,但大部分用户并没有这种意识:在一次针对 268 名 Twitter 用户的调查中,近一半的人认为自己的推文不可以在未经同意的前提下被用作研究素材。

一种权宜之计是图书馆只对研究者开放认证账号或粉丝数达到一定量级的账号的推文,并且在某位用户提出异议时,对研究者屏蔽该用户账号内容。

总的来说, Kamensky 团队认为他们的工作能够给研究者提供有价值的服务,无需过多考虑一些小的纠纷。“随着这些资料逐渐累积、得到保存,时间会解决一切问题。我们的目光可以放得长远些。”Kamensky 对《纽约客》说


题图来自《纽约客》,Chloé Poizat 绘制

  • MeToo
  • Cover
  • 纽约客