1126
需用时 02:15
只需4组数据,还原你的购物模式

再也别乱扔信用卡小票了。在1月30日的《科学》杂志上,来自麻省理工学院媒体实验室、丹麦奥尔胡斯大学和新泽西罗格斯大学的几名科学家发表了一篇论文,证明了仅需4组较精确的支付时间、支付商家和交易数额,就基本可以确定持卡人的所有消费记录,准确率可达90%;甚至仅仅有较模糊的支付数据,也很有可能泄露消费历史。[1]

研究者们取得了一个匿名信用卡消费数据集,其中包括了来自某个经合组织国家的110万人在1万个商家的消费记录。这份数据集很简单,只有用户ID、支付数额、精确到天的支付时间和精确到商家的地点,而没有明显的身份信息,没有电话号码,没有姓名,也没有住址。但是即便如此,通过对消费空间、时间和消费能力的对比,他们还是能够将消费记录和某个用户ID对应起来。

左图表示了用户ID为7abc1a23的持卡人按照时间顺序排列的消费行为。每笔消费的金额被归到不同的区间。图片来源:研究论文

这意味着,只要知道你的几次信用卡交易具体信息,就可以知道你的所有信用卡消费记录。这可能不是件新鲜事,毕竟信用卡数据早已用于个人信用评价、欺诈检测和购物模式分析了。实际上,信用卡公司可能比你还早就知道你的信用卡被盗用——每个人都有独特的购物模式。

但这项研究揭示了一种新的危险——我们往往认为在一大批匿名数据中,很难将特定用户与ID对应起来,但这项研究则证实并非如此。个人消费的独特性比我们以直觉得出的结论要高得多。

值得注意的是,女性用户比男性用户更容易识别,高收入用户也比中低收入用户更容易被识别。这份数据集还算全面,因此也可以认为在真实世界中,我们的消费记录也并不安全——这份数据集中,24%用户为女性,76%用户为男性;39%用户收入水平低于收入中值,35%用户收入水平在中值和2.5倍中值之间,还有22%高于2.5倍中值。

毕竟在美国,有60%的交易是通过信用卡来完成的,而用途各种各样,从购买日常用品到支付医疗费用等等不一而足。消费记录能够展现许多信息,而它现在看起来很容易获得。甚至,当支付信息更模糊——例如支付时间范围在半个月之内——时,也有较高的把握可以筛选出使用者的记录。

这篇论文的第一作者是麻省理工学院媒体实验室的伊芙-亚历山大·德蒙鸠依(Yves-Alexandre de Montjoye),他一直在研究人类行为数据和个人隐私的冲突。在2013年,他和同事们发表过一篇论文,证明了因为运动模式的可预见性,只需要知道同一部手机的四个位置点和相应时间,就可以以95%的准确率定位一个用户。[2]一年后,他的另一篇论文表明,通过移动手机通话记录,包括通话时间、地点、时长、联系频率等数据,可以以较高的准确率预测手机用户的性格特质。[3]为了避免网络对个人的侵犯,他还开发了一种叫做OpenPDS的服务,帮助人们保护那些自己不想泄露的个人数据——其中,PDS是Personal Data Store的缩写。

他可能是在这个以方便为宗旨的信息世界中,为数不多的隐私捍卫战士。但他的努力也许像是堂吉诃德对风车发起的冲锋:在诸多收集行为数据成为标准行为的今天,人们的身份信息基本上昭然若揭。毕竟,就像同在研究网络隐私的普林斯顿大学副教授而阿尔文德·纳拉亚南(Arvind Narayanan)所说的那样,不泄露隐私是“在算法上不可能”的。(编辑:球藻怪)

参考文献:

  1. Unique in the shopping mall: On the reidentifiability of credit card metadata Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh, and Alex “Sandy” Pentland Science 30 January 2015536-539.
  2. de Montjoye, Yves-Alexandre, César A. Hidalgo, Michel Verleysen, and Vincent D. Blondel. "Unique in the Crowd: The privacy bounds of human mobility."Scientific reports 3 (2013).
  3. de Montjoye, Yves-Alexandre, Jake Kendall, and Cameron F. Kerry. "Enabling Humanitarian Use of Mobile Phone Data." (2014).

文章题图:shutterstock友情提供

The End

发布于2015-02-01, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

猛犸

果壳作者

pic