跟踪数据的概括是否掩盖了我们在互联网上的踪迹?

跟踪我们的浏览行为是互联网日常使用的一部分。公司使用它来使广告适应潜在客户的个人需求或衡量其范围。许多跟踪服务提供商通过以这种方式概括数据集并匿名化数据来宣传安全的数据保护。

概括数据

数据概括

卡尔斯鲁厄理工学院的计算机科学家(套件)和德累斯顿工业大学(塔德)现在已经研究了这种方法的安全性。

跟踪服务收集大量的互联网用户数据。这些数据包括访问的网站,还包括使用的最终设备的信息,访问时间(时间戳)或位置信息。

“由于这些数据非常敏感并且具有很高的个人参考性,因此许多公司使用归纳法显然将其匿名化并绕过 数据安全法规,”负责人Thorsten Strufe教授说“实用的IT安全性”KIT研究小组。

通过一般化,降低了信息的详细程度,从而认为不可能识别个人。例如,位置信息仅限于该区域,访问时间仅限于一天,或者IP地址缩短了一些数字。

Strufe及其团队和TUD的同事现已研究了这种方法是否真的无法就个人得出结论。

借助拥有6600万用户和超过20亿页面浏览量的德国网站的大量元数据,计算机科学家不仅成功地得出了有关所访问网站的结论,而且还成功地得出了关于页面浏览量链的结论,所谓的点击痕迹。数据由INFOnline(一家测量德国数据范围的机构)提供。

页面浏览的过程非常重要

“为了测试泛化的有效性,我们分析了两个应用方案,” Strufe says. “首先,我们检查了所有点击轨迹的唯一性。如果单击痕迹(即几个连续的页面浏览的过程)可以与其他区域清楚地区分开,则不再是匿名的。”

人们发现,必须从数据中完全删除所访问网站和使用的浏览器上的信息,以免得出关于人的结论。

“仅当缩短单击序列时,才意味着数据匿名,这意味着它们的存储没有任何上下文,或者删除了除时间戳之外的所有信息,” Strufe says.

“即使仅每天存储域,对主题的分配(例如政治或体育)和时间,也可以将35%到40%的数据分配给个人。”对于这种情况,研究人员发现泛化不符合匿名性的定义。

一些观察足以识别用户个人资料

此外,研究人员检查了单击轨迹的子集是否也可以得出关于个人的结论。

“我们将来自数据库的通用信息链接到其他观察结果,例如在社交媒体或聊天中共享的链接。例如,如果将时间精确地概括为分钟,那么一项观察就足以清楚地将20%的点击痕迹分配给一个人,”Strufe博士研究员Clemens Deusser说’的团队,他们主要参与了这项研究。

“另外两项观察将成功率提高到50%以上。然后,从数据库中很容易看出该人访问了哪些其他网站以及查看了哪些内容。”即使时间戳记以一天的精度存储,也仅需要五次其他观察即可识别此人。

“我们的结果表明,简单的概括不适用于有效地匿名化Web跟踪数据。数据对人而言仍然清晰,并且匿名化是无效的。为了达到有效的数据保护,必须采用远远超出此范围的方法,例如通过在数据中随机插入一些次要的错误观察而带来的噪声,” Strufe recommends.

分享这个