扫描社交媒体的新方法有助于消除错误信息

赖斯大学的研究人员发现了一种更有效的社交媒体公司保留方式 误传 使用经过人工智能训练的概率过滤器在线传播。

社交媒体错误信息

打击社交媒体上的错误信息

一项由研究人员介绍的研究概述了扫描社交媒体的新方法。 白饭 电脑科学家 安舒玛利·什里瓦斯塔瓦(Anshumali Shrivastava) 和统计研究生 戴振伟。他们的方法以更智能的方式应用了机器学习,以改善Bloom滤波器的性能,Bloom滤波器是半个世纪前设计的一种广泛使用的技术。

通过使用虚假新闻和计算机病毒的测试数据库,Shrivastava和Dai展示了他们的自适应学习型Bloom过滤器(Ada-BF)所需的内存减少了50%,以实现与学习型Bloom过滤器相同的性能水平。

解释过滤方法

为了解释他们的过滤方法,Shrivastava和Dai引用了Twitter的一些数据。这家社交媒体巨头最近透露,其用户每天增加约5亿条推文,而这些推文通常在用户点击“发送”后一秒钟就在线出现。

“在选举期间,他们每秒收到约10,000条推文,而延迟时间为一秒’每毫秒约6条推文,” Shrivastava said. “如果您想应用一个过滤器,该过滤器读取每条推文并用以下信息标记这些推文:’众所周知,它是伪造的,您的标记机制不能慢于6毫秒,否则您将落在后面而永不追赶。”

如果发送带标记的推文以进行其他手动审核,它将’降低假阳性率也至关重要。换句话说,您需要最大程度地减少错误标记的真实推文数量。

“如果您的误报率低至0.1%,那么即使您误将每秒10条推文(或每天超过80万条)标记为手动审核,” he said. “这就是为什么大多数传统的仅使用AI的方法禁止控制错误信息的原因。”

Shrivastava说Twitter没有’尽管没有公开其过滤推文的方法,但是人们相信它们采用了布隆过滤器,这是1970年发明的一种低内存技术,用于检查特定数据元素(例如一段计算机代码)是否属于已知数据集的一部分。元素,例如已知计算机病毒的数据库。布隆过滤器可以确保找到与数据库匹配的所有代码,但它也会记录一些误报。

“Let’s say you’我们发现了一条错误信息,并且您想确保它不会在推文中传播,” Shrivastava said.

“Bloom过滤器使您可以在百万分之一秒或更短的时间内非常快速地检查tweet。如果说某条推文是干净的,则表明它与您的错误信息数据库中的任何内容都不匹配,’100%保证。所以没有机会’发出带有已知错误信息的推文。但是,Bloom过滤器会在很短的时间内标记无害的推文。”

使用机器学习来增强Bloom过滤器

在过去三年中,研究人员提供了各种使用机器学习的方案,以增强Bloom过滤器并提高其效率。可以训练语言识别软件来识别和批准大多数推文,从而减少需要使用Bloom过滤器处理的数量。

机器学习分类器的使用可以减少过滤数据所需的计算开销,从而使公司可以在更短的时间内使用相同的资源处理更多的信息。

“当人们今天使用机器学习模型时,他们浪费了很多有用的信息,’来自机器学习模型,” Dai said.

典型的方法是设置容差阈值,并将低于该阈值的所有内容发送到Bloom过滤器。如果置信度阈值为85%,则意味着分类器认为安全性为80%的信息所接受的检查级别与仅10%的信息相同。

“即使我们不能完全依靠机器学习分类器,它仍然可以为我们提供有价值的信息,可以减少Bloom过滤器资源的数量,” Dai said.

“What we’我们所做的就是概率性地运用这些资源。当分类器只有10%的置信度时,我们会提供更多的资源;而当分类器只有20%的置信度时,我们会提供较少的资源,依此类推。我们采用分类器的全部范围,并使用可以从Bloom过滤器分配的全部资源范围对其进行解析。”

Shrivastava说Ada-BF’减少的内存需求直接转化为实时过滤系统增加的容量。

“我们需要一半的空间” he said. “因此,基本上,我们可以使用相同的资源处理两倍的信息。”

分享这个