深度包检测和大数据分析之于隐私和安全

今天读到两条信息,分别介绍了深度包检测的工作原理和大数据分析时代的网络监测能力。做个记录,以便提醒自己,随着技术的发展,个人会越来越没有自由和隐私的。如何对抗,目前似乎还没有很好的答案。

深度包检测(DPI)和数据包捕获技术在过去十年彻底改变了网络监视,它们让实时抓取网络流量信息成为可能。DPI可以限制用户在网络上的行为,也可以记录下与所设规则相匹配的网络流量——规则可以是基于用户访问的网址,网络流量类型,或流量内容中的关键词和模式。要理解DPI的工作,必须先理解数据如何在网络中传输。

根据开放式通信系统互联(OSI)参考模型的定义,计算机网络体系结构分为1 物理层、2 数据链路层、3 网络层、4 传输层、5 会话层、6 表示层、7 应用层。网络路由器通常只是扫一下网络层(IP信息就在网络层),判断数据包中继路径;网络防火墙则需要更深入的了解数据,决定是否允许它通过网络;数据包过滤防火墙通常是检查第三层和第四层;应用层防火墙出现于1990年代,它进一步深入到网络流量中,根据数据类型为流量设置规则。应用层防火墙是第一种真正的深度包检测设备,它在数据包中检查应用协议,搜索数据中的关键词或模式。DPI设备根据用途而设置在网络中的不同位置。当网络数据包经过DPI“状态”防火墙,它会出现短暂延迟,因为数据包将被接受检查。而另一些深入分析内容的DPI设备则趋向于被动收集数据,当数据包通过一个网络检查点后,如果发现异常它们会向防火墙或其它安全设备发送指令。串联式DPI系统的优势是当在缓存中滞留数据包后,它们可以对数据包重新进行处理,如拦截内容,重新打包数据,移除原有数据伪造新数据——例如在网页中植入广告或成人内容,或使用恶意DNS服务器劫持网络请求到另一个服务器——它甚至还可以解密SSL内容,这本质上是执行对终端用户的中间人攻击。一家名叫NebuAd的公司曾试图向ISP兜售基于DPI的广告植入,包括在用户浏览器cookies中植入JavaScript代码发布针对性广告。它在引起美国国会关注后破产。

网络监视系统是设计快速对流量作出反应,如何高效的捕获和分析流量?数据包捕获工具不可能去捕获整个互联网的流量,例如两个网关之间的平均流量是每秒5gigabits,每日捕获的数据将达到54 terabytes左右,即便数据压缩率能达到10:1,储存开销也会增加到难以接受的程度。

解决方法由两部分组成:首先,基于DPI的网络监控系统会预处理数据,它不捕获和储存完整的数据包,而是筛选出元数据,聚合电子邮件附件、IM和社交帖子等应用数据;其次是只监控网络的咽喉点,例如上行到骨干网的关口。一个高效的监控系统每秒能处理1.5 gigabytes的完整数据包,每天能处理129.6 terabytes。在预处理之后,每天petabytes级的原始网络数据可减少到gigabytes级的列表数据和应用数据。数据的进一步处理则在大容量高速数据储存管理技术如Hadoop,以及MapReduce和 BigTable等数据库技术的帮助下实现了实时和深入分析。例如Bivio的大数据流量分析工具NetFalcon,它的每个探针能每秒处理最高 10 gigabits,关联引擎能每秒处理超过100 gigabits,能将数周甚至数个月的流量和事件数据关联起来,允许对 petabytes级的数据快速查询和搜索。以匿名工具Tor为例,它设计绕过实时流量屏蔽,但通过搜索已知的洋葱路由出口节点,可以一路跟踪网络中的尾迹到原始系统。此类的系统具有长期的记忆,能发现长期内的流量模式,能在它们再次发生时立即识别出来。

分别来自 Solidot 上的2篇文章:深度包检测如何工作 和 大数据分析让网络监视更廉价©

本文发表于水景一页。永久链接:<https://cnzhx.net/blog/dpi-big_data_analysis-privacy_and_security/>。转载请保留此信息及相应链接。

2 条关于 “深度包检测和大数据分析之于隐私和安全” 的评论

雁过留声,人过留名

您的邮箱地址不会被公开。 必填项已用 * 标注

特别提示:与当前文章主题无关的讨论相关但需要较多讨论求助信息请发布到水景一页讨论区的相应版块,谢谢您的理解与合作!请参考本站互助指南
您可以在评论中使用如下的 HTML 标记来辅助表达: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>