首页
社区
课程
招聘
“棱镜门”背后的隐忧:大数据与隐私的对抗
发表于: 2013-7-16 09:32 3792

“棱镜门”背后的隐忧:大数据与隐私的对抗

2013-7-16 09:32
3792
  围绕着不速之客爱德华·斯诺登,正上演了一出大戏,尖端级国家机密、黑客、潜逃、引渡、钢管舞女友、谎言、恋人离别、个人权利和国家利益、公义和职业操守、大国间的博弈……种种矛盾和冲突一一展现,人们仿佛在观看一部好莱坞大片。

  在这场全景式的真实电影之中,有太多的细节和桥段被媒介从多个维度去讨论和争议。在一系列争议之中,随着IT业巨头们纷纷被斯诺登拉下水,“大数据”(big data)这一个先锋技术概念再次被拉到聚光灯前。

  斯诺登披露,谷歌、Facebook、微软、雅虎等互联网巨头都向美国政府提供的服务器后门,这一项目被命名为“棱镜”(Prism)。

  “棱镜”如同一条高速公路,让美国国家安全局可以从IT巨头的服务器中获得包括电子邮件、搜索记录、视频和语音交谈、视频、照片、VoIP通话、文件传输、社交网站信息等海量数据。此后,这些海量数据进入“大数据”分析系统这座加工厂。分析师使用强大的运算能力,对信息进行检索、比对和分析,再通过比对现实世界中信用卡或者电话录音等方式,几近真实地还原每一个人的真实状况。

  事实上,这种效率已经被美国官方所证实。当斯诺登事件发生后,或许为了给“棱镜”计划开脱,美国官方公开宣称,他们借助“棱镜”计划成功挫败了多起恐怖袭击。这一事实向世人再次展示了大数据技术拥有的巨大潜能,同时也折射出潜能背后的深深隐患。

  大数据和隐私

  十年前我在国外读书时,身边的一位学长总是神经兮兮地向我和其他同学建议:在给国内亲友打电话时,电话中最好插一些涉及军事等敏感词,如同弹道导弹、核潜艇之类的词汇。

  在他看来,外国人这个群体的通信始终会被“一些秘密机构”监听。作为对个人隐私权遭受侵犯的抗议,如果所有普通人都在电话中夹杂一些容易被注意到的关键词,会增加这些机构的工作量,增加其成本,最终获得干扰对方监听的效果。

  当时我并不清楚是否会存在类似的组织,也不知道这种组织到底是用人力还是用计算机系统来完成监听工作,但我猜想,用成本相对低廉的计算机软件系统来实现监听和识别,以当时计算机的运算和存储成本,学长的建议是可行的,能有效增加这一可能影子组织的监听成本。所以很长一段时间内,在给国内打长途电话时,我都照此方法,总是夹七夹八地说一些不着四六的话。

  那个时候,谷歌两篇关于描述大规模软件平台的论文刚刚发表,其中一篇讲如何通过网络来快速准确地访问分布在世界各地服务器上的硬盘,集结存储和读取大量数据(GFS技术),另外一篇讲如何使所有服务器的计算资源为你所用,共同完成一个庞大的运算(MapRe-duce技术,云计算的核心技术之一)。两篇论文所涉及技术的核心,就是如何运用庞大网络系统来应对庞大数据的运算。这种分布式系统,依托网络的力量而拥有超级计算机的运算能力。

  转眼间,十年过去了,曾经停留在纸面的两篇科技论文变成了成熟的技术应用,而伴随着计算机运算和存储能力的提升,以及相应成本的下降,网络化计算能力得到指数倍的提升。时下,随便哪个网站都可能需要处理数量巨大的在线数据,例如,当你使用谷歌在线翻译,寻找英语单词“light”是该翻译成中文的“光”还是“轻”时,一瞬间谷歌就会检索数十亿页的翻译资料。

  事实上,尽管谷歌是最重要的大数据商,但过去几年间许多网络公司也都投入了很多精力,开发能够在上万台服务器上分析处理线上数据的软件平台,而且在这些处理“大数据”的软件完成之后,这些公司将成果公开了,任何感兴趣的人都可以使用。

  在这种庞大的运算能力面前,此前似乎像散沙一样不具备任何关联性的海量数据得到了有效处理。如同处理人们千差万别的电话录音一样,首先对不同语种和口音的录音进行数字化转换。尽管录音和录音之间的音调音色没有任何规则可言,涉及到的内容也千差万别,但这种不具备结构化和不规则的海量数据,被强大的网络化运算能力分配到世界各地数百或数千台电脑上,进行分析比对。例如,Facebook公司开发的运算系统可以处理超过100PB(即十亿GB)的数据。

  在这种大数据处理能力面前,学长此前的招数被技术进步化解得毫无用处。

  事实上,没有规律和结构可言的数据并不仅仅只有电话录音,任何上网痕迹都可以通过强大的运算能力得到分析比对,人们的真实身份、性格、消费习惯、需求等等个人信息都可以被还原。海量分析出的这些结果,可以服务于各种各样的决策,首先被广泛应用到商业领域。

  诸如谷歌和百度这样的搜索引擎,在你连续搜索若干关键词后,它们就可以轻松知道你想要做什么。在相关搜索结果的页面上,你总能看到谷歌和百度为你量身推介的广告,而这些广告中总有一个和你的需求相关。

  搜索引擎企业作为最具代表性的大数据企业,在为你免费提供各种信息服务的同时,也将你和其他众多用户的信息用来为第三方服务,特别是那些需要面对大众的商家。比如洗发水生产商这样的消费品企业,他们需要借助大数据商的数据分析,来帮助他们了解自己的客户的真正需求。

  这一商业行为一开始,大数据商们就已面临侵害个人隐私的指责和质疑,但大数据商们总是宣称,所有用户数据都只是被用于机器层面的应用,得到的也是整体性运算结果,不会危及个人隐私。但是,在斯诺登揭露了这个“暗黑世界”后,人们才惊奇地发现,大数据服务商都需要面对一个最大、而且要求更加具体的客户——政府。

  在IT巨头们海量数据库的帮助下,美国政府不仅可以像洗发水生产商一样来优化决策,提升应对恐怖袭击的能力,更重要的是可以直接找到威胁国家安全的恐怖分子。

  面对一个个体生活不断被互联网信息化高度整合,甚至裹挟和绑架的时代,暂且不去讨论大数据技术是否会沦为一个专制的恶政府的可怕工具。即便一个民主政体出于一个好的目的,但是,你永远无法判断结果的好坏,因为魔鬼永远用一个好的理由将人们带向地狱。

  棱镜事件折射出的对个人隐私权的漠视,似乎正成为一个可怕结果的开始。

  正确的决策?

  自古以来,政府就是数据的最大使用者,从人口统计,到税务征收,再到战争动员,国家涉及到的功能都和数据有关。数据如同感知外部世界的触角,政府借此不断调整自己的决策,使其符合外部环境的变化。

  和此前由人工统计的数据相比,网络时代的数据更多来自机器,比如某条街道上记录车流量的摄像头,等等。随着人类社会的数据规模呈指数级增长,对数据进行加工和分析的主角,也由原先统计和分析人员变成了程序员和算法师。

  后两者借助大数据技术,建立了无数而且复杂的数学模型,模型之间也用复杂的算法进行嵌套,例如你用谷歌分辨几个搜索关键词和“流感”的关联度,谷歌往往会通过全球范围内的服务器去测试四亿五千万个数学模型的结果。

  相比网络之前的时代,时下的数据分析能力得到了空前的提升,但谁能保障大数据分析的准确性呢?我们可以回过头去,看看电脑是如何得出这个结果的,或许可以查阅一下硬盘上的数据,或许可以检查一下一两个程序代码,来判断其逻辑是否有误。但在大数据时代,因为大数据算法和结构太过复杂,从外部没有人能够追溯错误的源头。

  维克多·梅耶·松博格与肯尼迪·古奇尔在他们合著的《大数据:改变我们生活、工作、思考的革命》一书中,记录了这一件事:在2004年美国国家安全局依赖大数据系统,自动分析生成了一张禁止飞行的危险人物名单,但这一名单错误百出,甚至美国参议员也赫然在列。幸亏国家安全局一名算法师从内部阻止了这张名单生效。

  在这个故事中,我们可以看到大数据出错的风险。在没有有效的保障下,大数据分析系统可能变成一个不可说明、不可追踪、甚至不可信的黑匣子。在这种情况下,大数据和政府治理一旦密切联姻,可能将产生无数的受害者。

  试想一下,谁能真正保证“棱镜”计划制止的恐怖分子不会有错误呢?受到政府迫害的人就一定会报复社会吗?甚至一度有行凶念头的人,不会在最后放弃呢?在民主国家,受害人还拥有法律武器,可以纠正大数据带来的错误结果。在那些民主和法制不健全的国家,漏洞百出的大数据系统很可能会导致大规模的迫害。

  显然,“棱镜”折射出了这一潜在的危险。大数据政府治理时代的到来,要求我们必须建立一套新的监督制衡机制,来规范政府行为;建立一个更加开放的社会治理环境,来减少大数据错误的危害。

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

收藏
免费 0
支持
分享
最新回复 (2)
雪    币: 9
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
2
斯诺登是黑客 还是灰客?
2013-7-20 07:00
0
雪    币: 208
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
3
个人感觉称呼为“骇客”更合适
2013-7-30 10:13
0
游客
登录 | 注册 方可回帖
返回
// // 统计代码