首页
社区
课程
招聘
Panama Papers 图形数据库被破解
发表于: 2016-5-3 16:18 2092

Panama Papers 图形数据库被破解

2016-5-3 16:18
2092
新闻链接:http://bobao.360.cn/news/detail/2993.html
新闻时间:2016-04-29 22:09:35
新闻正文:调查记者国际财团已经宣布,他们将在5月9日公开已泄露Mossack Fonseca数据库中的结构数据。

这种可搜索的数据库不是为了进行“数据转储”,计划将包含从香港到美国内华达州范围内的公司、信托基金、基金会和21个免税区的注册基金在内的各种数据,涉及200多个国家和地区。

数据发布之后,用户可以利用它的搜索功能并且虚拟化周围网络,这其中还包括了Mossack Fonseca公司老总的内部数据。

在GraphConnect新技术欧洲会议之前的一次招待会上,《Register》和Mar Cabra进行了交谈,Cabra是ICIJ数据研究单位的主任,他们利用了公司的图形数据库技术作为一种工具对Panama Papers泄露文件进行了分析。

她说,“我们相信我们所能做的最佳手段就是召集尽可能多的记者来见证这些数据和文件,并且基于公众利益做出文档的摘要内容。”

她补充道,“我们相信,这种处理文件的办法从伦理上来说是安全的,我们也有义务公开尽可能多的数据。因此我们打算公开数据库的结构化数据部分。这里面包含了超过20万家国外公司和职员的名称,因为我们认为这些公司的登记应该被公之于众,这也是世界银行和许多专家的看法。”因此公开信息就不会有什么问题,所以他们决定在5月初进行这次的公开。

“这些年来我们已经和ICIJ建立了长久的合作,这样媒体机构也可以获得资源,这是在经济和新闻业之间建立了合作关系。所以《Guardian》会派遣5名记者,《Le Monde》也是5名,所有记者加起来一共有370名左右。”

在对Neo4j客户案例进行研究的时候,Cabra说,“在研究这种跨国泄露案件的时候,你才会发现进行重要的图形分析对于调查金融腐败是多么的重要。”

“搞清楚事实真相的关键就是连接问题,这会告诉你做生意的是什么人。所以我们之前就决定使用图形调查的办法来研究HSBC泄露案件。”

这个数据调查研究单位要做的第一步就是利用HSBC提供的普通EXCEL文件重建客户数据库。接下来,他们将每个名字都连接到一个或几个国家(两者在图形数据库中都是‘节点’)。最后,他们把数据变成表格来深入探讨节点之间的连接。

由此产生的图形数据库拥有超过27.5万个节点,而这其中又有超多40万种关系。ICIJ和Talend合作把原始数据库转变成了Neo4j新技术图形数据库。

另一个新技术的合作伙伴叫做Linkurious,他们会提供一种网页应用作为用户界面,这样图形数据库就会变得更加直观,也很易于访问。这种图形可视化方法使得ICIJ记者可以确定用户和银行账户的关系,这已经帮助他们顺势查明了几十起欺诈、腐败和偷税漏税案例。

Cabra告诉《Register》,“这是一项艰巨的任务。这种技术帮了我们很多,如果没有技术,这一切根本不可能完成。”

Panama Papers文件超过2.6TB,根本不适合立即进行分析。南德日报,这个德国出版社原先接到了泄露的消息,但是已经对之前的调查技术进行了解释。利用Nuix将图像文件中的文本扫描成机器可读文本。

有了Neo4j和Linkurious的帮助,ICIJ在那些参与其中的机构之间都建立了模型,并且发现了Cabra所说的“活动集合体”,特别是发现了超过2300家空壳公司。

“如果没有那些数据组件,我们是不可能在ICIJ完成这些调查的。数据可以让我们谈论一些系统性问题,可以在世事之间找出模型,这就是我们在做的事,暴露出系统发生的跨边界问题。”

虽然现实是我们最大的项目,也是最臭名昭著的项目,已经遭到泄露,但是我不得不说我们已经做过一些和公共数据有关的有趣项目。

例如我们做这个项目,着眼的是世界银行的公共数据,数据中包含的是数以千计的文件。然后在世界银行的资助下对这些文件进行分析并且创建了一个独特的项目数据库,我们也发现在过去十年里有超过300万人接受世界银行项目的资助,这都依赖于我们所做的数据库。

Cabra想的是,“在公共数据领域已经发生了很多大事件,我们可以自由使用公共数据不仅是依据信息法,更是依据这种公共数据门户。“但是ICIJ还是没有把所有的信息都完整公布。

“我们手头上有成千上万人的私人信息。我们知道银行账户信息、护照信息、未成年人信息、名字和联系方式,我们还知道关于腐败逃税的信息。所以我们相信从记者的角度来说,直接把这些11.5M文件公布在网上是不道德的,这些私人数据的公布有可能会造成意想不到的后果和附带损害。”

公布的数据将会列入ICIJ海外泄露数据库。

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

收藏
免费 0
支持
分享
最新回复 (0)
游客
登录 | 注册 方可回帖
返回
//