案例之五:Infchimps处理一百万倍的混合(mashup)
问一下Phillip "Flip" Krmer哪里能找到几乎任何的列表、电子表格或数据集,他会很高兴地向你介绍他的公司InfChimps,这家公司自称是"全世界的数据仓库"。
每个月都有成千上万的人访问该网站进行搜索,查询特定的数据。最近,该网站的用户在查询推特和社交网络数据。其较为传统的数据集包括其他热门数据,比如金融、体育比赛和股票数据。
Krmer表示,当然,用户们在别的地方也能查询这些数据集,但是他们常常访问InfChimps,未必是由于缺少数据或者很难获得数据,而是由于别处获取数据的成本极其高昂,或者数据采用了不适合使用的格式--至少对Infchimps面向的开发人员这个客户群来说是这样。
这家公司正在装配一个数据存储库,里面含有成千上万的公共和商业数据集,许多数据集达到了TB级。现代机器学习算法通过借助数据的一般结构,深入分析数据;即便数据有机地嵌入到链接数据集里面,也是如此。当然,所有这些工作会带来一个复杂的数据环境,势必需要一种能够跨多个对象运行的平台,无论对内部(数据收集和管理方面)来说,还是对平台用户来说,都是如此。
Infchimps让用户们可以借助使用Hadoop以及亚马逊云和Rackspace云的基础设施,充分利用数据。你从下面可以看到,这家公司充分利用了弹性Hadoop,还利用了亚马逊网络服务(AWS)和Rackspace,同时在后端上使用Hadoop满足自己的要求。
这家公司让用户可以随时获取自己所需的Hadoop资源,无论这些是预定资源、临时资源还是专用资源。这种灵活的功能能够支持夜间批处理作业、合规或测试集群、科学系统和生产型系统。加上为基于Hadoop的功能新增了Irnfan(Infchimps的自动化系统配置工具)这一基础,弹性Hadoop让用户可以专门为手头的作业调整资源。Infchimps声称,这简化了根据需要时,映射或化简专门机器、高计算机器、高内存机器等机器的过程。