1移动大数据的特点
引言:主题为"开源中国 原创北京"的2013北京(国际)开源大会,于2013年5月29日在北京成功举行。本届大会的宗旨是让原创能力成为发展创新北京的推动力,秉承创新、创造、创业的开放理念,遵从平等、开放、共享的开源特质,以此形成开源的共识,目标是为相关产业的政策制订提供观点和依据。
在2013北京(国际)开源大会下午举行的技术论坛上,我们现场听到了人人网人人游戏大数据研究中心的首席数据科学家陈继东,他为我们分享的演讲是《Hadoop在移动互联网的应用实践》,除了介绍了移动互联网与大数据的关系之外,还为与会者推荐了大数据关键技术并且加以对比,其中的经验值特别珍贵,可以让很多希望用大数据分析做些事情的IT人士少走不少的弯路。
另外,陈继东还重点介绍了人人游戏在移动广告大数据分析方面的案例,很多地方值得业界学习。这里,编者尽量详尽地展示陈继东的精彩内容。
图 移动互联网和大数据的关系
移动大数据的特点
陈继东认为,未来移动互联网将成为大数据应用的主战场,原因就在于现在的多种智能终端的普及、高带宽、移动互联网入口增多等。
那么,到底移动大数据与通用互联网的大数据有哪些不同之处呢?陈继东指出,移动大数据的数据核心是人而不是再是终端、网页或ID。同一个人,他可以选择通过不同的设备及不同的ID登录网页,但是移动端这些数据和信息都将指向同一个人。另外,移动大数据的数据量更大、维度更高,种类更多更负责。这就要提到大数据的4V特点了“Volume、Velocity、Variety、Veracity”。
移动大数据的第三个特点,它拥有更多个性化属性和上下文信息,例如用户地理位置和设备属性等。
第四个特点,移动大数据不受限于浏览器的Cookie,数据更稳定长久和准确。在互联网上,很多用户定期的清理Cookie,这让很多厂商希望通过分析用户的Cookie的计划落空,而移动大数据则没有这份担忧。
第五个特点,就是人们常常提到的碎片化。移动用户的行为数据更加地碎片化、更具有实时性。也是移动大数据的一个显著特点。
2案例:移动广告大数据的分析
案例:移动广告大数据的分析
陈继东重点介绍了一个案例:移动广告大数据的分析。
数据规模上一个是AdMob,另外一个是国内Top广告平台。对于AdMob的描述是:1)覆盖30万应用,3.5亿移动设备,100万个广告主;2)每天40亿广告请求量;3)每天3TB数据,总数据规模为PB级别。而对于国内Top广告平台的描述为:1)覆盖4万应用、1.2亿移动设备,500家广告主;2)日PV3.6亿,月广告展示数100亿;3)每天100GB、数据规模达到了TB级别。
在分析方法上,陈继东介绍了两种。一种是实时统计分析,包括Count、sum、unique visit;并行数据挖掘包括分类、聚类、CTR预估、Topic Model、频繁模式挖掘和时序分析。
在移动广告平台架构上,陈继东首先介绍了大数据平台的选择。1)实时计算和传输,做到流处理,具体工具包括:Twitter Storm和Linkedin Kafka;2)并行处理和离线分析,基于Hadoop,具体包括Hadoop MapReduce和Hadoop Hive;3)高性能大数据存取,基于NoSQL,包括Hadoop HBase和Redis缓存。
图片说明
同时,陈继东也展示了人人游戏的移动广告平台架构的全貌。
3大数据平台面临的问题及解决方案
大数据平台面临的问题及解决方案
陈继东指出,目前移动广告平台架构面临的主要问题和解决方案。
图 目前移动广告平台架构的主要问题和解决方案
移动广告CTR评估的解决方案。
同时,陈继东谈到了用户属性标签分类的主要问题和解决方案。
4Hadoop成为大数据平台的标配
Hadoop成为大数据平台的标配
陈继东介绍具体如何对用户特征矩阵进行转置。
图 如何对用户特征矩阵进行转置
陈继东介绍如何利用Stripe算法优化IT吞吐量。
通过用户属性标签进行分类。
陈继东的认为,目前Hadoop已经成为大数据分析平台的标配了,包括HDFS分布式存储、MapReduce分布式计算、HBase分布式持久对象存取等。可以这么说,谈到大数据必定绕不过这三个大数据的工具。