高女士的日志

大数据应用需要对Hadoop进行虚拟化吗

已有 1146 次阅读 2013-11-07 16:08

大数据并不需要虚拟化，原因似乎很简单，因为虚拟化技术的核心思想是资源池化，借助池化资源的调度来充分使用资源，提高资源的利用效率。但CPU利用率已达到70%～80%时，虚拟化显然就没有更多的意义了。服务器双机热备(http://www.expresscluster.net.cn/)

虚拟化并不是适应所有场景的，例如HPC领域，虚拟化基本就派不上用场。分析一下大数据的应用场景，其核心就是利用X86等相对廉价的服务器，对海量的价值密度相对低的非结构化数据、半结构化数据进行处理和分析，借助分布式文件系统(NFS)对数据进行并行的海量处理。对于担负计算节点任务的服务器而言，其处理能力应该接近极限，因为，如果计算节点可以独立承担任务，甚至还有挖掘“潜力”的能力，那么，还要并行计算做什么？基于此，大数据应用不需要虚拟化，这应该是一个结论。

今年8月当VMware宣布推出vSphere Big Data Extension方案的时候，多少让人摸不着头脑，大数据与虚拟化是怎么样产生交集的呢？在10月30日～31日举行的VMware vForum 2013会议期间，记者有幸采访了VMware全球副总裁、CPD及全球研发兼中国研发中心总经理李严冰博士，以及VMware云应用平台及服务中国总经理任道远先生，任道远同时也是VMware中国研发中心副总经理，同时兼任VMware上海研发中心的总经理。

在解答我的疑问之前，李严冰博士首先透露一个最新的任命，她将不再担任VMware中国研发中心总经理，将集中经历主管全球的研发工作，其职位将由任道远来接替。“虽然不再担任中国研发中心总经理，但在工作上与中国研发中心还有很多交集，仍然会一如既往关注VMware中国用户的需求。”她说。

接下来，李严冰博士回答了我的疑问。她表示，的确很多人会认为大数据不需要虚拟化。VMware之所以宣布vSphere Big Data Extension，也为了给用户更多的选择。用户可以选择物理机、也可以选择虚拟机来构建大数据应用环境。而选用虚拟机将为用户带来更多的灵活性，让系统能够应对不同规模的大数据应用的需求。李严冰博士，需要看到Hadoop应用环境部署还是相对复杂，对于技术人员有一定的要求，为了降低部署的复杂度，VMware vSphere Big Data Extension提供大量的集成性的工作，简化Hadoop的部署。

李严冰博士指出，如今大数据应用更多集中在社交类媒体所产生的非结构化数据，实际上，云计算也是大数据的制造者。据她透露，云计算环境中，仅快照应用所产生的日志文件，每天就有6500万条之多。单纯依靠人力，是没有办法应对如此大量的日志文件。因此，管理人员希望借助大数据对日志进行分析，从而满足管理的需要。

透过vSphere Big Data Extension，VMware对外界传递了这样的一个信息，软件定义会给用户带来的成本节省和灵活性。为此，VMware提出了软件定义数据中心(SDDN)的概念，从数据中心和云基础架构的vCloud Suite，到桌面虚拟化和移动计算，VMware提供了一个完整的端到端的解决方案，用软件定义的方式，赋予了云计算和移动终端互联网足够的灵活性，满足了管理需要。

云计算基础架构包括计算、网络、存储和管理，其中，以计算和管理最为成熟，VMware虚拟化方案得到广泛认可和部署。与此同时，网络和存储如何适应变化和需要，已经变得非常迫切。以网络为例，网络配置和部署不仅需要专业技术人员，同时也需要数周甚至更长的时间，这就与计算资源灵活部署形成了鲜明对照。

目前VMware NSX虚拟化方案得到了很多网络厂商的支持。李严冰博士表示，VMware也是Openflow标准推动者，提供了很多源代码的贡献。在存储方面，VMware VSDN方案以服务器本地磁盘为基础，可以创建针对虚拟机优化的分布式共享存储结构，为用户提供更多的选择。目前，网络虚拟化、存储虚拟化，较之服务器虚拟化还有些距离，但软件定义的趋势已经成为了一种方向。数据库双机热备(http://www.expresscluster.net.cn/)

李严冰博士表示，VMware恰好赶上了这样的一个趋势。为把握好的趋势，VMware的策略是更加开放，一方面支持OpenStack、OpenFlow这样的开源组织，另外一方面也增加了对HyperV等产品支持。“我们希望打造一个生态环境，为用户提供尽可能多的选择。”李严冰博士说。

分享举报