大年夜数据是不是是大年夜忽悠?上马大年夜数据需要预备啥?大年夜数据平台如何选择?大年夜数据安然若何包管?
大年夜数据火了起来,乃至在前不久召开的2013夏季达沃斯论坛上还专门进行了一场关于“大年夜数据概念是不是被过度炒作”的辩论会,其火热程度可见一斑。
按照计世资讯2013年3月发布的中国大年夜数据市场查询拜访陈述显示,相较2011年,2012年中国大年夜数据市场范围增加52.4%,达到3.2亿元。估计到2017年,中国大年夜数据市场的年增加率都将超越60%,到2017年,达到37.9亿元的市场范围,在经济、整体IT市场低迷的环境下,实现大年夜幅逆势增加。
在日前由《计较机世界》报主办的“大年夜数据期间的商业智能岑岭论坛”上,来自IT厂商的代表、业内专家、资深阐发师及用户代表就大年夜数据热点话题展开了狠恶的会商。
核心一:大年夜数据是不是是大年夜忽悠?
IT手艺的每次更新迭代都面对一样的标题问题,前两年的云计较、此刻的大年夜数据无不如斯。实际上我们回过甚来看,所有的手艺和财产的成长都有泡沫化的过程,包含互联网、金融危机、云计较、大年夜数据,城市有一个泡沫化的过程,而泡沫破灭的过程也恰是这项手艺落地的过程。
大年夜数据热启事是其可以产生更多的价值,而在当前这个时候点热,一方面是愈来愈多的人意想到了此中的价值,另外一方面则与手艺的成长成熟密不成分。戴尔云计较及大年夜数据高级解决方案架构师郝继玖和EMC资深手艺参谋杨永波在这个标题问题上所持的不雅点基底蕴同,他们觉得其实不是之前没有大年夜数据,而是没有能力措置。当下这个时候点一方面是数据范围确切愈来愈大年夜,而另外一方面计较能力也达到了必然的程度,当这二者都具有的时辰,才催生了大年夜数据期间的到来。
作为用户代表,IDG集体中国区副总裁、计世传媒集体董事许伟明暗示认同,他觉得主如果当前IT系统的计较能力和成本都已降落到了可以承担的程度,由此鞭策了大年夜数据的快速成长。
作为大年夜数据范畴的专家,北京理工大年夜学计较机学院院长助理、大年夜数据搜刮与发掘尝试室主任张华平副传授表达了他的观点。他暗示,当然当前大年夜数据还逗留在泡沫阶段,不外大年夜数据的泡沫不会比云计较大年夜,因为云计较更多触及的是架构标题问题,业内不合比较多,而大年夜数据存眷的只是营业,加倍专注,是以也会更快地实现落地。
核心二:上马大年夜数据要做哪些预备?
按照计世资讯发布的大年夜数据市场调研陈述显示,将来半数以上的企业会采取大年夜数据解决方案。用户假定真的要摆设大年夜数据解决方案,要做哪些预备?
体味需求、获得老板的承认,是起首要考虑的。许伟明觉得,从公司角度来看,最大年夜的标题问题是若何获得老板的撑持;而从营业层面解缆,则需要考虑实际的需求。好比你所处的企业假定数据量很大年夜,则需要在IT架构上做预备,考虑包含数据是如何汇集的、从哪里汇集、若何与其他数据进行匹配等标题问题。而在把持过程中,则可以起首测验测验一些开源的东西进行小范围测试,做一些根基体味,然后再找相干的专家细心进行评估。
这仅仅是最根本的部门,在此之上,企业还要将项目与整体营业慎密地联系在一路。因为假定只是伶仃考虑某一部门的营业,掉败的概率很是大年夜。杨永波暗示,从IT架构层面来讲,很大都据的获得其实不等闲,打通所有层级、部门的数据是比较难的,可是只有把信息打通了,才具有了真实的大年夜数据。
郝继玖则进一步做了弥补:“大年夜数据响应的IT架构搭建完成后,还需要考虑办事的尺度化,因为跟着数据量、设备及人员的增加,若何分工、包管高质量的运维结果是需要火急考虑的标题问题,这个过程就需要成立统一的办事尺度和流程。”
除手艺层面的标题问题外,还有一个很大年夜的标题问题就是隐私标题问题。张华平讲到,此刻有良多大年夜数据隐私被滥用的标题问题,不管从国度仍是公司层面来讲,要想把大年夜数据做好,都面对数据公开的标题问题,需要各个部门数据的畅通领悟。是以,操纵大年夜数据的时辰,要考虑隐私的标题问题。别的,还需要考虑数据本身的生命周期标题问题,有一些老的或过时的数据,可能对你最后的阐发成果产生出格糟的影响。是以,专业的人才不成或缺,应当有一些数据阐发师,或跟营业相干的数据科学家对数据进行阐发。
核心三:用开源平台仍是商业软件?
一提到大年夜数据良多人会想到Hadoop。作为开源平台的忠厚撑持者,张华平觉得做开源和共享平台,从最终的环境来看,获得的价值更大年夜。因为开源软件介入的用户多,反馈多,更等闲改进和完美。
不外,杨永波其实不这么看,他觉得Hadoop不便是大年夜数据,针对非布局化数据的阐发,Hadoop是比较好的平台,也是此刻被遍及接管的平台。但也正因为其是开源平台,也存在一些短处,好比办事质量没法包管。别的,Hadoop有良多版本,要真正实现商用,需要用户具有足够高的手艺程度。是以,用户在选择时其实不克不及一味寻求开源,需要综合考虑本身的环境。
对此,许伟明暗示认同杨永波的不雅点,他觉得不管是开源仍是商业软件,最首要的仍是办事质量、办事速度,不克不及一味考虑成本标题问题。
郝继玖暗示:“大年夜数据成长速度愈来愈快,给IT市场带来的空间也愈来愈大年夜。是以,在开源平台方面,我们一向在积极介入,鞭策行业的成长。戴尔其实不供给大年夜数据运行平台,供给的只是此中的计较能力。”
核心四:大年夜数据期间,安然若何包管?
大年夜数据并没有人架空,但在记者采访过程中,常常有效户问如许的标题问题:若何包管我的信息安然,假定没法包管安然,大年夜数据还上不上?对此,张华平一语中的,“我们不会因为高铁掉事不坐高铁,不会因为飞机掉事不坐飞机,大年夜数据是科技成长的趋势,但要掌控好标的目标,这需要法令的完美。”
张华平的不雅点获得了与会佳宾的附和。郝继玖觉得,数据是把双刃剑。消费者网购时需要供给家庭地址,才能给你运过来,这是颠末同意获得你的信息,因为有杰出的法令环境进行统一治理,所以买家不消那么担忧;而糊口中良多时辰是滥用信息的汇集,是在用户不知情的环境下汇集你的信息,这就需要响应立法进行呵护。大年夜数据也是近似的,只让合适的人操纵我的数据。别的,关于大年夜数据的报导,将来也要有严格的法令呵护系统,包管我的数据不被泄漏出往。
许伟明还在此根本上提到了均衡,他讲到,一个信息点传播出往,对某小我而言,多是隐私遭到了加害,但从另外一个角度来看,你把互联网当作是一个系统,你不竭地操练这个系统,让其更好地为你办事,其实也不是坏事。“我们做媒体的,研究的大年夜数据就包含精准的告白投放。
好比在你浏览的时辰,获得了你想要的告白信息,对用户而言也不是坏事。再好比你在研究观光的时辰,给你一些观光社的信息,或给你一些比较便宜的飞机票等,相信客户仍是愿意看的。实际上你可以成心识地泄漏一些你的信息,如许系统会阐发你的数据,真正地帮忙你,所以我感觉没需要惊骇。而歹意的信息汇集、未经用户承诺汇集的信息,都是背法的。这此中就需要均衡,不克不及因为有可能被泄漏隐私就不消大年夜数据。”