爱过 发表于 2014-5-17 13:23:08

十年前世界之间争夺的是石油,十年后争夺的将是大数据

本帖最后由 爱过 于 2014-5-17 14:49 编辑

趋势:
1.竞争加剧:数据库或社交媒体分析面临整合或去泡沫化。
2.市场:尚处于初期,未来几年是竞争关键时期。
3.基础设施:Hadoop生态系统基石,Spark弥补短板,快数据和内存计算热门,转换整理工具新兴。
4.分析工具:细分领域都有机会。
5.应用:更多行业广泛应用

【 2014中国数据可视化调查】
1. 已部署企业仅15%,约56%计划部署。
2.选收费产品仅35%。
3.发现数据内在价值、满足决策和满足业务分析成主要目的。
4.SAP、IBM和SAS是使用最多品牌,40%认为Tableau是领导者。
5.优秀产品应具备功能前三:与其他数据源连接 强大分析模型 使用门槛低

[ 大数据分析 ] 云计算知识普及:情色讲解“云计算


这是知乎网友Jinn Xu的一个帖子,技术人员怎么也讲不清楚的云计算,你一直也搞不明白的云计算,听完下面的解释,想必心里能明白个七七八八:

你娶了一个老婆,这叫传统IT架构。

你觉得一个老婆不够,这叫传统企业CIO的困境。

你又娶了一个老婆,这叫双活数据中心。

你在外地又娶了一个小老婆,这叫两地三中心容灾。

你娶了很多风格气质各异的小老婆,以至于形成了后宫,这叫私有云。你的后宫就叫计算资源池。

你从后宫里选出懂事有能的管理其他小老婆,这叫私有云管理方案。管事的那个就是HYPERV或VMWARE。

你不娶小老婆,改成包养很多情人,这叫托管云。

你是穷人,没有钱包养任何人也没钱娶小老婆,你选择去洗浴中心解决问题,这叫面向中小企业的公有云服务。

你在享受公有云服务的同时还得交公粮,这叫中小企业的混合IT架构。

你是富人,但也喜欢去高级夜总会,这叫面向大企业用户的公有云服务。

你有钱,同时包养小老婆和情人,还去洗浴中心,这叫混合云。但是在混合云里,最关键的业务还是会谨慎地采用传统IT架构。

你有钱,包养小老婆,但有一天所有小老婆都来大姨妈,你还得去洗浴中心,这叫CLOUD BURST。

洗浴中心就是云服务提供商。本地最大的洗浴中心是AWS。高端那个比如****是18M。打出商务**的名头的是SALESFORCE。在****上发帖“我们的技师服务态度超过对面家9倍”的是O记。

不开洗浴中心,但是专门卖水床卖情趣床的是等灯等灯。不开洗浴中心,但是做陌陌类应用开发运营的是C记。

本地的洗浴中心都是两个有背景的大老板开的,他们是OPENSTACK和CLOUDSTACK。

场子小且只用本地或附近技师的是本土中小云服务商。如果上头没人罩,本土中小云服务商很难开得长。

开洗浴中心的老板有政府背景,这是城市云。开洗浴中心的老板有黑社会背景,这是电信云。洗浴中心要VIP卡才让进,这是行业云。洗浴中心只面向本小区业主服务,这是园区云。

你的小老婆们和情人们可能因为矛盾而让你的经济问题败露,这叫私有云安全问题。

你去洗浴中心可能染上病,这是公有云安全问题。

由此可见公有云和私有云的安全问题是两种不同性质的问题。

只提供场所,需要你自己去找技师的洗浴中心叫IAAS。

提供场所和技师的洗浴中心叫PAAS。

做到东莞ISO的程度就叫SAAS。

下载AV录像自己打飞机叫VAAS。

一个有很多人分享心得的洗浴中心信息网站,这是开放数据中心联盟。洗浴中心的行业协会叫CLOUD BUILDER。下榻一家五星级宾馆,你习惯性地用你用微信陌陌定个位,这叫CLOUD FINDER。良家妇女下海,这叫传统IT应用的云化。

你去洗浴中心的经验很多,看见门脸就知道洗浴中心提不提供服务,看见新技师就能推测出服务质量,这叫数据分析和挖掘。你把这些信息和心得有偿分享给其他人,你是大数据服务商。 一个地方不严打洗浴中心,这是智慧城市。

爱过 发表于 2014-5-17 13:42:46

本帖最后由 爱过 于 2014-5-17 14:17 编辑

转一下阿里巴巴王坚:没有云的话,大数据就是个作坊

        5月12日,我和MTC的朋友,在杭州发起并主持了一场关于云计算的沙龙,虾米的思践聊了云音乐,快的打车陈伟星聊了云时代的产品设计,短趣网王强宇聊了云时代的创业,当然少不了王坚聊一聊他对云计算的看法。
       当天,青龙老贼发了一段王坚的部分观点,遭遇了他开通微信公众号以来最强烈的退粉,也激起了圈内人的各种讨论,这就是王坚的“影响力”。

  我把王坚的分享做了个详细版的梳理,里面涉及了阿里云的定位、对大数据的反思、对APP创新的不看好,信息量很大,你可以感受一下。

  一、无人机是大数据的典型

  我热爱和平,但一讲到云计算和大数据,我想到的两个例子,都跟战争有关。
        一个例子是,《世界是平的》作者去前线,看了现场的指挥官,发现西点军校应该重新办了。因为一个连排级的军官,只要一个电话,航母上的飞机就过来了。这放在以前的战争里是不会发生的,一个连排级军官能够动用的战争资源非常有限。今天,其实一个连排级的军官需要的训练和过去的军长师长是一样的
  经常有人问,如果有一定的基础设施,我能不能改变世界。在以前,只有国家主席可以做,今天一个人可以做的比主席还能多。因为有了云计算。

  另外一个例子是,有人和我吹牛,说世界上大数据用得最好的就是无人机。前几天美国还在开会讨论为什么要租用中国的卫星,就是因为它自己的数据不够。无人机就是非常典型的一个创新,以前仗不是这么打的,今天有了大数据后就变了。
      所以,云计算可以让你做以前不能做的事情,做以前不能做的规模。

  二、我们的客户才是最会用数据的人

  阿里云最早成立的时候,我们说自己是数据分享第一平台,对于这个定位,我自己觉得还蛮超前的。

  阿里巴巴最早在讨论的时候,我们说为什么提数据,不提信息,这是一个很关键的事情。IBM会说数据没有用,知识才有用,所以这个定位很关键。

  只要一谈到数据,我们其实就把自己定位在平台上了。我们想象我们的客户是把数据用到最好的人,而不是我们自己。

  今天,最成功的数据公司就是谷歌。谷歌拿了全世界每个人都有的数据,就是web,它就靠自己的处理能力,做成了世界上最大的生意。谷歌初期的时候,它有的数据别人也有,只是别人没有他的处理能力和思想。

  数据就是数据,只是要有人把他做成生意。

  所以我们定位自己的时候,数据就是数据,这个是最基本的东西,有人比你更聪明,会把这个事情做成重要的生意。

  今天的数据远远超过以前WEB的数据,所以可以想象的生意也会多很多很多,所以肯定可以比以前做得更大。

  以前也没人知道数据在哪里,直到谷歌把他变成一个搜索,有办法把广告引导搜索里面。今天看来这个很简单,放当初很难,因为要把大家都有的东西,做成一个挣钱的东西,当时没几个人想清楚的,否则微软、雅虎也都不会把雅虎外包给别人。

  三、“大数据”叫错了

  之前田溯宁在北京组织了一个活动,请了《大数据》的作者,大家开了一个很小的研讨会。

  我分享时说,其实大数据是叫错掉的,“大数据”没有反应这个问题最本质的东西。

  其实大数据很早以前就有,只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有,欧洲对撞实验室做一次碰撞的数据,可能一辈子都做不完,最大的数据估计在那里。

  今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。所有东西在线这个事情,远远比“大”更反映本质。

  像快的打车要用一个交通的数据,如果这些东西不在线,是没有用的。

  为什么今天的淘宝数据值钱,因为他在线了。写在磁带、写在纸上的数据,根本没有用。

  反过来讲,在线让数据搜集变得非常容易。过去美国谁要做总统,需要做盖勒普调查,去街上拦2000个人,在纸上打个勾,预测就很准了。现在不用做这个事情,只要在twitter上分析每个人发的东西,就可以知道总统会是谁了。

  而且盖勒普调查做完之后很难快速影响社会,现在数据可以反过来快速影响社会。就像打车软件,如果要影响出租车司机,可能比出租车公司更大,原因就是数据在线了。

  有时候,一些石油、地质之类的公司来跟我讲大数据,我就想不通这算不算大数据。他们的数据多是肯定的,但是他们的数据不在线,没有意义。

  四、数据比功能更重要

  产品我是不太懂的,阿里云的产品做得那么不好,都是我的责任,这个得求大家原谅。

  但吃了很多苦头后,对于产品心得还是有的。

  目前我没有看到一个产品和数据结合得很好。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。

  做航旅信息的产品,出了很多款。最近我看到出了一个“航旅纵横”,我用的比较多,我也不知道产品好不好,反正数据很好,他可以告诉你前一个航班发生了什么事情。

  过去的软件,很多功能超出数据的重要性,但我相信,接下来,数据比功能会更重要。互联网人应该会能理解这个说法。

  我和马云开玩笑说,阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。我的意思其实是,机会在哪里,大家都没搞清楚。

  前几天我在北京碰到叶凯(京玩蟹科技有限公司CEO),他说游戏做来做去,发现数据是最重要的东西,在几个机房里数据拷来拷去很痛苦。

  我猜测,他理解游戏的话,完全靠直觉已经不够了,数据可以帮他做这个事情。就好像一个人做在室内用数据来开飞机,光是训练飞行员的成本都不知道降低多少,这和用数据去改进游戏是异曲同工的。

  五、云计算是个信任生意

  我看云计算的时候,突然发现,云计算是个信任生意。包括虾米,短趣,能搬到阿里云,都是一个信任。

  中国是全世界最早用纸币的国家。一张纸上盖个章,就让人相信是财富,这需要极大勇气的。今天,我们反而大大落后了,我们不相信信用卡,把信用卡当借记卡在用了,这是很要命的地方。

  有人说他要做三年赚200亿美金(的互联网项目),他还要依靠别人(的云计算服务),他要相信这一点,是很了不起的。

  我觉得,没有这个勇气,是不可能创新的。中国今天是有这样的机会。

  我这里有个很自豪的案例。今天全国中国的药品,都有一个条形码,它需要去追踪每个药到了哪个批发商,到了哪个零售商,到了哪个医院,到了哪个患者,这个东西是个很重要的东西。现在这个东西就在阿里云上面,350万亿盒的数据都在上面。将来你跑到医院,自然能知道哪个是真药假药,也就是说,原来乱七八糟的事情就没了。这个是很大的创新。以前这些数据不在线的时候,你根本不敢去想,现在,你可以做很多的事情了。

  另外一个案例,保险是一个很传统的行业。开一个保险公司,必须要开办事处。每人敢说,现在办一个保险,可以不签一个书面的东西。但是,可能今年下半年,中国会出一家保险公司,这是全世界第一家没有办事处的保险公司。不需要在纸上签任何东西,在线就能做完所有事情。

  按我的理解,云计算能做好的话,创新机会非常大。

  六、做APP,是在别人花园弄点盆栽

  我觉得,移动互联网的创新,可以超越APP创新的范畴。

  今天APP上的创新,有点像在人家花园里种点小花。因为苹果和安卓已经圈了一个花园,你种点花种点草是没有问题的,就像是去花鸟市场买点盆栽,反正是死也死不了活也活不好。

  但是你要做点有生命力的东西,还是有挑战的。你要跑到大森林里,才能做有生命力的东西。否则叫你下架就下架,你会觉得还是有问题的。

  当然,那个花园是一个很好的环境,也有人来看。但是在中国做生态的话,我们还是可以做有革命性的东西。

  具体是什么,我们也真不知道。

  七、有了施乐,才有苹果

  我们做云计算最大的挑战是什么,就是我们真不懂。

  这是一个无中生有的行业,我们过去只是在书上读到过的。是靠大家的互相配合、交互才能做起来。

  我觉得应该办一个互联网博物馆。今天大家都看到了结果,没看到过程,这样的国家是很难创新。

  大家可能不知道,大概百分之一百的鼠标都在中国生产,大部分也在中国消费,很多技术也在中国。很少有人去问,为什么有个东西要叫鼠标,第一个鼠标出来的时候是很丑陋的木头做的。

  今天大家看到有个很漂亮的手机,叫做iphone,有个很好的操作系统,有个很好的appstore,大家可能没想过,这东西怎么来的。我早上在看一个关于美国八十年代经济的片子,其中采访了乔布斯,他说,如果不被苹果赶走,可能不会发生后面的事情。如果当时乔布斯没被赶走,没有一赌气去做NeXT,没有被买回来作为ios的基础的话,是不会有今天的苹果的。

  所以,这里面的机缘巧合是很难计划的。

  我要抱歉的是,阿里云是肯定要做好的,这个吃苦过程肯定逃不掉。

  有一个八卦,苹果先做麦金塔,微软随后出了视窗,苹果就告微软抄袭。盖茨就和乔布斯说,我们就别互相搞了,其实我们都偷了施乐的东西。施乐没做大,但做出了很大的贡献。

  中国的环境里没有施乐这样的公司,自然而然就不要想出苹果这样的公司。

  我想说,就算各位创业者和施乐一样做点死不死活不活的东西,也很有意义。

  八、不是搜集什么数据,而是做什么服务

  今天的手机的传感器,和巡航导弹的传感器差不多。它能搜集到的东西很多,但是没有产生多大价值。

  我觉得,数据搜集这件事,已经没有多大创新了,只要你想得到,我们一定能做得到。我觉得真正的创新,是你在这上面能够做什么,这还没有人弄懂。

  这是一个鸡和蛋的问题,如果没有人能够用得好,那后面的东西不会发生。

  最早的时候,有人会说,基于位置的服务什么的。但是到了今天,依然没有人知道了位置后,把服务做好。我觉得,这是最大的挑战。

  九、云计算这名字有歧义

  云计算是工业时代的电,大数据就是福特生产线,云存储就是钢铁工业。

  也就是说,没有钢铁,就没有电,就不会有大规模工业化生产。没有云计算,大数据不会出来,如果美云计算没有解决云存储的问题,也不会出来。

  我觉得云计算这名字的歧义在于,我们说这个的时候,其实包括了云计算、大数据、云存储等等所有的东西。

  大数据,是我今天能想到的,那条能起来的福特生产线。到了最后,大家应该会忘记了云计算,只记得福特了。所以我说,看得见的前端,看不见的后台。

  我不相信有人说,我做大数据,但是没有云的,那就是小作坊。

  十、千万不要想着拿数据去改进业务

  今天的银行,都不会是靠大数据起来的公司。银行靠什么处理数据,靠IBM。你可以算出来他做数据的成本,他处理数据产生的价值,可能都无法抹平处理数据的成本。

  数据真正了不起的地方,是靠小的成本,去产生有价值的东西。

  并不是说,有数据的地方,就会有大数据业务的存在。

  阿里巴巴在数据上做的最好的是金融,但金融不等于银行。阿里金融做小贷的事情,恰恰是银行做不了的。银行没有这个数据,银行做信用评级的成本极高,银行不做小的贷款。

  阿里金融每天贷10块钱,100块钱的人多得很。有个贷1块钱的客户,写了个感谢信,说这辈子从来没有人借给他一块钱,突然有人借他1块钱,他就觉得人生从此被尊敬了。

  你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。

  亚马逊是全球做推荐最好的业务,这可以算是大数据的早期,但现在它每天想着怎么把推荐做得更好,我觉得这件事情一定没有希望。

谜团 发表于 2014-5-17 13:43:14

不觉明厉

爱过 发表于 2014-5-17 13:56:59

本帖最后由 爱过 于 2014-5-17 14:07 编辑

谜团 发表于 2014-5-17 13:43 http://www.sychaguan.com/static/image/common/back.gif
不觉明厉转:“余额宝”背后那些鲜为人知的艰辛历程——如何从传统架构演变为云计算架构

     余额宝”经过不到一年的发展,已获得大量用户的认可。本文将以故事的形式讲述“余额宝”背后那些鲜为人知的艰辛历程——如何从传统架构演变为云计算架构。
     一年前的现在,在杭州支付宝大楼里有个叫“春秋书院”的闭关室,里面一群紧张而兴奋的年轻人在忙碌着。项目室巨大的落地窗前,站着一个面色凝重的人,他就是天弘基金创新事业部技术负责人樊振华,一个在金融IT领域有着丰富经验的老兵。他看着窗外川流不息的汽车,深深地吸了一口气。
     这是一个只有代号但没有名字的保密项目,内部称之为“2号项目”,2号项目的旺旺交流群的签名上写着“2013支付宝秘密武器”,足可见这个项目的重要性。     截止到今天,中国近亿人因为这个项目受益,改变了自己的理财习惯。这个神秘的项目,就是余额宝。那么余额宝的初期业务背景是什么呢?由此引发出对IT系统建设的需求又是什么?

      余额宝业务背景     在支付宝上卖基金的想法,在天弘基金电商负责人周晓明心中经过多次的思考和锤炼,已逐渐清晰。他在向阿里小微金服集团国内事业群总裁樊治铭介绍余额宝模式的雏形时,准备了5分钟的内容,但只讲1分钟后,双方即达成一致意见可以做、快速做,并期望余额宝能在6月份上线运营。
   双方随即行动起来,进行了简单的分工,支付宝负责余额宝在支付宝端的建设工作,而基金公司端负责与支付宝对接的直销和清算系统的建设重任,就落到了樊振华头上。
   这是一个从来没有人做过,也没有人知道该如何做的创新业务,面对支付巨大的用户群体,在仅不足3个月的时间内,该如何设计基金的清算和直销系统,成为了樊振华面临的头号难题。2013年3月,樊振华一行与支付宝技术方进行整体架构沟通,这是传统金融行业建设思路与互联网技术路线的第一次冲突,双方团队在闭关室足足讨论了4天,确定下来一期系统的建设目标和要解决的问题。




当时主要面临以下难点。
1、要能够支持“千万级”用户的系统容量。
a)传统的基金销售系统主要是和第三方销售机构,如银行理财专柜、网上银行进行合作销售。直销系统能够处理每天几万到几十万个用户的开户就完全够用了。但“余额宝”面对的是数以亿计的支付宝用户,用户的开户数量和并发量与传统业务有数量级的差异。
b)传统基金的TA系统面对的用户是以理财为目的的申购和赎回,因此每天清算的交易笔数要求也只有几万到几十万即可满足。但“余额宝”的业务模式里,支付宝用户的每一笔消费,都会转化为一次基金的赎回,又加上海量的潜在用户群,每日清算笔数将会是传统模式的百倍甚至是千倍。
2、直销系统和TA系统的融合。
a)传统的直销和TA是分别独立的系统,但对于接入支付宝这种入口交易空前频繁、数据量极为庞大的需求而言,传统的分离式文件交互方式不能满足效率和优化利用资源的要求。因此,项目组提出了功能整合、功能简化、当前库和历史库分离的技术结构。让直销和清算系统使用同一套数据库,来避免数据拷贝带来的业务时延。
3、7×24小时的基金直销系统。
a)由于渠道的原因,传统基金直销系统的大多数开户出现在银行的工作日。因此系统能够做到5×8小时即可满足大部分客户的需求。但互联网的属性是7×24小时,因此系统也应该具备7×24小时不间断的服务能力。
4、支付宝与天弘基金双方的数据传输与系统交互。
a)余额宝的直销和清算系统会部署于天弘基金在天津的数据中心,而支付宝的“余额宝”系统部署在杭州,双方之间的通信协议,远距离数据传输面临很大的挑战。  
这样,根据早期的建设需求,余额宝一期系统的架构和系统容量规划工作展开了序幕。




一期系统建设
   距离上线时间只有不足3个月,樊振华和系统开发商金证科技的技术人员进行了紧张的架构工作。经过数次讨论,双方有了初步的统一意见,并形成了建设目标。
1、基于KCBP/KCXP的集群技术,
a)系统第一要素是要满足创新业务的技术支撑要求,经双方讨论后,决定走较成熟的传统金融技术路线。决定选用金证科技的KCBP/KCXP做集群。金证股份核心业务平台KCBP(Kingdom Core Business Platform)是专门为证券基金交易系统设计的外层交易中间件,同时具有普通交易中间件的特征和功能,KCBP同时也支持跨平台服务的开发与部署。为后续的可能出现的架构调整留下预留空间。
b)金证通讯交换平KCXP(Kingdom Communication eXchange Platform)中间件技术在券商行业有大量应用案例,具有很高的可靠性和可用性。并在数据传输效率、安全性和容错性、负载均衡以及扩展性方面进行了优化,已经足够成熟。 ( 9!k#  
2、基于传统的IOE的基础架构。 :
a)在如此短时间内,有很多的功能优化,业务流程更改等开发工作,再配合相关的测试,必须控制改动的范围。因此基础架构决定采用传统的HP/IBM/Oracle/EMC的方案,靠使用高端硬件设备的方式,提高一期系统的整体容量和性能。 U @ ?LP  
3、直销和TA的系统整合。
a)为了减少直销系统和TA的数据传输延迟,决定两个系统使用同一套数据库架构。 $E<Esf$  
b)为了避免单点故障引起的业务中断,应用层的直销和TA平均分布在每台服务器上。确保每个应用服务器的角色具备可替代性。
4、跨省的MSTP专线链路
a)天弘基金清算和交易中心在天津数据机房,通过架设两条4M的MSTP专线,连接到支付宝杭州数据机房。两条专线之间互为备份,确保通讯链路安全。

  
架构解读:支付宝实时开户,申购,赎回等实时请求,和每天的离线对账文件,都通过MSTP专线与一期系统进行通讯。其中实时请求通过RADWARE硬件负载均衡分发到两台前置机,前置机在做完报文解析以后,将请求发送到XP的消息队列。然后由BP以主动负载均衡的机制,从XP中取出相应请求进行处理,处理结果保持到后端数据库中。
   然而,在一期系统上线以后,面对业务量暴增的情况,系统遇到了瓶颈同时也出现了新的问题。
   2013年6月13日,一期系统如期上线,业务量远超预期,给系统来了一个“下马威”。上线后数分钟内就达到了18万的用户。在2013年6月18日晚上,余额宝的用户量已突破了100万。2013年6月30日,余额宝用户数达到251.56万。
  
   在如此高速的业务增长压力之下,一期系统开始面对前所未有的直销和清算压力的冲击。这个新建的系统,是否能够支撑起如此大的容量冲击?什么时候系统会达到瓶颈?这些问题,悬而未解让樊振华陷入了深深的危机感中。在经过了数个失眠之夜后,他还没找到解决问题的办法,但他清楚地知道,再这样下去,一期系统将会很快面临瓶颈,成为业务增长的绊脚石。
   樊振华的担忧很快变成了现实,随着用户量的暴增,数据库的负荷越来越高,实时请求的响应时间开始变缓。清算时间由最初的半个小时慢慢地变成一个小时、两个小时、四个小时……清算系统每天会在凌晨收到支付宝最后一笔确认文件开始清算,天弘基金的后台运营人员会等候清算出结果以后,发送给监管行和支付宝。随着这些人回家的时间越来越晚,抱怨声开始出现,樊振华的压力也随之增大。
   系统的扩容势在必行。然而,当樊振华收到金证科技发来报价表,打开第一页时,他惊呆了。如果依然使用IBM/Oracle/EMC的传统架构进行扩容,要达到预定目标,仅仅硬件设备采购及中间件的Licence费用就达到了数千万元人民币。这个数字对于樊振华来讲,甚至对于天弘基金这家公司来讲,是一个天文数字,超过了这家公以往所有对于IT投资的总和。并且设备采购到货就要一个月以上,想在一期系统瓶颈出现前完成扩容几乎不可能实现。
   传统的路线走不通,就要找新的方法。当他得知阿里云计算作为一家云计算服务提供商,使用云计算支撑了海量的互联网企业及阿里集团自身业务时,樊振华开始和阿里云计算进行接触。2013年7月,樊振华组织阿里云、支付宝、金证科技的人一起探求解决方案。最终经过慎重思考,樊振华心一横,说了句:“不要再讨论了,上云,上阿里云!”

  上云吧,腾飞
  上云之路,困难重重,举步维艰。
   上云并非一句话那么简单,使用云计算支撑当时国内最大的基金直销和清算系统,前无古人,但开弓没有回头箭。樊振华召集了支付宝、阿里云、金证科技的人一起,启动将直销和清算系统整体迁移到云计算架构,简称二期系统。
    阿里金融云为二期系统提供了一下云计算服务ECS(弹性计算服务),RDS(关系型数据库服务),SLB(负载均衡服务)。这三个服务分别对应于一期系统中的HP和IBM服务器,Oracle数据库,硬件负载均衡设备。但这三种服务的单个实例的性能和容量,都比相应的物理设备小上一大截。如何用单机性能更小的云计算服务来支撑那些单机性能更强都难以支撑的系统呢?经过深入的了解,樊振华在心中已经有了答案:“蚁群战术”。
   俗话说“三个臭皮匠,顶个诸葛亮”,“蚁群战术”就是要充分利用云计算服务的快速部署能力(5分钟内可以创建数百台ECS),弹性伸缩能力,安全稳定,的特性,使用水平拆分算法,将应用系统水平拆分为数十组甚至上百组平行运行的小系统,这些小系统组合起来,就可以支撑起海量的请求和超高的性能。
   此时已经进入到7月中旬。按照对一期系统运行状况趋势的评估,一期系统的容量在没有任何运营推广活动的情况下,只能支撑到9月份便会面临瓶颈。樊振华还为理清楚二期的性能和容量设计目标时,又接到了新的压力:天弘基金和支付宝管理层已经决定余额宝要参加阿里双十一,双十一是网民们年度的购物狂欢节,但对于后台支撑的技术人眼来讲,绝对是一场恶战。很快,传来了支付宝对天弘提出的双十一支撑要求:
1、实时请求的相应要超过1000笔每秒。
2、清算系统要支持单日3亿笔交易清算,清算时间不得超过150分钟。
3、10月份支付宝会展开相关运营活动,必须在10月份前上线。
面对这样几近变态的要求,只有2两个月的系统改造时间,项目组遇到了巨大的困难:
1、如何进行系统水平拆分: 
a)按照“蚁群战术”,将原有系统的业务逻辑水平拆分成多组小系统。如何才能保证拆分尽可能平均和拆分后的扩展性是一个绕不过去的难点。水平拆分依据那个字段来做拆分,需要根据业务特性慎重考虑。一个细节考虑不到,会导致全盘皆输。
2、将Oracle替换为mysql。
  
a)Mysql无论是单机性能和功能,都远远与单机的oracle无法匹敌。使用mysql代替oracle,原有的存储过程怎么办?一些涉及多表join的操作在mysql下执行效率较低还如何解决。工作量有多大,没人清楚。
  
3、数据迁移工程浩大,难度极高。
a)一期系统部署在天弘基金在天津的数据中心,而二期系统却部署在阿里云在杭州的节点,如何做到无缝割接?并且考虑到互联网用户的用户体验,一期系统和二期系统在上线期间,不允许出现业务中断,项目组必须在大数据量,异构环境,远程迁移等复杂环境下,实现无缝迁移。做到上线过程最终客户无感知。
4、直销和TA系统的资源争抢问题
a)一期方案将直销和TA进行了融合,来解决数据交互问题。但由于传统的TA与实时请求在不同时段运行,所以采用了主动争抢机制的负载均衡,及贪婪式的CPU占用。以保证充分利用硬件资源完成业务清算。才传统模式下没有问题,但一期系统进行合并以后,TA和实时请求的应用系统部署同一组服务器上,每次TA系统启动清算的时间段,会严重影响实时请求的相应时间,甚至造成响应失败。
5、整个架构保持2年以上的系统扩容能力
a)上云后的系统必须能够满足业务量飞速高涨的情况下,可以根据业务量的大小做到无缝升级。2年之内,不能因为扩容而改变系统架构。在保证扩容性的前提下,经济和投入必须控制在合理范围。
这些问题,不管是樊振华,还是金证科技,在分布式系统和云计算这个领域,虽然了解很多,但真正动刀枪,还是第一次。即使阿里云和支付宝的技术人员,在这么短的时间内,要解决这么多难题,也都不禁捏一把汗。

走投无路,背水一战。
樊振华清楚他已经没有退路,只有往前走才是出路。他召集阿里云,天弘基金,金证科技,支付宝四方的技术人员在闭关室全部进行封闭式开发,一场艰苦的战役就此打响。
“管不了那么多,这些只能一个一个解决,不然怎么办?”樊振华每次面对棘手的困难的时候总会说这么一句。但困难都是终究会被解决:
  
1、系统水平拆分
a)系统拆分的基本原理很简单,就是按照一个业务字段,比如支付宝协议号作为拆分依据。对字段取哈希值以后根据拆分虚节点的个数进行求模。这样就可以简单的将所有的请求拆分成多份。
b)在二期系统的拆分过程中,经过测算,需要使用50组业务节点,但在拆分的时候,考虑到扩展性。并未简单的拆分成50份。而是拆分成1000份,然后每个节点处理20份的数据。这样做的好处就是将来如果系统遇到瓶颈,需要扩容的时候,不需要对拆分算法进行修改,而且数据平均迁移的时候只需要以库为级别进行,从而避免了拆表。
2、去oracle
a)去oracle其实并无捷径,都需要扎扎实实的一点点完成。首先是将存储过程等mysql不支持或支持不好的数据库逻辑上移到应用中。
b)其次要将复杂度比较高的sql语句进行拆分,变成多条简单的sql语句。从而提高mysql的执行效率。
c)阿里云的RDS提供的慢sql查询功能,可以将整个系统执行效率比较慢的sql呈现给用户,帮助用户优化SQL语句。
3、数据迁移。
a)数据迁移是这个项目的重头戏,迁移过程中使用全量+增量+数据订正+并行运行检查等几个阶段完成。
b)二期系统在生产环境部署完成后,将在天津的一期系统的全量数据打包,按照指定拆分算法拆成1000份以后,通过专线导入到二期系统中。导入以后,将天津的一期系统前置机转发服务打开,将所有实时请求转发到二期系统,这样两个系统同时处理请求。然后在交易日之后,以一期系统为准,将二期系统中的数据进行订正,补全。这些所有的操作必须在24小时内完成是迁移成功的必要条件。
c)数据迁移成功之后,两个系统实际上在并行运行。需要使用脚本每天对比两个系统中的数据,连续2周数据对比无误以后,由支付宝将请求地址从一期系统切换到二期系统,整个迁移才算完成。
4、直销和TA的再次分离
a)借助云计算快速灵活的机制,将直销系统和TA系统的应用逻辑层进行完全分开,分开后的直销和TA系统分别运行在一组ECS中,两套系统后端连接同一套的RDS数据库服务。这样既能保证TA和直销系统在应用性能上不会发生争抢,而且又不会发生数据传递问题。
5、扩容性保证
a)除了在水平拆分算法的时候就采用双重映射的机制来保证架构本身的扩容性,还充分利用了阿里云云服务可以无缝升级的特性,来进行容量保证。
b)拿RDS数据库来讲,阿里云提供了新1型到新7型等7个型号,性能逐渐增强。最终选择了新5型做为数据库服务器,并没有一步到位采用最高型号。这样当系统出现瓶颈的时候,就可以通过将所有RDS从新5性升级到更高型号来将系统容量翻倍。

架构解读
将清算和直销的集群分为两组独立的集群,但使用相同的RDS数据库服务.这样既避免了在应用层面的资源争抢,又可以做到数据的共享.其中实时请求会先到达4个互为冗余备份的SLB(负载均衡),避免SLB单点故障.SLB将请求转发给5台前置机,前置机会按照拆分算法,将该请求路由到相应的节点进行处理,该节点处理完毕后,数据保存到改组对应的RDS数据库.而每日的对账文件则通过文件服务器进行拆分,然后清算系统的每个节点主动取出自己处理的文件进行清算处理,然后保存到数据库。

历尽磨难,涅槃重生   
经过2个多月的封闭式开发,在上线之前,二期系统进行了严格的压力测试,测试结果让樊振华悬着的心终于放下了。
   TA系统完成3亿笔订单的清算,可以在6400秒内清算完成返回给支付宝,完全符合项目150分钟。对开户的实时请求,项目目标要求达到1000笔每秒。压测的数据轻松达到5000笔每秒。并且具备11000笔每秒的储备能力随时可放开。   二期系统终于在2013年9月26日上午正式上线成功。在上线的前一天,一期系统每天完成清算需要8个小时,而上线后的那天,二期系统完成了她第一次的清算,只用了不到30分钟。这个结果让那些经历多个不眠之夜的后台运营人员眉开眼笑,终于可以在晚上回家睡觉了。实时请求的响应时间老系统为180ms,上云以后,平均130ms。效果明显。

万事具备,只欠东风,只有经过“双十一”海量交易量的摧残,才能验证系统是符合设计要求的。2013年11月11日 余额宝首次参加”双十一”大促,完成1679万笔赎回,1288万笔申购的清算工作,成功为639万用户正确分配收益。当天处理了61.25亿元的消费赎回,119.97亿元的转入申购。完成这些所有的清算工作,系统只用了46分钟!





云计算是万能的吗?   
总结在上云以后至今的业务发展状况,数据暴增以后,面临的新问题,抛出面临的数据问题,引发思考
   这一路走来,就像直销和TA系统经历了分开,合并,再分开的演进路线,让樊振华想起一句话“天下之势,分久必合,合久必分”。过去这么多年,以IOE为主的集中式计算已经告一段落,在这个互联网的时代,云计算和分布式的结合代替集中式计算已经深深植入他的脑海之中。
   此时的樊振华,已经和一年前的他截然不同,一年前,他还在为各种硬件选型,采购流程而忙碌。但一年后,他更喜欢在人们面前谈起的是云计算,大数据,分布式,用户体验,互联网的IT架构等名词。 s&GJW@ |  
   具备强大水平扩容能力的二期系统,足以让这个饱经历练的老兵高枕无忧,休息一阵子,再也不用担心系统容量和高并发的问题。但有一颗种子,在樊振华的心目中开始发芽:他清晰的知道,如今这个二期系统已经不是简单的直销和清算系统,每天沉淀在50个数据库里的海量用户和交易的数据量在暴涨,如何存储这些数据?如何使用这些数据?该如何才能产生最大的价值?

未来如何发展  
有了这颗种子,樊振华休了个短假,他又开始了新的征程,投入了大数据的怀抱,这一次,他选择了阿里云提供的ODPS(开放数据处理服务)来作为自己的大数据平台。ODPS目前是阿里集团进行离线数据处理的平台,其支撑了阿里金融,淘宝等多家Bu的大数据业务。有了这个平台作为后盾,樊振华清晰了很多,他脑海中复现了一幅画面:在不久的将来,通过对目前沉淀的海量数据的分析,可以把握成千上亿的用户的理财需求及不同的风险接受能力。而天弘基金,根据这些客户的情况,提供更多更丰富的理财产品。或许到那一天,让天下所有的人享受到符合自己的理财服务真不是梦想了。

爱过 发表于 2014-5-17 14:36:08

本帖最后由 爱过 于 2014-5-17 14:56 编辑

【云计算市场诱人 云创代理大会一座难求被挤门外】好不容易找到个座位,却在会场外

5月8日上午9:00,2014年云创存储全国代理商招募大会在南京国际会议大酒店正式拉开帷幕,本次大会旨在向代理商以及产业合作伙伴展示影响IT市场走向的云计算最新科技成果,并分享代理政策、渠道营销理念与最佳实践。大会气氛融洽,不仅使云创存储与代理商建立起更坦诚、更深厚的友谊,让其更深入了解云创存储的经营理念。更有助于整合云创存储和各地代理商的渠道资源优势,提升云创存储的核心竞争力。  
http://upload.techweb.com.cn/2014/0515/1400136299383.png
大会上,几十家公司涌入云创存储洽谈代理资格,争取独占区域或行业市场。三家企业被现场授予南京云创存储独家代理称号:南京迪软软件有限公司被授予江苏省和上海市教育行业独家“金牌代理”称号;河北三川科技有限公司被授予河北省独家“钻石代理”称号;湖南长沙中创云城信息科技有限公司被授予湖南、湖北和中国移动独家“钻石代理”称号。湖南、湖北、河北全部市场都已被代理占领,江苏、成都等部分行业市场已经被代理包下,可能很快全国市场都会被瓜分完。  
http://upload.techweb.com.cn/2014/0515/1400136299903.pnghttp://upload.techweb.com.cn/2014/0515/1400136299687.png(南京迪软软件有限公司黄总)  http://upload.techweb.com.cn/2014/0515/1400136299535.pnghttp://upload.techweb.com.cn/2014/0515/1400136299592.png(河北三川科技有限公司贾总)

http://upload.techweb.com.cn/2014/0515/1400136299736.pnghttp://upload.techweb.com.cn/2014/0515/1400136299564.png
( 湖南长沙中创云城信息科技有限公司李总 )  全国市场的代理分配仍在如火如荼地进行中。尤其是来自武汉的代理商在大会开幕前两天就到达云创,抢先签下了湖北、湖南的独家代理权。云创存储新产品层出不穷,有极佳的代理政策。眼光决定成败,现在不抢就晚了。 此次代理商大会的胜利召开,不仅使云创存储与代理商建立了更坦诚、更深厚的友谊,让其更深入了解云创存储的经营理念。作为国内云计算领域的领先企业,云创存储未来将在云计算、大数据领域继续为广大用户提供更领先、更稳定、更专业的优秀产品,给广大用户带来更好的体验,相信云创存储与全国的代理商必将携手在未来谱写新的篇章,开创新的辉煌!

hpch_007 发表于 2014-5-17 15:09:32

非常棒,多谢普及云计算,大数据的知识,关键是那些实际应用的例子,一下子让这些新名词变得平易近人了许多,多谢啦

weakleilei 发表于 2014-5-17 15:38:39

忽悠可以,当真就不对了。

海因杰 发表于 2014-5-17 15:51:20

原创还是相关人士?

loy_20002000 发表于 2014-5-17 16:58:32

现在动不动就是“大数据”,新瓶装老酒。

tangcoms 发表于 2014-5-17 17:20:39

3d来临了,装备制造业衰败了、崩溃了!:'(

爱过 发表于 2014-5-17 17:36:30

tangcoms 发表于 2014-5-17 17:20
3d来临了,装备制造业衰败了、崩溃了!

呵呵

tls 发表于 2014-5-17 19:58:04

罗马不是一天建成的,大数据只是某些方面有用罢了

mach 发表于 2014-5-17 20:11:06

tangcoms 发表于 2014-5-17 17:20 static/image/common/back.gif
3d来临了,装备制造业衰败了、崩溃了!

只会淘汰落后产能,让制造业更上一个台阶

在磨刀的胖猫 发表于 2014-5-17 21:16:21

如果阿里也不知道具体要搞什么,那么狠可能没人知道。但我倾向于阿里知道,说话点到为止

混混章鱼 发表于 2014-5-17 21:23:27

黄海波就是被大数据撂倒的吧:lol

earthsound 发表于 2014-5-17 21:47:46

看标题, 捞风

飞越 发表于 2014-5-17 23:07:49

网络初始,记得也有人说网络为王的,那时世界争的也是石油,今天还是

我不吃青椒 发表于 2014-5-18 00:12:24

本帖最后由 我不吃青椒 于 2014-5-18 00:17 编辑

     数据挖掘培养的好,或许能成为一个赚钱的买卖,但是替代石油的地位就有点夸张了。毕竟石油还意味着战争能力。
     当然技术持续演进的话,总有一天网络可以超高效率配置资源,战争形态会发生实质性的革命,不过那也是后话了。
     期待着2020年左右能爆发一次类似第一次海湾战争那样的大规模的局部冲突,最好是美帝自己单干。让我们能把未来战争形态看的更清楚一些。

liangpu198266 发表于 2014-5-18 08:47:07

个人觉得还是看看人家德国的工业4.0吧!相对有意思多了。

liangpu198266 发表于 2014-5-18 08:48:42

“工业4.0”概念包含了由集中式控制向分散式增强型控制的基本模式转变,目标是建立一个高度灵活的个性化和数字化的产品与服务的生产模式。在这种模式中,传统的行业界限将消失,并会产生各种新的活动领域和合作形式。创造新价值的过程正在发生改变,产业链分工将被重组。
德国学术界和产业界认为,“工业4.0”概念即是以智能制造为主导的第四次工业革命,或革命性的生产方法。该战略旨在通过充分利用信息通讯技术和网络空间虚拟系统—信息物理系统(Cyber-Physical System)相结合的手段,将制造业向智能化转型。
“工业4.0”项目主要分为两大主题,一是“智能工厂”,重点研究智能化生产系统及过程,以及网络化分布式生产设施的实现;二是“智能生产”,主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中小企业参与,力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者。

liangpu198266 发表于 2014-5-18 08:52:16

看到了吧,人家那才是实现技术转型的方式。中国就知道云,互联网现在泡沫巨大啊,另外所谓云基础理论和软件架构都是老美的算不得技术创新。

君伟帆 发表于 2014-5-18 11:02:22

所谓的大数据也就是一种新的产业吧,不吹得大点怎么吸引投资啊,这点和当初互联网起来的时候差不多。但是,这里面确实会为很多人提供机会,以后对于知识工人处理数据的能力会有更高的要求了。

stevezhouxj 发表于 2014-5-19 10:21:07

看过兔吧的一个帖子。

里面分析了未来能源的构成比例。
然后又分析取代化石类能源的新能源(核能,风能,太阳能等)的突破瓶颈和制约条件。

最后的结论就是未来很多年内,化石类能源仍然会占很大比例,核能等新能源仍然只能做补充。

因为据该贴楼主讲,似乎他们的报告还是很有分量的,能够上海子里某些大能的办公桌。

所以,如果这个帖子讲得靠谱的话,未来争夺的重点恐怕还是油气资源。



zilewang 发表于 2014-5-19 10:22:29

数据不能当饭吃吧。

sinictide 发表于 2014-5-21 17:32:30

爱过 发表于 2014-5-17 13:42 static/image/common/back.gif
转一下阿里巴巴王坚:没有云的话,大数据就是个作坊

        5月12日,我和MTC的朋友,在杭州发起并主持 ...

我对无人机在大数据时代的认识:无人机发源于很早的航模和靶机。而后,无人机被称为UAV,再后来被称为无人平台,现在更多的叫做无人系统。从这一演化历程来看,巨变中的无人机行业正在快速拥抱大数据时代,而无人机本身越来越不重要。十年前,无人机的核心还是通常航空工业中的那一套,飞得快,飞得高,飞得久。现在更多的把无人机当做一个节点,或者是传感器平台,其载荷才是最重要的。现在改名叫无人系统后,这个传感器也要融进大数据网格了,硬件虽然仍旧很重要,但居于无人机和使用者之间的软件才更重要。
以上就是我对无人机的理解,不知道大家对无人机与大数据或云计算技术融合有何看法?

charles0920 发表于 2014-5-22 12:15:51

谷歌的大数据…放开所有权限给它收集分析用户习惯…反馈回来的google now内容实际并没有多么惊奇 Netflix也是号称流媒体领域大数据的代表 也还是干不过传统付费媒体 百度倒是从谷歌挖来了一位顶级人才从事百度大脑也是数据云相关

charles0920 发表于 2014-5-22 12:20:05

很多行业对自己的数据相当敏感,有的就是靠在数据上动手脚这类灰色地带生存。让你全都透明的拿去了,动了人家的蛋糕,来自各方的阻力都不会小。

Redbee 发表于 2014-5-23 09:51:32

charles0920 发表于 2014-5-22 12:20 static/image/common/back.gif
很多行业对自己的数据相当敏感,有的就是靠在数据上动手脚这类灰色地带生存。让你全都透明的拿去了,动了人 ...

大数据这个行当,应该是从棱镜开始的。那种监控真是大数据分析。

现在各大国都要照此办理扎紧篱笆了吧。

fhqiplj 发表于 2014-5-23 13:52:17

Redbee 发表于 2014-5-23 09:51 static/image/common/back.gif
大数据这个行当,应该是从棱镜开始的。那种监控真是大数据分析。

现在各大国都要照此办理扎紧篱笆了吧 ...

应该是地外搜寻吧?早在90年代末期就让大家将cpu贡献出来进行运算。

理文 发表于 2014-5-27 14:05:42

跟当年互联网兴起时的论调一样一样啊。
这些东西还是要靠实体来支撑的。
页: [1]
查看完整版本: 十年前世界之间争夺的是石油,十年后争夺的将是大数据