起底阿里云“神龙架构”

本来科技
关注

四、阿里云·“造龙术”

面对虚拟化这些从娘胎里带出来的缺陷,在2016年“双十一”复盘会上,阿里巴巴集团CTO兼阿里云智能总裁张建锋(行癫)专门就此讨论过。

他提出:业务应用上云之后虚拟化相关的性能开销,能不能解决掉?

旭卿回顾那段历史时说:最初研发神龙架构的目的,就是为了应对虚拟化带来的资源损耗。

“从那开始,我们就尝试着从服务器架构优化的角度,把容器迁移上云后的开销抵消掉。”小邪说。

从架构优化出发,可不是谁都能干的出来的事儿。

但阿里云可以。

还记得阿里云那时的核心竞争力吗?规模。作为云计算市场的头部,阿里云服务器部署的规模是百万级别的。这个级别,允许阿里云的技术专家们用全新的软硬件技术,变革服务器架构,改善现有云计算的性价比。

旭卿介绍说,在2016到2017年的一年多的时间里,阿里云做了架构的研发和产品的研发,并在2017年正式推出了X-Dragon Hypervisor。

“它和一般的虚拟化技术不太一样,它做的是裸金属的虚拟化,要做的是性能超越物理机的虚拟机。”旭卿介绍,为了实现这个目标,阿里云研发了神龙系统。

从神龙X-Dragon架构来看,阿里云研发了专用的芯片、定制的专用主板,开发了专用的MOC卡,甚至开发了整套配套的软件——从BIOS到应用层支撑软件,再到整体调度软件等一整套复杂的系统。

神龙自研硬件体系

这是非常巨大的投入,目前世界范围内有能力开发这样系统并投入使用的企业,只有两家。(点击链接发现另外一家)

五、三年·三代“神龙”

“加了X-Dragon Hypervisor之后,它可以把物理机变得像虚拟机一样灵活。”旭卿说,它可以使用弹性计算的OpenAPI直接去购买,直接去释放,而它的性能,比如性能关联的存储、网络,数据面全部进行加速,得到更高的性能、更低的资源利用率。

这就是阿里云神龙一代的“裸金属服务器”。

在X-Dragon Hypervisor的调度下,裸金属服务器就像漫威英雄“绿巨人”一样,兼具物理博士班纳的高智商和浩克的超强战斗力。

神龙一代经发布后,在2018年初就实现了全面的商业化。旭卿介绍说,神龙架构满足了企业无顾虑大规模上云的需求,“以前上不了云的用户都能上了”。

在实际应用中,他们又发现了另一个问题:

“在云数据中心,传统的虚拟化产生虚拟机,因为与神龙服务器不同的计算架构,会形成两个资源池,这导致成本大幅度上升。”

可不可以让一套架构既支持裸金属服务器,又支持传统的虚拟机?

这很快成为阿里云技术团队升级神龙架构的目标。

阿里云技术专家是想让虚拟机在神龙架构下,也能“飞起来”。

大规模部署的实践显示,第二代神龙做到了“一套软硬件,三种服务(裸金属服务器+虚拟机服务+容器)”,实现了“虚拟机性能接近裸金属”。

并且,在这一代神龙架构上,阿里云实现了神龙架构的全组件“热升级”(FPGA毫秒级热升,业务零感知)——此中意义更大,可大大加速神龙的迭代蜕变。

“第二代神龙是阿里云融合虚拟化的重要实践。”旭卿说。

第三代神龙对各项性能指标和参数进行了更极致的升级。小邪在云栖大会上发布第三代神龙架构时,介绍了它的威力:

通过硬件加速虚拟化,神龙Hypervisor性能进一步提升,损耗接近零;

神龙芯片IO加速,云盘读写速度达到100万IOPS,网络收发包能力达到2500万PPS,相较第一代神龙提升5倍;

统一的弹性计算平台架构全面支持ECS虚拟机、裸金属、云原生容器;

成为容器最佳载体,计算性能零损耗,计算成本下降50%;

软硬一体化的安全,端到端的安全防护。

第三代神龙架构

可以说,在历经软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后,第三代神龙架构实现了裸金属服务器、ECS虚拟机等计算平台的架构统一,用户将得到更高性能、更稳定、更便宜的高质量弹性计算资源。

需求迁移,技术驱动。从第一代神龙到第三代,阿里云面向用户上云痛点,逐步帮助用户:全面上云、上高性能云,兼容上云、上可靠云,加速上云、上低成本云、上安全云。

“集齐7大上云痛点,召唤神龙。”

六、重新定义·云

马云接班人、逍遥子张勇说:  “阿里巴巴的云,是我们重新定义的云。”

从两层虚拟化做成“0层虚拟化”,从虚拟化抢占资源到把所有调度offload到一张MOC卡上,神龙架构的优势不仅是解决虚拟化开销“黑洞”。

神龙架构MOC卡

小邪告诉《本来科技》,它还通过“硬件隔离”让业务之间不再争抢资源,通过让用户“无感”的热迁移让整体计算服务稳如磐石,真正做到了让计算像电一样成为基础设施。

2016年双十一期间,淘宝曾一度不能下单,这源于不同系统业务“打架”争抢资源。在阿里云上,“争抢资源”可能永远不会再有了。

“12306”每逢佳节倍“死机”,这源于大规模并发需求给服务器造成的压力使CPU负荷激增,计算机群性能损耗过半,无法正常发挥计算性能。在阿里云上,“CPU过载”也不会再有了。

如果用一句话总结神龙架构的创新,那就是:神龙架构实现了软硬件的深度结合,通过专用芯片来抵消虚拟化技术带来的性能损耗问题,完全发挥处理器和内存等计算资源的性能。

在这个过程中,阿里的技术团队自研了X-Dragon虚拟化芯片、X-Dragon Hypervisor系统软件、X-Dragon服务器硬件架构等等。

这是一个系统的、颠覆式的创新。部署神龙架构的云计算,不再是过去相互独立的“标准硬件+分布式系统软件”,而是转变成为一个软硬件融合的系统架构。

七、神龙·未来10年

三代神龙架构,生动诠释了阿里巴巴“需求迁移,技术驱动”的可持续发展理念。

图灵奖得主、加州伯克利大学计算机科学教授David Patterson曾表示:“随着摩尔定律的终结,为了获得更高性能的计算机,唯一方法就是改进计算机的设计或‘架构’。”

阿里云在云计算上实现了。

在此次云栖大会上,行癫在其演讲中总结数字经济的四大技术要素时,第一个点出阿里云:

“我们十年坚持下来做云计算,使得现在IT设施云化。原来都是单个服务器,我们叫做信息化、自动化,到今天我们第一次进入云的时代。”

“云第一次把整个IT设施从端到端的部件,变成归集在云端的基础设施,这和当年工厂自己发电变成提供完整的电网变革是一样的。”行癫说,云就是打基础,就是建设高楼大厦要打的地基,“必须精确规划”。

可以说,这是神龙架构带给阿里云的自信,神龙架构不仅正在帮助阿里云做到了“用一朵云,实现万种数智场景”,还在为云计算谋划未来十年。

作为计算机史上发展的一大步,云计算发展至今并非终点,云的未来依旧拥有极大的想象空间,新一轮创新已经开始。

毕竟,接下来阿里云遍布全球的百万服务器就将全面升级至第三代神龙架构,最好的迭代,就蕴藏在规模最大的部署之中。

彩蛋时间!!

阿里云操作系统叫“飞天”,存储系统叫“盘古”,网络管理叫“洛神”,资源管理叫“伏羲”,飘在天上的这群阿里工程师,大概跟天庭打交道比较多,不约而同地想到,要让龙族的人来做“维稳部队”。

喏~神龙系统,稳稳地镇压着水面下的千年妖兽。

就像神龙阵一样,神龙架构也稳稳地“镇压”着云计算平稳运行背后的“幺蛾子”。

听说《大圣归来2》将创新演绎“大闹天宫”,大圣将会抽走龙王盘踞着的那根“定海神针”。难以想象,没有了神龙架构的云计算将会面临什么?

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存