凌云时刻 · 极鲜速递
导读:阿里云智能资深技术专家宗志刚在 2020 中国云网络峰会上发表了《云网一体,新一代洛神云网络平台》主题演讲,分享了新一代的阿里云网络技术。
来源|洛神云网络技术
前言
12 月 19 日,2020 中国云网络峰会于北京顺利召开。阿里云智能资深技术专家宗志刚带来了主题演讲《云网一体,新一代洛神云网络平台》,分享了新一代的阿里云网络技术。
阿里云洛神网络平台
阿里云的网络平台称之为洛神,是网络虚拟化的平台,也是阿里云飞天操作系统的三大内核组件之一,另外两个核心组件是计算虚拟化——神龙平台、存储虚拟化——盘古平台。
阿里云的洛神平台支撑着整个阿里云的网络产品,总共分为三个部分:第一,云上网络,代表着数据中心虚拟化;第二,大数据中心之间互联的跨地域网络;第三,线下 IDC、门店、终端上云的混合云网络。三大网络包含着丰富的网络产品。
阿里云洛神平台由应用驱动,目前已经演进到 2.0 版本,最早的版本称之为洛神 1.0 Beta,能够做到通过 VPC 实现租户之间的隔离,地址空间的独立规划,并且开始构建云上虚拟化网元,例如 VPN 等。
随着更多大型企业上云,应用场景促使云网络技术进一步演进。大型/超大型企业的业务的特点有:第一,业务规模非常大,随之带来了的网络规模也很庞大;第二,要求全球部署,能提供接入和连接能力;第三,一般大型的企业,特别是大型的互联网企业,往往是云原生容器的首批的实践者。
为了支持大型/超大型企业上云,阿里云洛神平台演进到了 2.0 版本,2.0 版本的特点包括三点:第一,规模非常大,性能非常高;第二,网络拥有弹性开放能力;第三,提供连接全球化接入能力。
洛神 2.0 技术架构
在超大型企业的网络规模和配置下发性能的要求下,如果采用传统网络的对象模型和管控模型挑战是非常大的。但是,阿里云洛神 2.0 平台现在能做到支持近百万的容器规模,现在阿里云上的超大型客户的单 VPC 里可以支持 60 万的 ECS,如果把容器算上,就是支持了近百万的容器规模。洛神 2.0 平台如何实现支撑百万级的网络规模?
首先它进行了管控层次化的拆分,在中间增加了一层高速缓存 DB,专门来处理海量网元的请求,因为其只处理请求消息,所以性能非常高。另外,阿里云还对网络接口 ENI 模型进行了优化,通过 ENI-trunking 技术,做到了同时支持主 ENI 和子 ENI,通过不同的 VLAN 来区分流量,接入到不同的容器里面,来提升容器的密度。到目前为止,最新一代的 ECS 可以支持 4K 的容器密度。
巨大的网络规模意味着对网络转发性能的超高要求。阿里云的最大用户在“双 11”凌晨的流量峰值达到了近百 T,多个数据中心互联的流量也达到了几十 T,如此大的网络流量规模对网络的转发性能提出了非常高的要求。阿里云洛神平台进行了软硬件一体化架构的演进,通过将网络的转发卸载到硬件上,来提升转发性能,网络的性能有了十倍到百倍的提升,通过硬件的方式,网络的时延也有了大幅提升,从微秒级降到纳秒级别。
大型企业的业务非常丰富多样,业务迭代也非常快,很多的业务对应到网络实例有着非常高的弹性需求。为了实现高弹性的网络能力,阿里云洛神 2.0 平台将原来基于 X86 裸金属架构的方式,变成基于底层 ECS 的方式,通过 ECS 可以实现秒级的弹性能力。同时对底层的 VPC 网络进行优化,可以支持高可靠的 ECMP 技术。同时,它还能在高性能转发的同时,实现租户之间流量故障隔离。目前为止,所有阿里云网元类的网络产品都已经基于最新一代的 NFV 平台构建。
洛神 2.0 平台提供连接全球,覆盖全球一张网的能力。在基础设施上,阿里云提供了覆盖全球的基础设施,有 21 个 region,63 个 AZ,120+个 POP 点的规模。丰富的基础设施可以方便用户使用阿里云的产品和服务。
在云边端这一侧,洛神 2.0 平台将网络的连接能力从中心延伸到了边缘。阿里云云盒使阿里云的机架可以部署到用户的 RTC 里,资源可以给用户独享,算力更加接近用户的业务,使用验体验可以和中心云 VPC 的使用体验完全一致。
阿里云洛神平台还制定了新的链路技术,使用自定义的 TCP 加密技术连接到云,避免了很多 UDP 报文被公网的路由器拦截、限速的问题,可以大大提升网络吞吐能力。另外,它集成了 FEC,可以有效的提高网络吞吐能力,还支持不同硬件端、软件端的加密协议。并且,在多接口、多运营商的场景下,还提供多链路负载分担的技术,不同的业务可以使用不同的链路,真正实现业务接入的智能调度。
业务接入网之后,洛神平台实现了源路由的网络调度技术,源路由里报文使用是自定义的方式,中心的控制器会实时的采集和探测网元里丢包和时延的信息,当新的流量进入到这张网后,会根据最优的链路进行调度。经过很多应用场景的实验,发现公网的访问效果有时候比专线更优。
未来的网络一定会走向智能化,阿里云的洛神平台在这方面也有了一些实践,异常定位工具 vTrace 就是一个案例。vTrace 能定位网络中的丢包和时延,它会对业务报文进行染色,染色的业务报文经过虚拟化网元时会被采集,然后上升到分析系统里做清洗,然后分析看丢包在什么地方或网络时延有多大。
随着 5G、IOT 的规模应用,万物上云、万物互联会对云网络技术提出一些新的要求。对于洛神云网络平台的未来,宗志刚表示,云网络要支持海量的连接、确定性的时延,还有应用和云、边、端之间的联动,这些都是对技术的挑战,也是洛神未来的思考方向。
最后,宗志刚分享了阿里云发布的云网络技术图书——《云网络:数字经济的连接》,该书结合了阿里云近 10 年的行业经验,提出了阿里云对云网络技术的演进和发展的一些思考,欢迎大家免费试读。
END
精品机械键盘抽奖中,邀请伙伴助力中奖几率翻倍!
开奖时间:2021 年 1 月 5 日
赶紧转发至朋友圈,呼唤好友一起
抽 奖 吧 !
长按扫描二维码关注凌云时刻
每日收获前沿技术与科技洞见