张晓丹:政企混合云技术架构的演进和发展

2022-06-23 09:04:31
张晓丹(墨辩)
文章摘要: 云计算经历了十几年的发展,从被认为是“新瓶装旧酒”而备受质疑,到广泛应用于消费互联网领域,再到传统政企客户普遍认同并在政务互联网业务领域快速推广,当下已进入到全面替换政企客户传统IT基础架构的攻坚阶段。

近日,阿里云混合云平台首席架构师张晓丹分享了IT架构技术,并对政企混合云技术架构的发展进行展望。

云计算经历了十几年的发展,从被认为是“新瓶装旧酒”而备受质疑,到广泛应用于消费互联网领域,再到传统政企客户普遍认同并在政务互联网业务领域快速推广,当下已进入到全面替换政企客户传统IT基础架构的攻坚阶段。

所谓替换,在中国的政企市场,是以专有云&混合云及其延伸方案为主的独特云化演进路径(非欧美的公共云延伸演进路径)。以往,互联网企业和小型企业上公共云之前,主要做公共云厂商间的技术产品能力对比。但是,大中型政企客户上混合云前,则是要全面对比混合云与传统架构的技术产品能力。

架构技术洞察

IT架构从传统平台适配传统应用,重回到云平台适配传统和云应用

传统IT架构经过近30年的发展,形成以硬件定义数据中心为特点的IT基础设施平台。这些平台由各种专有硬件系统为基础,由系统集成商和软件ISV做生态支持,使得客户应用开发专注于业务逻辑,各种复杂的可用性、连续性、扩展性、安全性等功能,由差异化的硬件系统完成(含专有OS和中间件)。这一阶段,是传统IT基础设施适配传统应用软件阶段。

互联网业务快速发展,推动政企客户数字化转型不断深入,造成IT软硬件规模快速加大。继续用专有硬件系统和商业软件套件支持,有关软硬件投入过大,配套人力也需线性增加。为此,云架构应运而生。各种分布式微服务应用,直接在软件层实现更多的高可用、连续性、扩展性、安全性等功能,不再与IT基础设施紧耦合,使用大量通用服务器系统和IaaS/PaaS云平台替代传统大机/小机专有系统。这一阶段,是分布式应用适配云平台的阶段。该阶段专有硬件系统投入大幅降低,但需要大量软件开发运维人员,很多客户不具备这样的条件。

云原生技术架构的发展,推动IT架构重新回到更高阶的云平台适配云应用阶段。该阶段实际就是做深基础、做厚中台的过程。软件应用架构,向业务中台、数据中台、低代码平台、协同平台发展。分布式微服务框架向容器化、Mesh、Serverless发展,应用部署架构向单元化多地多活发展。数据库向HTAP离在线混合处理、大数据向湖仓一体/流批一体发展,IT基础设施向软硬一体、存算分离、异构算力池化、轻量化安全容器发展。最终,实现云应用更加轻量化、低代码化,大量非功能性需求、企业级特性,甚至代码生产交由各级云平台实现。

从技术的角度,云原生架构是基于云原生技术的一套架构原则和架构模式的集合,旨在将云应用中的非业务代码部分进行最大化的剥离,以便由云服务提供商CSP的云平台(云IT基础设施和云应用开发运行平台)接管云应用中原有的大量非功能特性(如弹性、韧性、安全、可观测性、灰度等),使业务不再有非功能性业务中断困扰的同时,具备轻量、敏捷、高度自动化的特点。

注:广义云原生架构=云原生技术+云架构原则+云应用架构模式+云应用+云IT基础

双模IT应用还会长期并存,但IT基础设施需要加快整合进全栈IaaS云

当前,政企客户的互联网业务已广泛使用云架构,但占主体的经营管理和核心生产应用,仍然运行在传统IT基础技术架构上。过去20-30年,政企研发积累了大量传统集中式架构的应用系统。这些应用系统很难在中短期内低成本、全生态配合重构成云原生架构应用,客户3%-5%的IT人员占比,也不足以支持这种快速重构和转换后上IaaS云,大多还是运行在传统IOE架构。随着政企的互联网类应用、大数据类应用上IaaS云后,客户需要同时维护好两套端到端不同的技术栈。

特别是在运维压力最大的IT基础设施领域,传统专有硬件基础上的各种封闭系统,与软件化服务化IaaS、DBaaS等系统,在技术架构、运维方法、生态体系方面,都有非常大的差异。不加快整合进云平台,政企不仅无法降低TCO,也无足够资源深入学习掌控云架构。

如果混合云IaaS+平台(含数据库、大数据平台),能够同时适配传统应用、云原生应用等不同云化成熟的应用,既支持客户分步对一些老旧应用、互联网应用进行云原生重构后上云,又支持客户对传统应用代码、技术工具、运维组织体系做少量云就绪改动,平滑迁移上云,替换传统集中式IT基础设施,就能很好地支持政企传统应用全面上云。

云厂商产品替换多家传统厂商产品,目的是打造更高体验的云OS

阿里云的战略是做深基础、做厚中台、做强生态、做好服务,分层打造IaaS/PaaS/DaaS/SaaS等云平台和云OS。

做深基础,本质是在发展软件定义数据中心及IaaS云OS。所谓软件定义数据中心,就是将数据中心的建设运维视为业务,对这一业务的流程、组织、人员、数据做系统化的数据建模,再基于数据建模将所有业务操作和数据封装成服务,通过分层嵌套的服务化云平台和API接口,实现灵活的编排组织。

做厚中台,就是持续打造软件定义开发中心及业务中台OS、软件定义数据管理中心和数据中台OS,使客户在我们的双中台上,能够低成本、高复用地开发应用和加工使用数据。同时,我们会努力使得技术栈上层云OS与下层云OS解耦,使其有能力灵活适配客户下层异构多云IaaS平台。

之所以要一家云厂商替代原来众多的计算、存储、网络、安全等产品,目的是打破传统各个单一垂直专业领域封闭专有的软硬件技术栈,借助软件定义数据中心内部分层嵌套的计算、存储、网络、安全数据库、大数据库等服务化平台化架构,用统一的云平台软件管控调度能力,整合IT基础设施各种标准化硬件资源,对外按需提供灵活弹性、差异化SLA的IaaS服务。

未来,在每个国家地区云计算市场,都会有很多家全栈的IaaS云厂商产品供政企业客户选用。这些云厂商帮助客户做好了系统集成和综合服务,不仅可以降低总体TCO,还能提升综合服务体验。就像开源开放Linux产品的广泛应用,替代了原有众多商业基础操作系统,不仅没有造成全球市场垄断,还帮助客户降低了服务器OS方面的采购成本。客户担心供应商垄断,满足招标采购需求,希望引入产品技术竞争时,不适宜再用传统的“部件”级分散竞争采购、高成本自组装集成方式,而适宜按需引入多个不同云厂商的全栈云来解决。

客户追求云产品的黑盒化体验,也需要对云架构有白盒化的自主掌控

我们购买使用一台自动驾驶汽车或智能手机,目的不是要灵活组装、拆解维护这台汽车或手机,而是获得这些产品黑盒化安全稳定运行、简单灵活操控的体验。混合云产品虽然是一个更加复杂、大型的企业平台系统,但也希望客户获得“操控混合云就像操控一台“自动驾驶汽车”一样的体验,发出各种启动、刹车、选路、定速等各种指令和操作,都能获得稳定可靠、准确及时的操控体验,再加上智能驾驶仪表盘上各种灵敏、准确、全面的反馈,以及完备有效的应急服务体系,就能增进客户使用信心。

当前,混合云平台还处于发展的过程中,对云厂商服务依赖还比较大,各种故障应急恢复操作平台工具内嵌化、快速启动自动恢复能力,以及自主扩缩容/升级打补丁、维修变更等运维操作能力都还需要持续提升。在这一阶段,我们需要同步“白盒化”开放透明分享我们的云架构建设理念和运维经验,听取客户的一线实践反馈,一起共创设计提升云平台“黑盒化”的服务能力。

公共云与混合云架构既统一又差异,从单向能力传递走向互相促进

云厂商公共云业务大多经历了10年左右的投入期,借助互联网客户的大规模应用,获得了公共云的规模经济共享经济红利,开始趋于标准化和高效化,进入了与客户共赢的阶段。而线下政企客户混合云市场的技术和管理差异化很大,线下交付分散运维的成本很高。例如:仅为满足出厂商前的集测和质控,动辄就需要投入万台规模物理服务器,搭建各种异构多芯、多Region多版本的存量客户云实例集测验证环境。

为此,只有坚持公共云与混合云统一核心基础架构,才能提高云厂商内部研发效率,分享公共云敏捷迭代、灰度验证的红利。公共云与混合云各自独立发展,研发投入会不足,容易给客户造成版本断代、强制换代等困扰。

但是,坚持公共云与混合云核心基础架构一致,不意味着将公共云大规模、分布式DevOps建设运维体系映射出来的软件架构和组织管理模式强塞给客户,而是需要针对混合云客户场景,全面重构云管平台里的应用/云产品、租户/云平台运维系统,满足客户传统和云原生应用全面上云以及集中式建设运维管理的需求。同时,也希望我们的客户能够学习掌握云架构原则理念,分步推动一些组织流程、治理体系的配套云转型,以便更高效地发挥云架构的优势。

政企客户不同云化成熟阶段的传统应用,将与高成熟的云原生应用长期并存。因此,对IaaS云平台的统一监控、存储/数据库同城复制、故障应急恢复、容灾切换演练、迁移热升级、自主扩缩容、灵活备份恢复、统一安全控制、多云/混合云管理等企业级特性有很高的要求。这些企业级特性往往会先在混合云环境建设完善,再反过来促进公共云技术架构和运维能力完善,为支持未来政企客户部分业务应用上公共云打好基础。

政企客户试点上云关注数智/敏捷/经济,全面上云更关注安全/自运维

以公共云业务为代表的云计算发展初期,客户上公共云的主要驱动力是降本增效、敏捷弹性。但在专有云和混合云环境,政企客户CIO们关心的,首先是整个IT系统的持续安全稳定运行,出现故障问题之后能够自主可控快速恢复,以及自主可控产品技术的替代。其次是引入大数据、AIoT的数智化技术能力,促进业务的创新发展。第三,才是资源的池化共享、弹性伸缩,以及TCO的下降。

大型互联网企业云原生应用在公共云上的敏捷自主研发、DevOps一体化运维、大量自研软件工具平台、软件管理软件的最佳实践,并不适合大多数政企客户人员少、软件自研能力弱、应用软件分散外包定制开发、软硬件系统集成和集中化IT治理和组织管理等云环境的背景特点。为此,混合云平台需要优先建设完善云产品高可用连续性设计,以及应用/平台智能运维能力,优先保证好混合云上各种云成熟应用的安全稳定运行,以及自主可控建设运维需求,再考虑经济、数智、弹性和敏捷能力。

阿里云混合云技术能力建设

坚持与公共云核心技术架构一致,复用公共云红利

多年来,阿里云混合云平台核心技术架构坚持与公共云保持一致,最大限度复用公共云技术研发实践红利,避免了产品技术路线分支可能的推倒重来,保持了产品技术架构稳定、平滑升级和持续发展。同时,我们在混合云平台上,增加研发了20台左右的小型化最低服务器数量起步方案,各种亲和性、非亲和性和异构多芯多集群调度策略,云产品IAC基线方式终态运维和自动化热升级能力,以满足混合云客户不同于公共云客户的差异化需求。

为了在通用以太网络上全面替代传统的小机、SAN网络、SAN存储的软硬一体、存算分离架构。阿里云公共云三年前就已经开始全面投产神龙服务器、自研网络交换机、网络软硬一体加速、RDMA ESSD全闪分布式云盘存储的软硬一体、存算分离架构。混合云也将延续这一公共云上验证成熟后的架构技术路线,以大幅提升了上层数据库、中间件、大数据产品的硬件卸载、共池管理、敏捷供应、快照备份、离在线混部、主备切换RPO=0等企业级特性/能力。

阿里云混合云Apsara Stack的核心产品技术能力,一般都是在公共云上灰度验证、上线运行一年后才发布给混合云客户使用。公共云上敏捷DevOps运维积累的经验,也保障了混合云多年来的安全稳定运行,从未出现大的技术路线错误的或未验证的技术方案故障。

一云多Region架构满足混合云客户建云需求

一云多Region是使用一套用户账户及权限体系的云平台系统,单一用户账户权限具备全域资源实例开通、管理、应用发布的能力。

通常,大型机构或企业业务遍布全国甚至全球,往往会选择在集团总部搭建一朵“专有云”,总部下面的每一个职能机构又需要建设各自的Region。对于这种复杂的“总分型”场景,一云多Region架构可以很好的支撑业务的互通互联,通过大规模部署实现更高、更灵活的工作负载。

为什么说“一云多Region”比“多云多Region”更有优势?

首先在管理层面:

统一规划建设、运营、运维;

具备统一资源视图区域自治的能力;

具备统一账户以及统一权限。

从开发视角来看:

一次开发,多Region部署,代码可以做到集中管理、全域分发、就近访问;

大数据计算可以统一视图、跨域计算;

能够产品化支持跨域网络打通;

可以产品化支持跨域数据流动。

从弹性及灾备视角来说:

支持应用的跨域弹性,最大化利用资源;

可以支持本地灾备以及跨域灾备;

一云多Region是一种产品化的灾备能力,可实现白屏化管理。

一云多Region架构主要用于生产与研测环境隔离、高安全等级内网与外网强隔离、集团不同性质业务合规要求强隔离等场景。这些场景追求高度的隔离性,要求每个Region有自己完全独立的帐号权限、云管运维、运行安全管理系统。

总部与省市分公司是多级法人的政企客户,如果采用多云架构,需要在多云之上,重新再搭建一套复杂的多云管理系统,实现帐号单点登录、权限统一管理,云管集成整合。由于各朵云建设时缺少地址分配、资源命名的统一规划,多套独立的管控系统没有原生的集成设计,很难给客户提供一体化管理的体验、跨域灵活共享数据。

阿里云混合云物理分散、逻辑统一的“一云多Region”架构,很好地解决了这一问题,统一用户账号权限体系、资源全局视图统一调配,总分部大数据的跨域计算特别适合政企总部对于二级子公司“既要由总部全局统一管理,又要保持子公司自主活力”的需求。

“一云多芯”支持政企客户IT自主可控战略平滑演进

IT基础设施的自主可控,需要混合云平台兼容适配目前市场上主流的五六种异构芯片服务器,这对于我们云产品的特性兼容适配、在线轮转升级、性能调优调度能力有很高的要求,研发测试部署运维工作量十几倍增加。经过近两年来持续的投入,不断地努力研发,阿里云混合云平台上的近百款云产品,大多数实现了单AZ内异构多芯多集群混部,部分云产品做到了集群内同构不同芯的混部,少量只支持单集群的产品,也实现了按产品混部。

多集群混部:客户在申请创建云产品服务实例时,只要选择好异构芯片类型和厂商,就能将有关服务实例准确地创建到相应芯片的产品集群上。

集群内混部:客户在申请创建云产品的云服务实例时,只需要选择x86或ARM芯片类型,不需选择不同厂商。集群内服务器分批替换过程中,该云产品上已创建好云服务实例的正常运行透明无感。未来,我们还将进一步发展支持集群内x86和ARM异构芯片混部。

按产品混部:对于AZ内只能部署一个集群的云产品,客户可以一个云实例中,为这些云产品分别选择不同的芯片类型进行部署。单集群内不同芯片的扩容/替换,优先通过集群内混部解决,再是发展成多集群异构多芯混布,以及整集群短时间停机迁移方式解决。

行业云/政务云/集团云等类公共云运营模式趋于成熟

为了转化服务模式、优化行业生态或增加运营收入,部分政企有了在专有云平台基础上对外运营行业云的需求,让自己的云变成一朵可以对外提供服务、可以被运营的“行业云”。

与专有云不同,行业云的客户分为两层,一层是使用云平台的政企自身,第二层则是政企的客户。两层用户的存在与运营需求,需要能够区分平台和租户,将对云平台的管理从“运维”维度扩展到“运营”维度,同时不断沉淀行业解决方案。

阿里云基于其公共云运营的能力和经验,在行业云领域具有先天优势,通过提供服务目录管理、流程审批、账单计费和运营增效等能力,帮助客户构建行业云的大型实践。尤其是其中的账单计费能力方面,我们基于阿里云公共云的账单计费系统进行了抽象和简化,使其可以更好地面向最终用户,提供灵活便捷的计费规则设置能力。

同时,我们增强了云平台“可扩展”能力,对于特殊的运营售卖、业务流程诉求,可以通过标注换的扩展方式,与阿里云的生态伙伴一起,提供符合实际业务需要的功能,更好地支撑客户的行业云运营。

某省级政务一朵云、某金融机构行业云等阿里云与行业龙头企业和政府部门联合投入、经营风险共担,收益共享的运营模式成功运营多年,为国内混合云市场后续行业集中、地区集中、全国/省级集中的行业云建设趋势积累了很多有意义的经验。例如:某省级政务一朵云试点运行的“一云多Region架构,在后续某大型集团央企客户处得到了很好的推广。某金融机构行业云多租户的IaaS云平台服务,安全稳定运行三年多时间,为小型券商金融机构的交易应用、研发的灾备应用全面上云提供好了良好的支持。

软硬一体、存算分离打造云原生数据库

过去30年,政企客户借助传统的软硬一体、存算分离的“IOE”集中式数据库架构,支持保障客户核心业务系统的建设和发展,随着互联网的业务发展,数据量在急剧增多,数据库也逐渐在从Shared Mem/Disk的集中式架构,向Shared Nothing分布式架构演变。Shared Nothing分布式架构数据库要求应用架构配套分布式改造,客户很难对所有传统应用进行快速全面的分布式重构。大量传统应用仍然在使用基于单台x86物理机本地盘的主备/3节点选举的开源/RDS MySQL数据库。但计算和存储耦合的架构又无法发挥云计算资源池化、弹性扩缩、敏捷供应等技术红利带来的优势,单库存储容量小于6T,QPS/TPS有限。

随着基于神龙服务器+25G网络+CDS分布式共享云盘的软硬一体、存算分离架构的日渐成熟,阿里云混合云2022年将推出基于神龙CDS、容器化、Shared Everything架构的PolarDB O共享存储数据库,可为政企客户提供高度兼容Oracle语法的数据库引擎,通过所有数据库实例计算节点共享一份数据的方式实现1写15读(多写多读在研中)、100T存储&100万QPS的集中式大库,以及在线敏捷弹性伸缩、灵活快照备份恢复、计算节点故障切换RPO=0且RTO<15s的高可用、计算存储资源分别池化共享等企业级特性,满足政企客户传统应用系统不做分布式改造,也能IaaS化平迁上云的需要。

大数据方面取得的进展

阿里云大数据技术经历11年的沉淀和发展,从2019年开始,数据仓库到数据湖形成主型发展的趋势,湖仓一体应运而生。阿里巴巴最早在该领域进行探索,2021年,湖仓一体对接了CDH、TX等,已经在政务和金融行业形成数个标杆和成熟方案。

MaxCompute作为阿里巴巴数据中台技术底座,经历多年双11锤炼、技术自主可控,离线查询加速到秒级、金融级安全,在大规模点查和低成本查询加速场景中已经在多行业项目中落地。大规模数仓的高性能、低成本,支持多芯、多Region、容灾等能力在政企、金融头部客户得到了广泛的认可。MaxCompute是中国唯一入选Forrester全球云数仓卓越表现者象限的产品,TPCx-BB 100TB五连冠全球冠军。

在实时计算领域,阿里云基于开源Flink引擎打造新一代的3.0云原生大数据平台Ververica Platform和企业级计算引擎Ververica Runtime,超大规模的Flink on ASI调度,提出了流批一体的数据模型,即用一套API来完成实时数据与离线数据的处理,实现了流批统一的DataStream API+Table/SQL API+Connector,并在执行层支持流批一体的调度与面向批处理进行优化的Batch执行模式。

2021年度,阿里云在大数据领域也获得了业界诸多认可。

云平台建设展望

传统应用PaaS化云原生重构上云和IaaS化云就绪平迁上云

传统应用PaaS化云原生重构任重道远。阿里云混合云将进一步完善“云效”敏捷DevOps平台,打造云原生应用研发运维一体底座。不仅为政企提供敏捷项目管理、需求管理、研发测试工具,还将增强云原生应用架构设计管控、企业通用应用组件复用、Mesh化/serverless架构推广、业务/数据双中台企业服务目录、低代码快速应用开发平台、多地多中心应用单元化多活架构、“无影”云上安全研发测试环境等方面的能力,为企业移动化、场景化业务创新提供各种平台/工具服务。

传统应用IaaS+化平迁上云是当务之急。政企客户传统应用负载积累了几十年,很难中短期快速实现全面的云原生化重构。为此,阿里云混合云将提供屏蔽分布式技术复杂性、兼容传统Oracle数据库和开源数据库、兼具分布式扩展和高性能集中式大库的PolarDB数据库,具备丰富复制容灾、快照备份、共享存储等企业级特性的CDS云定义分布式存储,完善的网络安全访问控制解决方案,多地多活的平台容灾方案,一站式迁云工具,支持客户只对传统应用做少量改造,就能全面平迁上云。

硬件软件化和软件硬件化统一发展,构建新的软硬一体架构。

硬件软件化,是指云计算发展过程,先是打破传统架构中各厂商纵向、差异化、封闭一体化的硬件技术堆栈,重构横向、标准化、分层服务化的软件平台。

软件硬件化,是指云计算发展深入,开始基于新的软件定义架构,将软件能力卸载到分布式、标准化硬件上的GPU/DPU,对云操作系统进行软硬一体整体加速。

云原生软硬一体架构,能够在标准化、通用化的x86/ARM服务器基础上,通过增加DPU、RDMA的硬件能力,提升计算、存储、网络、安全等IT基础资源的弹性伸缩和利用效率,解决存算分离后网络时延加大问题,获得存算资源分别池化共享、物理机敏捷供应虚拟化服务、主备切换不丢数和故障快速恢复、数据灵活快照备份恢复、虚机为单位降低售卖起步等企业级特性;能够将复杂的分布式技术封装起来,既可以提供ScaleUp纵向集中式扩展的IT服务,又可以提供ScaleOut横向分布式的IT服务,有效替代传统小机+SAN网络+SAN存储的传统存算分离架构,以及各种专有硬件设备。

应用与云产品、租户与平台一体化云管,满足集中式专业化运维需求。

面向应用的云管系统,是混合云最重要的核心竞争力。不同于传统IT架构的外挂式监管控运维系统,混合云的云管是分层嵌套的服务化的混合云平台和各级服务和运维API的外在交互式体现。

也就是说,混合云云管平台上能够实现的各种用户交互功能,都是通过编排调用各个云产品服务和运维API的方式实现。混合云客户所需要的各种应用系统、云产品平台的服务和运维管理功能,很多是云原生内嵌在各个云产品管控,云原生分布式微服务中间件和数据库里的,再加上云管系统的统一场景化集成交互界面,满足混合云客户跨业务、应用、产品平台、跨租户运维和平台运维进行集中统一运维管理的需求。

未来,阿里云混合云的云管系统,将持续发展多种云成熟度应用的统一建模、架构蓝图可视化交互驱动、集中式运维场景化集成、应用运维关联整合平台运维、统一事件监控定级处理、应急预案集成和指挥协同、应用云管适配异构IaaS多云等功能。

信息化软件服务网 - 助力数字中国建设 | 责编:莎莉
文明上网,理性发言!请遵守新闻评论服务协议
评论