根据《中国信通院云计算白皮书(2022年)》所述,“云计算重塑企业IT消费模型,基础设施采购方式从原来的集中式变为分布式,成本管理从原来的前置评估变为后置监控,成本类型由原来的固定成本变为可变成本,决策模式从原来的短期决策变为长期运营,成本责任由原来的集中管控变为责任分散。这些变化导致企业云上成本管理面临诸多挑战:一是资源浪费难以识别,有效资源优化手段匮乏。二是云账单数据庞大繁杂,缺乏专业工具支撑。三是混合云加大优化难度,云产品计费模式复杂多变。四是优化流程管理不健全,团队协作效率不佳。”
FinOps是“Finance”和“DevOps”的合成词,强调业务团队与工程师团队之间的沟通和协作。
FinOps通过Inform、Optimize、Operate三个生命周期阶段实现云成本的可视、优化与持续运营,鼓励实践6大FinOps原则,将众多FinOps能力划分为6大领域,最终通过Crawl(爬行)、Walk(行走)、Run(奔跑)3个程度来衡量实践的成熟度。
“FinOps”在行业中常见的别名有“云成本管理(cloudcostmanagement)”、“云成本优化(cloudcostoptimization)”、“云财务管理(cloudfinancialmanagement)”等。
阿里云结合业财一体化实践和FinOps理念,推出“云上成本管理”整体解决方案,配套多种子场景解决方案及丰富的产品工具,助力企业客户增效降本,管好云用好云。
阿里云“云上成本管理”整体解决方案,包括通用解决方案、多云解决方案、专属解决方案。
云上成本管理整体解决方案,提供覆盖FinOps全链路的产品能力,如成本分摊、预算管理、异常检测、成本分析、成本优化等常见能力领域,也支持弹性计算、网络、云原生容器服务等众多垂直云产品的深度成本管理,助力企业客户通过实践FinOps实现增效降本。
“云成本管理与优化”不是一蹴而就的项目,是一个涵盖企业上云用云全生命周期,关系到企业内部管理机制的体系化工程,是一个反复迭代和持续运营的过程。阿里云在FinOps核心理念基础上,融合自身实践经验,提出更加细化落地的“云上成本管理实施框架”,供企业客户参考实施。
用云计划阶段:场景包括企业首次上云、增量上云、存量复购。
用云执行阶段:场景包括采购执行、用云管云规则执行(包括财务规则设置、资源配额设置等)、商务履约执行(包括对账、充值、开票等)。在用云执行阶段,从财务管理和资源管理两个视角做好成本管理。
监控分析阶段:对应FinOps的Inform阶段,主要解决成本分摊与成本可视化问题。
成本优化阶段:对应FinOps的Optimize阶段,主要通过计费方式优化、资源使用优化和架构优化来落地执行。
持续运营:云上成本管理是一个反复迭代和持续运营的过程,企业应持续循环以上四个阶段,形成长效运作机制,使云上成本可以有效管控、持续优化。
此部分内容引用自云计算开源产业联盟的《云优化治理白皮书:成本优化》。阿里云参与该白皮书编写,引用内容在本文中略有调整。
云成本管理团队是企业实施云成本管理的基础。云成本管理不是某一个角色或某一个团队需要做的事情,而是需要多个角色共同参与,打破原有各管一段,各自为战的传统IT管理方式,各角色长期协作共同努力以达到成本长期治理的目标。云成本管理团队需要宣传云成本管理意识和文化,推动云成本管理最佳实践,确定企业云成本管理的方向,协调企业各部门开展成本管理工作。比如,可以定期举行成本管理会议,回顾和复盘成本管理中遇到的一些问题,从而推动持续改进。
企业组建云成本管理团队需要满足以下三个条件:
云成本管理相应的长效运营机制在云成本管控中起到关键作用,面对云成本特殊的支出模式和账单结构,企业需要更新一套更加合适的云成本管理流程制度确保优化工作能够在企业内部精确、高效运转。云成本管理流程制度包含三个方面:
阿里云“云上成本管理”解决方案配套提供丰富的产品工具,帮助企业客户在用云全生命周期中实现FinOps云上成本管理。
2022年5月19日,由中国信息通信研究院和中国通信标准化协会联合主办的“2022云管和云网大会”发布了《可信云云成本优化工具能力要求:第1部分原生工具》标准及首批评测结果。
阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部33个能力指标。
云上成本管理工具提供成本分摊、预算管理、成本分析、异常检测、成本优化等多种功能,支持弹性计算、网络、云原生容器服务等众多云产品的成本优化,并将持续丰富和覆盖更多云产品。
对于每个企业,FinOps云上成本管理的落地方案应该因人而异,但策略方法是通用可借鉴的。阿里云结合阿里集团内部实践经验、外部客户支持经验,总结了一些通用策略方法,供参考实施,本文节选部分进行介绍。
将云的预算管理纳入进来之后,企业的全面预算才算是补齐了最后一块短板,全面预算才有了切实的管理意义。从实践来看,数字化云上预算管理的意义在于:
总的来说,云的成本管控主要围绕用量、用法和计费三大要素来展开。
而在这些原始方案的基础上,企业结合自己的技术现状,不断去更新和优化。此时再佐以合适的激励制度,可以形成企业成本精细化管理的正反馈循环。
如之前“成本问题发现与管控”环节所述,在成本优化原始方案的基础上,企业需要结合自己的技术现状,不断去更新和优化。而这个成本优化的飞轮之形成,是需要一定的技术方案和管理方案保障的。
首先是,成本优化的结果需要量化体现出来,在此基础上,各员工的工作价值需要可统计和量化。可以借鉴的做法是使用“健康分”的制度或类似的概念。
有了“健康分”这样的制度,人、数据、流程就可以有机流动起来。如果数据不流动,所谓的正反馈循环(即飞轮)就是空中楼阁。
仅有健康分制度还是不够的,还需要在企业内部建立与之相应的企业文化,提高全员的精细化管理的意识。对于一家大型企业来说,考核在前,文化在后。因此,我们建议从以下两者入手,来逐步建立切实可行的成本精细化管理的意识:
基于以上洞察,我们提炼出用云、管云的众多最佳实践和技术方案,帮助企业更好的驾驭云,驾驭数据,FinOps不过是一个起点。按照上述逻辑,我们需要将企业的业财能力、数字化采购能力、研发效能、人力资源、Devops等等领域重新按照云的逻辑刷新一遍。而在这几个领域,阿里集团既有自己亲身经历的最佳实践,也有经过思考沉淀的方法论与工具。
在计费方式和资源维度完成一系列优化工作之后,在保障应用稳定性的前提下,通过云原生化架构升级能在更大范围内降低整体云服务使用成本。常见架构优化策略有:
1.架构全面云原生化:云原生架构是基于云原生技术的一组架构原则和设计模式的集合,旨在将云应用中的非业务代码部分进行最大化的剥离,从而让云设施接管应用中原有的大量非功能特性(如弹性、韧性、安全、可观测性、灰度等),使业务不再有非功能性业务中断困扰的同时,具备轻量敏捷、高度自动化和资源按需消费等特点。如应用的容器化以及应用微服务化改造后,将释放云原生架构效率红利,获得更高的系统可用性与可扩展能力,从而组建成本最优的云服务使用模式。
3.有选择的试点混部技术:为提升资源整体利用率,解决资源碎片问题并降低在线和离线作业的使用成本,将不同类型的在线、离线任务调度到相同资源上,通过调度和资源隔离等控制手段保障服务的能力称为在离线或离在线混部,两者区别在于是以在线业务为主还是以离线业务为主的资源进行复用。在实施混部的过程中,对于资源管理员而言需要对资源进行整体管理,洞察各类应用的资源容量、分配量和使用量,提升集群资源利用率,从而达到降低成本的目的。
2.积极拥抱Serverless:作为面向下一代的应用架构,服务化、模块化、可编排和可组装的Serverless化架构特点将最大限度利用计算、存储、网络等全链路资源,提升整体资源利用率、缩短需求发布周期,极大地提升应用的研发效率,从而收获良好的成本效益。Serverless使用户不用再关心应用在哪里运行,更不用关心需要安装何种OS、如何配置网络以及需要多少计算存储等资源,通过事件驱动的方式获得极致的资源使用效率。
加入钉钉群4175022543获取专家服务。
作为领先的全球化智能科技公司,T公司的云上业务系统也具有相当的规模,且先后经历了上云、云原生容器化的过程。随着主要业务从传统IT架构迁移上云,T公司也在进行IT企业成本治理的工作。T公司主要的业务场景主要分为三部分:主要生产业务、压测业务、孵化中的新兴业务。在IT企业成本治理视角,不同的业务场景在云原生IT成本治理过程中都面对了不同的挑战:
成本优化的举措,可分为下述五个步骤:
资源预估是企业基础设施建设的共同难题,也是决定成本规模的先决条件。T公司在上云期间,采用PTS全链路压测,高仿真模拟环境全链路压测,确定系统水位和瓶颈,合理预估资源需求。就遇到生产业务在刚上云阶段难预估、新孵化中的业务难进行容量规划等问题。通过对应用分类,预先确定合适的机型选型以及应用属性配置:首先进行机型选型,根据应用的业务选择适合哪种CPU/内存比例的机型规格,并在上线时进行动态调整。
T公司存在大量业务的应用有错峰现象,以及压测场景对资源利用有较高的要求。根据业务的流量波峰波谷、资源使用特性,使用不同的QoS服务质量等级策略,如对服务质量要求高的应用选择独占应用属性配置,对服务质量要求不高的应用可与其他业务波峰波谷交错的应用共同混部在同一集群节点中。
T公司大量生产应用会根据业务高峰低谷波动,通过设置弹性策略在业务波峰时扩容应用容器副本,以及根据业务波峰自动扩缩节点,在业务波谷时进行缩容,减少波谷时的资源成本开销。
T公司有大量业务压测场景,压测作业发生后会产生大量闲置资源,T公司的工程师团队采用动态资源交付的方式,使用阿里云资源按量付费等计费策略,资源即开即用,有效杜绝闲置资源的浪费多租SaaS化业务,按业务单元细粒度拆分成本。T公司的大量业务是采用多租SaaS化方式部署在同一集群,业务单元间会相互共享资源,这部分成本难统计的问题,T公司的工程师团队首先采用阿里云账号体系来拆分粗粒度的静态资源账单,各个业务单元对应到子账号体系,既方便单独管控,也方便进行静态资源的账单拆分,同时,T公司也参考ACK成本分析的集群动态资源账单分析,通过监控、智能推荐等方式调整集群动态资源的配额,实现资源利用率的提升;通过弹性伸缩、动态资源交付等方式,实现资源成本的降低。降本增效的同时,也会大大提升进行IT成本治理工作的效率。
T公司的大量业务也会在多云场景上运行,面对多云环境下的业务成本难管理的情况,阿里云提供标准的成本分析被集成能力,T公司的工程师团队使用阿里云平台标准的成本分析统计接口,实现上层业务在多云环境下的成本、资源的统一管控。
T公司主生产业务基础设施从传统IT架构到上云、再到云原生改造,在这个云原生化的过程中,T公司的业务量也翻了数倍。单个子业务的高峰期可达到300+核,成本优化率可达15%,在进行了混部、业务高峰低谷的弹性伸缩等优化后,优化效果可达高峰期的30%+的使用率。
围绕“成本-性能-稳定性”动态最优结合阿里云云资管家平台实现全面资源与成本敏捷运营,进行成本优化之路,具体包括资源治理优化和付费模式优化两部分:
同时符合三项条件的,会被判断为低利用率资源,通过资源运营中心提供预警与建议决策功能,客户会将部分常见性低利用率和闲置规格设定为自动化工作流处理。
同时,采用了需求预测+需求分层来解决客户需求不确定性的问题,具体步骤如下:
通过将上述逻辑与算法模型,根据客户过往的消费历史记录通过算法智能推荐给客户多种付费优化结果供客户选择。其中最保守的优化建议预计优化20%以上成本,最激进的优化建议预计优化60%以上的成本。