抢占式实例语境下,如何高效用云

企业如何合理规划云资源。

采写|郭娟

数字时代,任意打开一个APP或者网站,程序化广告无处不在,例如,同一款APP,45岁的男性和20岁的女性同时打开,看到的广告一定有所区别,这背后的机制,是某套高度智能化的程序化广告体系在实时运作,该技术已经能做到秒级匹配。

成立于2013年的Mobvista 汇量科技(以下简称“汇量”)核心业务便是程序化广告,它目前每日设备的接入量达到9亿,应用接入为5万,界面新闻的报道显示,“汇量已是中国第一、全球前十的第三方移动广告平台。”然而,汇量的知名度,除了圈内人,很少被广泛知晓,因此,称其为中国移动广告界的“隐形冠军”也不为过。

由于业务遍布全球超过60个国家和地区,云计算对于这家公司而言,不仅是标配,而且由于业务的特性,导致其使用流量存在突发性,以及存在突发巨量云服务需求的场景,这必然牵动到云计算的算力、存储、运维等问题,因此,如何合理规划使用云资源,成为这家公司降本增效的诉求。

在阿里云上,企业对云计算资源的规划,有三种常用方式:

  • 第一种比较常规,企业对云资源有一个提前估算,通过按年或月的方式购买,这背后是算力资源的预留实例(RI,Reserved Instance);
  • 第二种,企业面临突发增长的业务,可采用临时买进云服务的方式来应对,也即是按需实例(OD,On Demand),
  • 但按需买量的成本较高,因此,对于那些对突发业务预估不足、用量巨增、但又想控制用云成本的企业而言,还有第三种方式可选择:抢占式实例(SI,Spot Instance)。

抢占式实例的运作,是云商将碎片化的云资源进行整合,有意向的企业,通过竞价方式获取,即便有企业最终赢得竞价后,成本也只是按需实例的10%~20%,这种方式,让云资源的价格看起来很美,似乎降本的效果就要达到了。

然而,抢占式实例存在一个风险,便是云资源会被随时收回,因为打包的是碎片化云资源,当某一片服务器突然开启,这些云资源要立即撤回,优先完成那边的服务,因此,很多企业对于抢占式实例的使用存在很大的顾虑,主要是担心忽然撤回影响到自身业务。

汇量在2017年的时候,迎来了业务的暴增,为了合理规划云资源,它开始被抢占式实例的价格吸引,为了克服这种方式与生俱来的劣势,便用技术手段去改进,在这过程中,孵化出一个产品,叫SpotMax,借助SpotMax,汇量不仅使用到了极致性价比的云资源,同时,还避免了抢占式实例忽然被撤回、影响到业务的弊端。

总之,这一云资源的优化解决方案诞生后,让汇量的程序化广告单位请求处理成本降低了65%以上,云成本结构得到极好的控制。

与此同时,汇量认识到,其当初对降低云成本的刚需,必定也有类似的企业正在面对,于是,从为解决自身问题“内生”出的SpotMax,转向“外化”成为一套系统,让SpotMax的能力,帮助到更多的企业高效用到云资源。

“内生”:云实践孵化出SpotMax

汇量科技注册成立于2013年的广州,2017年完成港股IPO,也是在这一年,该公司移动互联网的广告业务迎来爆发式增长。

公开财报显示,汇量科技自2015年布局程序化广告,当年的净利润就以程序化广告为主,达到870万美元;2017年,净利润增至2730万美元;到了2019年,净利润就已达到约4142万美元……

汇量是一个典型的、在技术驱动下快速成长的公司,例如,布局程序化广告伊始,便推出程序化的广告平台Mintegral。做程序化广告业务,汇量的模式也很清晰,它对接的是广告主和广告发布者,按广告主需求定制好广告后,就将广告发布到其广告平台可以触达的、遍布到全球应用的广告位上,同时,依据其掌握的高颗粒度的用户画像,精准投放。

程序化广告的特点,决定了它云原生的特性,现在,汇量的业务布设在阿里云上。

2017年,业务量暴增后,汇量发现,云成本越来越贵,已经影响到它的盈利能力,为此,它尝试过几种方式,例如,淘汰低利用率的CPU、优化数据存储和购买预留实例(RI)等。但这些手段并没能解决根本问题。

于是,汇量科技的创始人段威开始寻找技术大拿“空降”,他最终找到蔡超,当蔡超以首席架构师的身份加盟汇量时,就立下了“军令状”:保证要将汇量的用云成本降低40%。

蔡超到任后,首先将汇量的系统架构进行优化,从云单体系向云原生架构的方向,构建了一个分布式的微服务架构,使得系统更加具有弹性、更高可用性,也能更好地利用云端的高弹性资源。这也是后来用户使用SpotMax的一个前提,架构一定要调整为云原生,只有高弹性状态,才能为接受释放状态做好准备。

另外,SpotMax值得肯定的创新,便是做到了抢占式实例被云厂商收回后,不会影响到业务,这是如何实现的呢?

对于使用了抢占式实例的用户,阿里云会调用一个“前置释放通知”机制,或者,是用户在使用抢占式实例时,自己设定好阈值,最终结果是,在云资源发生随时收回的时候,提前若干时间告知到用户。企业收到“前置释放”通知后,就可以着手“补货”,是继续开量?还是需要其他机型,进行快速补充,无论何种手段,就是要保证撤回云服务,不要影响到业务,但这些都是企业的自发行为,繁琐且低效。

汇量结合抢占式实例的特点摸索出来的SpotMax,更加高效、智能地用好高性价比的云资源,它的原理是,SpotMax中的弹性集群管理工具MaxGroup 基于历史数据综合分析和实时数据动态学习,对抢占式实例做出回收可能性的预估,并实现跨AZ调用实例,在中断发生前,将新的可用实例注入到集群中来支持用户的应用及数据,随后移除即将被中断的实例,从而让整个系统无缝运转,实现“低成本”与“稳定”兼顾。

蔡超入职不到一年,SpotMax便逐渐成型,最后实现了单位广告请求成本降低65%,此外,在同等算力下,SpotMax 最高可为企业节省 90% 的用云成本,而在相同的预算内,SpotMax 则可以将企业享受的算力提升 10 倍,回首入职时的“军令状”,蔡超超额实现了自己的目标。

“外化”:两个云资源的降本案例

SpotMax这个产品由三部分组成:MaxArch、MaxChaos 和 MaxGroup。

MaxArch 提供对企业现有架构的评估以及向云端迁移和云原生架构的设计;MaxChaos 主要提供混沌工程服务,可帮助企业持续提高系统的可用性;而MaxGroup 则是 Spot Instance 集群管理服务,通过集群防退化、Spot Instance集群推荐及基于强化学习的混合集群负载均衡等,帮助企业节省用云成本。

根据Flexera《2020年云计算现状报告》,73%的受访企业表示在未来四年,将云计算成本的优化作为企业的重点计划。SpotMax为汇量科技自身用云实践的成果,也开始对外推广,官方宣称,SpotMax可以帮助客户节约60~70%的云计算资源成本,降低公有云闲置计算资源的使用门槛。

在SpotMax迎来的新客户中,店匠Shoplazza是其中之一。这是一家专注海外 B2C 独立站品牌营销的企业级 SaaS 公司,成立于2018年,其业务主要聚焦在为跨境电商企业提供多维度专业服务,包括 SaaS 建站、品牌策划、流量推广、社交媒体营销等。

最初,在业务和用户增长的过程中,店匠需要通过不断增加服务器数量来扩容服务,以承载更多的用户流量,由此导致服务器数量增长过快,用云成本也随之上升。针对店匠的实际情况,SpotMax通过主动优化实力池、确保业务伸缩状态、预估中断率等方式,实现了用云成本降低50%。

SpotMax的另一个客户叫“数字联盟”,这家公司于2018年开启 DSP 广告投放业务,导致每日所需的用云资源量波动巨大,为满足资源波峰,需增加大量的用云成本,经阿里云推荐找到了汇量科技。

SpotMax通过分析数字联盟DSP现有架构,发现其存在的主要问题,包括采用大机型为主的实例和固定数量机器进行线上服务,这种情况容易造成使用成本偏高、优化空间小、且不利于后续采用弹性资源的稳定运行。

通过优化数字联盟DSP业务的架构,使用抢占式实例来取代包年包月固定机器,达到了成本缩减,并使用SpotMax自研的MaxGroup服务来确保使用抢占式实例时不影响业务的稳定运行。

通过以上方案,数字联盟的用云成本降低了65%,改造后的架构,更符合阿里云特性的弹性云架构,不仅解决了数字联盟DSP此前存在的“无弹性工作方式”所造成的资源浪费问题,而且保障了其线上服务在改造过程中不受影响的稳定运行,从而实现了用云成本大幅降低。

思考:企业如何合理规划云资源

越来越多的企业都在上云的背景下,上云并不等于用好云,现实中,仍存在很多云资源浪费的现象。

例如一些客户一次性开了1000到2000台机器,大多数机器的CPU使用率可能还不超过5%,说白了,就是算力没有被充分利用起来。另外,使用云资源时,也应考虑磁盘的搭配,SSB高速磁盘、云效磁盘,应该按照需求去开。

另外,客户也有不同,一些客户为云原生用户,它的云资源布设天然有弹性,根据波峰波谷设置弹性,还有另一些传统客户,在自建IDC的过程中,是以最高峰值去布设IDC,这类用户不太考虑扩容性,在上云时,也是适配它的架构,按照最大值去买云服务。

合理规划云资源,重要的一点是要对云产品有所了解。有些在用量上存在波峰波谷的业务,如互联网广告、电商和游戏等,阿里云建议,这类企业理想的云资源配比为:一部分预留实例支持稳定用量;一部分用抢占式实例来支持容错业务;剩余部分则依赖按需买量来支撑流量的波峰波谷服务。

但在实际应用中,多数企业在年初按照波峰用量的80%左右大量买进预留实例(RI),遇到波峰用量时拉去20%按需实例。由于担心中断问题,很多企业在配置云资源时,抢占式实例的配比一直很低,甚至没有,这也是形成云资源和成本浪费的因素之一。

因此,提升抢占式实例的使用比例,是企业云资源规划中降本增效的秘诀。抢占式实例搭配SpotMax工具,能保证抢占式实例使用过程中的稳定性,最大化利用其灵活、低价的“宝藏”属性,实现整体用云的降本增效。(完)

原创文章,作者:新经济沸点·原创,未经授权,请勿转载。新经济沸点优质内容同步到虎嗅、钛媒体、36KR、21财经、亿邦动力、创业邦、和讯网、新浪看点、微博、搜狐、网易、一点资讯、百度百家、今日头条等平台。

发表评论

登录后才能评论