高饶网

​阿里的“一次小抖动”

点击: 来源:高饶网
摘要:阿里的“一次小抖动” 经济观察报记者 钱玉娟 自双十一结束开始,关于阿里巴巴的新闻就一直没有停止。 11 月 12 日晚间,阿里云突发服务故障,影响波及几乎阿里系所有的 APP 应用;

阿里的“一次小抖动”

经济观察报记者 钱玉娟

自双十一结束开始,关于阿里巴巴的新闻就一直没有停止。

11 月 12 日晚间,阿里云突发服务故障,影响波及几乎阿里系所有的 APP 应用;11 月 16 日晚,阿里巴巴在披露 2024 财年第二季度财报时,宣布不再推进云智能集团的完全分拆。11 月 16 日晚间,阿里巴巴集团 CEO、阿里云智能 CEO 吴泳铭在财报发出后的分析师电话会上给出了阿里云不在完全分拆的解释," 介于目前外部环境的各种不确定,我们经谨慎评估后决定…… " 吴泳铭提及的 " 不确定 ",在阿里财报中有更为详尽的说明," 美国近期扩大对先进计算芯片出口的限制,给云智能集团的前景带来不确定性。"

不过,对于 11 月 12 日傍晚突发故障这道 " 主观题 ",阿里云并未回应,新任 CEO 吴泳铭也避而提及。

11 月 12 日当天," 阿里系 App 崩了 " 相关词条冲上热搜,阿里云工程师在紧急处理故障问题的过程中,经济观察报记者曾向阿里巴巴集团内部求解,彼时得到一个戏谑的答复:" 有个小抖动,结果就被大家逮到了 "、" 有的人没啥感觉,挺快就过去了 "。

确实,故障发生短短两个小时后,绝大部分地域的服务就已恢复访问,但事实上,过去 5 年间被记录下的,阿里云就曾发生数次服务事故,而此次 " 小抖动 ",影响波及近乎全球范围,直接引致市场对阿里云安全与稳定性的质疑。

如今,这场 " 小抖动 " 似乎还在持续。

当市场还没有从盒马和阿里云的变化中缓过神来,美国证券交易委员会(SEC)于当地时间 11 月 14 日披露了两份 144 表格,其中显示,马云家族信托全资拥有的英属维尔京群岛公司 JC Properties Limited 和 JSP Investment Limited,拟于 11 月 21 日出售阿里巴巴创始人股份,均为 500 万股美国存托股份(ADS),共涉及股票市值达 8.707 亿美元。

令人意外的 BUG

之于所有阿里人而言,双十一结束第二天的周末,本该是放松的,但那晚李强的工作群 " 炸了 "。

李强是阿里云的一名销售,此次故障不仅事涉他所服务的地区," 影响很广,但不深。" 记者在阿里云官网的健康状态页(Status Page)中看到了受影响范围的相关信息,除了中国内地、香港外,还包括美国、英国、印度、阿联酋、韩日以及东南亚等多个国家和地区,几近波及全球范围,受影响的也包括对外服务的金融云,政务云等。

被广泛感知的不只是淘宝、闲鱼、钉钉、菜鸟驿站、阿里云盘、语雀等阿里系产品,网页版、App 访问受到影响,还有很多阿里云服务的 B 端客户,像纳思云充电桩,智慧笑联洗衣机、乐爽 cooleasy 洗衣机、苏打智能打水软件等,为社会、学校等提供公共服务设施的平台,纷纷因阿里云 IoT 服务 API 接口故障,服务 " 崩 " 了。

" 从阿里云计算第一行代码开始,我们就希望让计算成为像水和电一样的公共服务,成就更多的开发者和企业。" 这是阿里巴巴董事局主席蔡崇信在 10 月 30 日举行的云栖大会上做的主题发言,彼时的他并不会想到,十几天后,提供着像 " 水电煤 " 服务的阿里云,让一些人短暂且真实地感知到了 " 断水、断电 "。

从阿里云官网显示的受影响产品和区域信息看," 波及多个区域,基础服务挂了,导致连锁反应。" 王亮是国内某搬家应用软件的技术负责人,其所在的平台是阿里云服务多年的 B 端客户。

11 月 13 日,王亮在接受经济观察报记者采访时透露,其平台派单给司机后,用户和司机原本会绑定一个隐私号码,以此通话还可以录音,但在 12 日傍晚,王亮发现,不断有司机师傅向客服反馈," 订单没有绑定隐私号码,直接返回到真实号码状态,好在服务没有阻断。"

王亮回忆,那晚软件后台图片依赖的 OSS(对象存储)服务也受较大影响,但值得庆幸的是,平台核心的下单和支付流程影响不太大,那期间,他曾尝试登录阿里云后台," 发现登不了,再进入阿里云公共服务组件的钉钉群,发现大家都在向官方支持同学反馈着问题。"

当晚 19:20 左右,阿里方面回应,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等 App 已全面恢复。随后于 21:11 显示,受影响的云产品也均已恢复," 因故障影响部分云产品的数据可能存在延迟推送情况,不影响业务正常运行。"

危机不只两小时

阿里云的一次闪崩,直接勾起了大家的互联网记忆。

早在 2018 年年中时,阿里云曾出现持续近半小时的重大技术故障,彼时,阿里云官方作出解释:运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

" 云服务出现故障,在所难免。" 刘星是某科技公司 CMO,作为阿里云的客户还参加了今年的云栖大会。

几年前,刘星曾是国内某家云厂商的高管,他对阿里云 2019 年 3 月的宕机事件记忆犹新。彼时华北地区不少互联网公司遭受影响,官网或产品应用瘫痪,当时阿里云回应称,经紧急排查处理后逐步恢复服务。并且针对上述故障,官方还根据 SLA 协议(服务合同)进行相应赔偿事宜。

" 作为同行,完全不会幸灾乐祸,反倒是引以为鉴。" 刘星表示,云商一旦发生大范围 " 崩溃 " 事件,除了带来品牌和商誉的间接损失外,直接损失便是经济赔偿,甚至更为惨痛的客户流失。

刘星看到,不少客户会在经历云商的服务故障后选择多云。记者也看到,阿里云故障发生两天后," 友商 " 京东云在其官方公众号发出," 又一次了,该认真考虑’混合多云’了!"

虽没有 " 硬刚 " 提及云厂商的名字,但京东云认为故障给行业敲响了警钟,以此唤醒用户市场对用云策略的调整。但刘星强调," 多云和混合云以及混合多云部署,对于厂商和甲方都是老课题了,但做起来不容易。"

据刘星介绍,国外确实因为 " 多云 " 形成了 IT 领域很多行当的新生意,比如多云场景下的数据管理,多云场景下的软件定义网络服务等等。但回归中国市场看,他说," 企业多云的管理水平不高,多云产生的生态不太成熟。"

当前云服务市场的变化," 增量不足,存量竞争激烈 ",是刘星理解下,阿里云这一巨头的当下困境,纵使 AI 新一轮的技术浪潮给云厂商带来了新的增长空间,但他也认可阿里云提及的 " 算力 " 这一不确定问题。

BUG 解除、服务恢复的第二天,王亮所在的平台享受的阿里云 OSS 服务、后台依赖的 Auth 认证服务等出了问题,"ECS 和数据库的服务,本身还是正常的。"

王亮在等待阿里云给出具体的故障报告," 底层服务都是好的,一些基础服务问题导致的连锁反应。" 不过,随着时间推移,事件过去几天后,官方保持缄默,他猜测 " 阿里云应该还在复盘。"

李强无法解答技术侧的问题,作为阿里云一员,他将突发故障视为 " 黑天鹅事件 ",对于一些外部释放的消息,也予以更正," 并不是完全宕机,恢复时间快。"

服务故障所涉及的技术术语,李强认为,两个多小时的 " 崩溃 " 危机,被广泛感知后,之于云服务商,尤其是在中国整体市场占据份额第一位的阿里云," 不算小问题 "。李强说。

多事之秋

12 日晚突发的服务故障,将阿里云服务在安全性与稳定性方面的隐忧放置于台前。但这次让人不解的是,官方始终保持着缄默,故障波及范围之广,却没有对外发出一份明确的事故报告或说明。

公开资料显示,2022 年 12 月,同样在云栖大会和双十一大促之后,阿里云香港 Region 可用区 C 发生大规模服务中断事件,导致香港及澳门包括金融管理局等多个关键基础设施营运者网站无法访问。

针对上述事故,阿里云在官方声明中曾坦言,是其运营十多年来持续时间最长的一次大规模故障,整个处置过程超 10 小时。

那次事故暴露出阿里云内部管理的一个问题,在长达 5 个小时时间里,阿里云都没有更新状态监控,故障信息更新速度被严重质疑。该事件的最终结果是,时任阿里云一号位的张建锋离任,并由时任阿里巴巴集团一号位的张勇担任 " 救火队长 "。

11 月 12 日晚大规模故障发生后,外界都在观望,技术背景出身、担任阿里云一号位刚满两个月的吴泳铭,会有哪些处理办法。

一位身处阿里云生态,与之合作长达十年的生态伙伴向记者反映,领头羊换人后的阿里云,优化裁员不少。天猫双十一大促冲刺当晚,淘宝曾短暂 " 宕机 ",之后阿里云近乎全球范围的一些服务出现 " 瘫痪 ",这位阿里云生态伙伴猜测," 内部产研出了问题。" 在他看来,如果产研因为裁员动荡,没有很好地做好 " 工作衔接 " 时,往往会出现类似问题。

上述阿里云生态伙伴在其企业中担任技术层高管,他深知企业处理劳资关系时,若 " 忽略人性问题 ",会发生一些不可控事件," 之前微盟还出现过删库事件 "。

微盟内部一人士向记者回溯了发生在 2020 年 3 月的 " 删库事件 ",公司内部管理疏漏的同时,一员工因独自在上海租房,防疫封控导致心理出现问题,加之其通过网贷借钱无力偿还,故把删库作为发泄出口。

" 员工恶意破坏公司线上生产环境及数据。" 上述微盟人士透露,公司紧急应对处理,发现问题后报警,该员工在家中被警方控制并带走。

一位在阿里云工作长达 10 年,于今年 9 月份离开的 " 老人 ",对于过去五年里经历的多次大事故,记忆犹新,谈及此次全球范围的大 BUG," 屋漏偏逢连夜雨。" 他觉得,事件发生以来," 最大的悬念是谁来接云。"

不止阿里云

从张勇开始再到吴泳铭,作为一个由两任集团 CEO 兼职带队的业务板块,阿里云于阿里巴巴集团来说,显然是不一样的。

在阿里内部,吴泳铭被亲切地称为 " 吴妈 ",一位阿里前员工评价是," 吴妈是老马最信任的人。" 对于启用老将,由吴泳铭与蔡崇信搭配来管整个阿里," 是合适的。" 作为阿里的第一代程序员、创业团队的 " 十八罗汉 " 之一,吴泳铭一定程度上代表着阿里的技术基因。" 今天,传统互联网模式严重同质化,已走向存量竞争,AI 人工智能为代表的新技术,正成为全球商业发展的新动能。" 履新后的吴泳铭,为阿里巴巴确立了两大战略重心:用户为先、AI 驱动。

一位老阿里人如此评价熟识的吴泳铭," 他非常低调,却勇于创新,不固步自封。" 很多人都知道张勇的战功中,必须有带队淘宝 "All in 无线 " 一事,而吴泳铭正是背后项目执行的那位技术大牛。

" 敢于冒险、敢赌。" 上述老阿里人透露,阿里体系之内,吴泳铭曾带队创业,搭建起了阿里电商的营销平台阿里妈妈,还曾主导参与了对高德的投资并购案;在阿里体系之外,他以创始合伙人身份创立元璟资本后,先后在硬科技、新造车、数字医疗以及工业互联网等领域,押注新型企业,展开投资。

每个熟悉吴泳铭的人,都不曾怀疑他的技术实力,但在今年 9 月 12 日,从挂印离开的张勇手中接过管理棒两天后,他发出一封全员信,提出了 " 管理团队年轻化 " 的明确目标。

吴泳铭提出希望,未来四年内,让 85 后和 90 后成为阿里巴巴的主力管理者,刷新业务管理团队,并创造出让更多年轻的阿里人成为核心力量的机制和文化环境。但在队伍年轻化的进程中,如何保证业务交接和基本盘的稳定,却并未被提及。

在 " 阿里系 App 崩溃 " 等相关词条冲上热搜当晚,不少网友在社交媒体上发出 " 能胜任维护云稳定工作的人都走了 " 的讨论。

刘星今年奔到云栖大会现场,也感觉早年熟识的一些阿里云 " 同学 " 已经离开,让他更为感慨的是,每年在各种展会上都会看到阿里云的身影,但在杭州,阿里云的主场," 跟以前比,(阿里云)变得朴素了。" 他有一种阿里云也在降本增效的即视感。

就在 16 日晚的分析师电话会上,吴泳铭讲到阿里巴巴集团将在阿里云战略方向上保持长期坚决投入后,他释放了这样一个信息点:云智能集团仍会继续保持独立公司运作方式,采取董事会授权的 CEO 负责制。

显然,在吴泳铭是阿里云一号位角色下,未来 " 谁来接云 " 仍值得关注。" 阿里云的主要问题,不是淘汰老人的问题,而是在关键人选用的信任和策略方面,需要变革。" 上述阿里云前员工告诉记者,作为互联网科技平台企业,不再大规模扩张,且已经建立起了一个平稳系统后,从经济角度来讲," 当然希望能够用‘便宜’的人来做管理。"

就在 11 月 16 日晚财报发布之后,吴泳铭公布了阿里巴巴的第一批四个战略级创新业务:1688,闲鱼,钉钉,夸克。阿里方面称,这些战略级创新业务,组织上将作为独立子公司运营,业务上将打破以往在集团内的定位限制,阿里以 3-5 年为周期持续投入。

吴泳铭还首次披露了遴选标准:具备足够巨大的市场空间,具备独特的市场定位,符合用户需求趋势和集团 "AI 驱动 " 战略。

至于阿里云,吴泳铭称," 坚定实施 AI 驱动、公共云优先的战略,并加大对 AI 相关软硬件领域的技术投资。" 在吴泳铭看来,阿里云在未来需要坚持做好两件事,打造一朵 "AI 时代最开放的云 ",为全行业提供稳定高效的 AI 基础设施,其次是创建开放繁荣的 AI 生态。

(受访对象要求,文中李强、王亮、刘星为化名)

相关文章