华为云确定性运维

以安全可靠,智能运营,资源高效,业务敏捷为目标,让运维成为智能世界变革的加速器!

了解华为云SRE

了解华为云SRE

华为云SRE(Site Reliability Engineer,站点可用性工程师)是华为云的质量守护者,让华为云稳定可靠是SRE团队的使命,使客户信赖华为云是SRE的目标。

“一切皆服务”之“根”,是质量和稳定性

华为云SRE通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果,这种运维理念以及质量管理体系称之为确定性运维。确定性运维作为华为云运维质量的指导思想,通过全面的质量管理,在现网实现确定性故障率、确定性恢复时长和确定性影响范围。

华为云SRE助力客户提升应用稳定性

华为云SRE积累了大量的软件高可用设计和实践经验,构建出一套适配数字化转型、业务上云的质量管理机制,和客户一起开展面向应用视角的稳定性提升工作,帮助客户在质量、成本、效率中寻找最优方案。

最新资讯

华为云维享会·新加坡2025会议召开

5月16日,华为云维享会·新加坡2025会议召开,吸引来自全球的40余位行业领袖、技术专家齐聚一堂,围绕AI时代下云服务韧性建设与运维实践等议题展开深度探讨,赋能企业业务稳定运行,加速企业创新,实现云上质量与运营效率的双跃升。查看更多

第八届数字中国建设峰会召开,确定性运维赋能城市共启AI CITY新未来

4月29日,第八届数字中国建设峰会召开,华为云AI CITY“1234MNX”架构首次公开,分享AI运维的确定性运维体系,通过故障快恢、风险识别与消除、运维合规等能力,保障城市云上系统安全、稳定、可靠,赋能城市高质量发展。查看更多

“春生万物 云启新程”游戏运维精英社走进华为

4月26日,“春生万物 云启新程”游戏运维精英社走进华为活动在上海青浦•华为练秋湖研发中心成功举办,华为云SRE专家受邀现场分享确定性运维理念及实践经验。查看更多

荣誉与认证

精选视频

AI赋能稳定安全运行案例

《大模型时代在运维领域应用多智能体的实践》获得信通院第三届云系统稳定安全运行典型案例

云系统稳定性保障体系建设案例

《华为KooDrive云空间基于AppStage构建数智化运维体系》获得信通院第三届云系统稳定安全运行典型案例

可观测性实践案例

华为能源Power产品依托AppStage快速构建全链路可观测体系》获得信通院第三届云系统稳定安全运行典型案例

中国云计算品牌力 安全可靠排名第一梯队

在新华社2022年中国云计算创新活力报告中:华为云品牌力、安全可靠能力排名第一梯队

首届云服务稳定安全应急演练十佳优秀报告

在信通院2022年度“云服务稳定安全运行应急演练专项活动”荣获“十佳优秀报告”

2023IT运维领域极具影响力解决方案

在GOITI2023-GOPS全球运维大会·上海站,《华为云确定性运维解决方案》获得2023IT运维领域极具影响力解决方案。

云系统稳定性保障体系建设优秀实践案例

《华为云SRE确定性运维能力体系》荣获2022年信通院云系统稳定性保障体系建设优秀实践案例

云系统容灾优秀实践案例

《华为云多活高可用MAS解决方案》荣获信通院云系统安全运行案例评选容灾优秀实践案例

混沌工程优秀实践案例

《华为云混沌工程提升服务韧性实践》荣获混沌工程优秀实践案例

应急管理平台检验证书

华为云首批通过信通院云服务安全生产-应急管理平台检验证书

应急响应规范检验证书

华为云首批通过信通院云服务安全生产-应急响应规范检验证书

分类分级要求检验证书

华为云首批通过信通院云服务安全生产-分类分级要求检验证书

确定性运维赋能

经验即服务,华为云多年内外部业务运维/运营的经验,外溢成解决方案,支撑客户数字化转型,让运维成为智能世界变革的加速器。

确定性运维赋能

经验即服务,华为云多年内外部业务运维/运营的经验,外溢成解决方案,支撑客户数字化转型,让运维成为智能世界变革的加速器。

确定性运维规划与设计服务

基于华为云上SRE运维最佳实践提供确定性运维评估规划和设计服务,实现整体运维能力的提升,端到端运维流程规划提升,帮助企业构建确定性运维体系 ,实现运维组织变革,提升整体运维能力和运维转型。

华为云维享会

华为云维享会

华为云维享会是华为云联合专家学者、行业技术先锋和业界IT精英的经验交流分享会,旨在探索前沿技术、分享实践经验,联合伙伴共创,以安全可靠、智能运营、资源高效、业务敏捷为目标,共同探索企业运营管理新范式,释放云上澎湃生产力。

核心目标

① 共识达成:高频次会员交流活动,分享实践经验和技术能力;

② 技术推进:探索运维前沿技术趋势,推进关键技术问题得到解决和升级;

③ 实践产出:面向产业贡献,联合会员共创,编写专刊、白皮书和案例集内容。

精选视频

精选视频

智利大停电,华为云如何实现全球业务“零中断”

智利十几年一遇的全国性大停电中,华为云团队通过持续重保27小时——“市电+柴发+UPS+智能控制系统”的电力高可用架构,0损切换柴发、1分钟拉起Warroom, 300+专家跨国联合作战、7*24小时重保,保障客户业务0中断。

《云上建筑师——致全球运维人》

正如建筑师在立体空间,与繁杂结构中找寻确定性之美,运维工程师也正在智能世界中,为业务创造确定性的价值。运维的边界在扩展,基于确定性运维体系,这群云上建筑师正在攻克企业质量、成本、效能的管理难题,让企业上云更加安全可信、稳定可靠、资源高效、业务敏捷!

《突袭》丨一次云上生产环境的大考

华为终端云联合华为云开展了“突袭”演练,对生产环境近5000台云服务器进行软下线。此次演练,充分验证了华为终端云业务在站点级异常情况下的高度稳定可靠。每年,华为云在内部开展超过2000次混沌工程演练,并联合外部客户完成超过20次支付类、证券类、财经类等应用高可用演练。

《云中突击》丨看华为城市云守护者如何练就“真功夫”

作为数字城市安全稳定运行的守护者和美好生活的陪伴者,华为政务云SRE,依托确定性运维体系,用一次次的突击演练,淬炼华为政务云运维坚实守护力,守护数字城市运行每时每刻,共筑数字中国美好未来!

《在线》——华为云春节保障纪实

2022年春节期间,华为云SRE团队数百人坚守岗位,实时保障全网200+站点。

《红蓝军演练》——华为云全年上演2000多场“剧本杀”

一年以来,华为云进行了2000多次实战演练 ,涉及2000多名技术工程师220多个云服务,覆盖容灾、冗余、过载、数据备份、误操作等多种演练场景,全面提升了华为云的应急能力。

资料下载

资料下载

确定性运维实践探索,集产业、技术、实战于一体的技术书籍

确定性运维实践探索,集产业、技术、实战于一体的技术书籍

● 华为云的硬核力量-确定性运维的前世、今生和未来;

● AIOps智能运维经验分享;

● “确定性运维”能力助力云上业务运维体系升级;

● 基于云架构的业务稳定性建设思路;

● 助力客户数字化转型,构建全新的运维体系;

● 美图稳定性和运维保障方案。

● 关于智能运维中算法落地的一些思考;

● 运维价值度量体系建设方法与实践;

● 终端云智能化运维思考与探索;

● 在组织变革中重塑运维生产力;

● 亿级用户药店平台稳定性保障实践;

● 对系统稳定性的几点思考。

● 智能运维+可视化:解决运维大数据分析的新思路;

● 通过SLO塑造可靠性;

● 移动云故障快速恢复能力的建设经验分享;

● “TT语音年度盛典”背后的技术保障;

● 浅谈云原生AIOps实践;

● 终端云服务亿级用户业务稳定性保障体系。

● 精准故障注入方法探索;

● 华为云高可用架构设计 提升云上业务稳定性;

● 数智融合:让运维开发者从“消防员”向“建筑师”转型;

● UGC沙盒创意平台的基建建设之旅。

● 人工智能运维的发展与新机遇

● LLM和Multi-Agent在运维领域的实验探索

● 乘云启航,打造面向未来的数字化新零售商业体

● 双轮驱动,构建运维“数循环”

● 数据 + 机理双驱动的智能化运维模型

● 一站式 AI 应用,开启产业智能化转型新篇章

● “三阶一站式”全链路 IDC 云化转型

● 构建预测式运维能力,打造国内连锁便利店领导品牌

● 解读确定性运维“1+N”体系,在标准化运维的基础上开展SRE变革,构建确定性运维能力;

● 构建确定性运维成熟度模型,建立覆盖关键运维活动的流程规范;

● 分享确定性运维体系能力,探索高度确定性运维转型之路,在标准化运维的基础上开展SRE变革,构建确定性运维能力。

● 解读稳定可靠 1+N解读稳定可靠“1+N”能力,“1”套标准化运维体系,“N”个专项能力,在1.0基础上阐述如何“走向确定性运维之路”,从组织、流程、工具能力多方面综合评估,构建确定性运维体系,企业可参考开展,从管理体系和技术体系分别展开。

本白皮书针对混沌工程在商业银行落地过程中如何构建体系化实践方法论、如何评价实践效果、如何建设企业文化三方面挑战,给出了参考方案。

● 解读混沌工程落地挑战;

● 解读混沌工程落地体系研究;

● 解读混沌工程落地体系要点。

● 从行业发展背景、云上成本关键挑战、FinOps框架和行业财务管理解决方案等方面,阐述企业在深度用云阶段,通过云财务管理精细化管理云成本,降低用云复杂度,充分利用云优势增强核心竞争力,全面阐述企业实践FinOps的能力要求,帮助企业将成本管理从理念转向落地,构建长效机制,实现持续优化。

● 案例集涉及不同行业、不同规模和不同运维场景,具有广泛的代表性和应用性;

● 深度剖析企业实际应用运维工作的关键点和难点,助力企业又快又稳云上业务管理,

● 结合优秀案例实践,为行业提供可复制可操作的业务经验,保障企业业务快速增长,赋能千行百业运维变革。

● 从确定性运维1+N能力视角解读优秀案例实践;

● 为千行万业提供可复制可操作的业务经验;

● 助力实现稳定可靠、资源高效、业务敏捷、安全可信。

● 智能运维+可视化:解决运维大数据分析的新思路;

● 通过SLO塑造可靠性;

● 移动云故障快速恢复能力的建设经验分享;

● “TT语音年度盛典”背后的技术保障;

● 浅谈云原生AIOps实践;

● 终端云服务亿级用户业务稳定性保障体系。