平台运维过程中,平台用户必然会产生一些问题。在最初运维阶段均是由用户直接与平台运维人员进行沟通,反馈问题或提出一些疑问,如此势必会增加大量的沟通成本,如图1所示。在长期运维过程中会暴露出如下问题。
图1
①不清楚有问题该去找谁解决或找不到人;②无法感知问题处理进度;③沟通成本较高,重要问题无法及时处理;
1.2 运维痛点①内部信息不能有效共享;②问题管理多入口,问题跟踪混乱,重复解决相同问题;③问题处理周期长,交接过程繁琐易遗漏问题;
2. 业务架构 2.1 架构说明问题管理机器人是用于帮助运维人员与用户建立各种类型的问题处理流程,管理所有的问题并跟踪记录这些问题的处理方法,同时为用户提供一个分配、流转和协作处理问题的工作平台。问题管理机器人以解决问题为导向,通过对问题入口的统一,用户侧/运维侧业务入口均为钉钉群。钉钉群分为妲己(用户侧)/纣王(运维侧),客户问题在妲己群中提出并流转至纣王群,由运维人员进行接单处理,如图2所示。
图2
- 依赖钉钉机器人集中管理所有的问题,手机、电脑多终端适配;
- 记录所有问题,保证它们被及时处理并最终解决,避免问题被忽略、拖延或遗忘,并不断累积;
- 从问题被录入开始,便一直有人对其负责,直至问题被关闭;
- 记录问题处理过程的全部信息(如处理人、处理时长、处理内容等);
- 减少大量询问、督促、报告等沟通工作;
- 问题录入:规范化录入模板,由用户直接@机器人进行问题录入;
- 问题查询:随时查询问题,获知问题当前处理进度;
- 问题修改:用户可对问题进行指定问题处理人、评价问题、打回问题、加急问题等操作;
- 问题导出:个人维度支持多种导出选项并将问题导出为Excel,方便进行总结汇报;
图3
- 问题查询:多种查询模式,按照自身需求对问题进行查询;
- 问题修改:运维人员可以对问题进行暂挂、标记、变更状态、更新进度、转交问题等操作;
- 问题导出:全局维度支持多种导出选项并将问题导出为Excel,方便进行总结汇报;
- 进度监控:问题处理时长超时提醒,加快问题处理进度;
- 问题播报:定期播报未解决的问题列表,及时发现其中重要问题;
图4
- 数据可视化:按照问题分布平台、产品、处理人员、数量分布等维度生成报表。
- 问题详情:可以搜索问题详情、处理时长等。
图5
图6
本期为大家介绍了问题管理机器人的设计初衷及目前达到的效果。目前问题管理机器人已服务于数个混合云项目,项目问题跟踪效率明显提升,用户体验提升,大幅降低问题处理过程产生的沟通成本。接下来会陆续给大家介绍封神的其他模块,包括运维大盘、报表分析、时序数据库等相关知识,敬请期待!
参考文档[1] 钉钉机器人:https://developers.dingtalk.com/document/tutorial
相关内容[1] 封神-运维大脑 | 日志检测工具[2] 封神-核心功能 | 钉钉告警+数据网关
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
原文链接:https://developer.aliyun.com/article/784435?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。