尹元,现任“勤智运维”京津冀区域技术经理,曾大量参与企事业单位运维需求调研与规划工作,在运维监控、流程处理等方面有丰富经验。
人工智能是当下最火爆的前沿技术,是计算机科学最值得期待的一个分支,目的是研制出模仿人类思考逻辑和行动的智能化机器。科研人员尝试用各种方式让机器人替代人类从事不同类型的工作,从最开始的重体力劳动到繁复的精密加工到未来替代人类进行逻辑思考。智能化将大大减轻人的劳动,以最少的人工干预完成复杂的工作。
如果将智能化概念引入运维领域将会发生什么变化呢?我们可以想象一下,用智能化程序代替运维人员,能够在最少的人员干预下使用故障探测技术寻找业务运行中的故障点,发生故障时通过问题分析引擎快速定位故障根源寻找解决方案,并能够自动运行预制脚本与工具尝试进行故障的修复,最后还能够根据暴露出来的问题进行深入的关联分析,找出潜藏的隐患并制定解决预案。智能化运维的终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。
运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。 2015 年智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、自动学习等技术的兴起和逐渐成熟,运维需求也逐渐向智能化和自动化过渡。从最初级运维发展到现在智能化运维,可以划分为 4 个阶段:
1、脚本时代
运维人员通过手工的方式做设备巡检,尝试着用SSH脚本等方式进行系统维护。
2、工具时代
运维人员使用各厂商推出一些管理工具,通过使用这些运维工具进行系统管理。
3、平台时代
随着运维工具逐步增多、网络环境异构、信息孤岛逐渐产生等情况,需要一套统一的运维平台将工具进行整合。
4、智能化时代
异构化环境,对数据分析和自动化的要求越来越高,借助海量的运维数据优化改进当前工作方法,日常工作实现无人值守的机器运维。建立在大数据分析和自动化运维基础上的智能化运维时代。
运维的精细化要求越高,就需要积累更多的能力辅助智能化运维场景和策略,实现更多管理途径的扩展。下面,简单举例来畅想下一步趋势。
1、在平台化运维系统的基础上,想要进行多系统、多业务的整合,仅仅通过接口远远不够,还需要更加深入的数据关联,模糊业务系统与运维平台之间的边界。
2、更强大的故障探测能力,能够深入业务多个层次进行故障挖掘,逐层检索业务运行数据,分析业务运行情况,关心业务关键节点,快速发现问题,及时通知运维人员并启动紧急预案。
3、故障紧急预案针对发现隐患、异常、告警、故障、预测等多种运维场景,并提供相对应的解决预案,可以通过自动或者手动的方式快速执行。
4、紧急预案失效时可以提供大数据的强力支持,实时分析问题根源与可能的故障隐患,提供更加快速、正确的故障判断能力。同时,提供自动学习的可能,将现在发生的故障场景记录下来生成新的解决预案。
5、与流程的结合,能够实现整体运维事件的闭环,提供事件的记录、跟踪、处理、反馈等关键节点,保障运维工作高效运行。
以往的简单运维,都是通过相互独立的运维工具或网管软件来实现日常管理,通过不标准的数据和不统一的告警进行人工分析。智能化运维能够将割裂的系统进行整合,并提供标准接口。运维整合,体现在数据的采集、分析、汇总、处理、总结、预案等几个层面。
那么,这些又将如何落地呢?一直从事“一体化智能运维”研究的勤智运维,给出了自己的初步研究成果。
勤智运维以“让运维更智能,让业务更高效”为理念,在业界率先提出基于运维大数据的智能化解决方案,通过OneCenter平台中的ITBA运维大数据分析系统,帮助运维人员预防故障发生和快速解决故障,也可为运维决策提供预测依据。
ITBA运维大数据分析系统是一套可跨平台整合和分析多种业务运维数据的通用性大数据平台。通过对运维过程中每分每秒产生的亿万条海量数据挖掘,它可以获取更多有价值的运维关联信息,从而帮助企事业单位用户找到问题根源和优化改进的关键点。
基于大数据系统的数据采集接入。ITBA运维大数据分析系统内部整合了Hadoop、Speak、Kafka、MongoDB、Solr、Flume等多种大数据架构技术,提供多种类型数据接口的采集方式,实现多平台/多业务的监控、流程等运维工具的数据整合和统一管理。同时,提供对于其他业务平台的数据展现、数据统计、告警分析和业务分析功能,可以将多个系统在门户内进行统一登录展现;也可以与其他系统对接,从第三方系统登录至运维系统平台。
系统提供多种数据接入方式,除传统的数据接口方式接入外,还提供文件批量导入、网络端口同步、数据库脚本抓取、Kafka通道监听等多种便捷的接入方式,也可录入告警数据、性能数据、日志数据、工单数据等不规则格式的动态数据,以实现运维数据的海量存储和集中化检索分析。
通过平台提供的运维操作脚本库,能够在故障发生时自动获取故障设备相关的各项指标数据及指标状态,针对不同类型的告警配置不同的快照以获取脚本和故障恢复脚本,确保相应告警和事件发生时的状态能够详细记录并关联,在必要时能够实现自动恢复、自动化巡检、批量操作作业等运维自动化场景。
运维大数据系统提供构建运维指数评估分析的模型,根据历史数据变化规律,挖掘业务、指标、故障等关联信息,为用户真正建立一套完整的运维数据分析和数据挖掘展现平台。通过运维大数据系统,用户可以轻松管理全网各业务资源状态、告警及运维和资产,并根据数据分析模型了解运维工作整体情况和资源运行使用情况,为用户运维工作优化和IT业务发展提供依据。
在不久的将来,相信通过“勤智运维”及业界的不断努力,终将解放运维人员的双手,告别繁复的操作流程,每个人都能把精力投入到更深领域的研究,喝杯咖啡管理IT。
勤智(北京)科技有限公司,是勤智数码旗下运维业务独立出来的子公司,专业提供运维产品和方案,简称“勤智运维”。作为ITSS副组长单位,“勤智运维”十多年来为教育、政府、金融、电力、互联网、能源、通信、医疗、交通等 20 多个行业的 1000 多个企业用户提供了优质的IT运维方案和服务。
OneCenter一体化智能运维服务管理平台,以统一运维为基础,以hadoop+spark大数据分析为核心,提供基础监控、视频监控、应用监控分析、云平台管理、动环监控及可视化3D机房管理、第三方系统平台集成等运维管理方案,是勤智结合国内外ITSS/ITIL/ISO20000 等IT标准和最佳实践,自主研发的一体化智能运维管理平台。