云呐统一运维一体机-AIOps的价值是什么

来源：云呐 2021-10-28 11:41:48

　　冲突是事物发展的根源和动力。操作过程中的矛盾无处不在，既有业务和技术之间的矛盾，也有开发与维护的矛盾，数据中心内部也存在着矛盾，要通过发展才能解决。

　　当AIOps开始逐步深入各行各业，不同行业、不同企业的数字化差异开始显现，大部分企业的数据非常分散，数据治理对于业务导向性的场景化及工程化落地难度纷繁多变，因此下半场的AIOps逐渐步入“基于全链AI算法服务的场景弹性组合与闭环”阶段。

生产安全

数据中心的主要职责是安全生产，围绕安全生产三大目标：

　　高可用体系结构：高可用的IT基础结构保证了应用系统的可用性和连续性，包括：应用集群、系统热迁移、数据库群集、存储复制、物理备份等等。

　　有效的操作：在高可用体系结构的范围内，执行一些高效的操作，包括：资源供应，应用部署，日常更改，故障处理，数据治理等。

　　节省成本：在高可用性和高效性的情况下，最大限度地节省成本，包括资源优化，性能优化，以及对降低成本敏感的资源浪费。

运营效率

　　工作主要包括四个方面：

　　资源供应：以前就是针对每一次资源的应用，运维人员必须将机器上架、系统安装、存储配置、网络配置等一系列流程跑一遍，牵涉各专业人员协作，小企业少，两人搞定一切，大企业专业分工明确，这些工作需要多人协作，效率不能保证。目前正在通过云计算来提高效率，主要是池化和自动化，池化意味着提前准备好一批资源，避免每次申请都要做一次准备，自动控制就是通过自动流程来连接各个专业条线，避免通信费用的浪费，以及低效率的人工操作，提高工作效率和人员安全。

　　应用部署：以前就是开发完成交付测试，测试完成后组织投产，开始运行后进行运行，不同阶段人员互相割裂，应用发布部署效率低。DevOps目前主要通过DevOps提高效率，重点是连续的CI/CD，通过CI实现开发到测试的持续集成测试，实现开发到运营的连续系统部署，通过CD完成技术到业务的持续交付。

　　变更管理：以前是人工配合一些工具书，没有系统的思维能力，常常只见树木不见。通过云提高系统外部变更的效率，可以通过自动工具来提高系统内部的变更效率。

　　故障处理：以前就是接到监测告警，逐个专业分析原因，执行应急预案，但存在着许多问题，比如：缺少对故障的预测、错误的报告、分析慢，不能自我修复。目前通过AIOps来解决，实现故障预测、故障检测、根性分析、故障自愈，尽可能少人参与。

智能操作（AIOps）

　　IT运营经历了人工操作、自动化操作、智能化操作（AIOps）三个阶段。人为操作是指人工的协作脚本。自动操作是指系统工具的自动化、人工决策、机器执行。智能操作意味着机器决策的自动化，机器上的决策和执行执行执行。决定取决于推理，而在这一阶段，规则是可编程的，即自动化，而规则就是可学习的叫做智能。

　　AIOps定义：AIOps是指基于现有的运营数据（接入关系、监控报警、日志），利用数据分析和机器学习方法，提高运营决策能力，解决自动化运维无法解决的问题，进一步提高运营效率。AIOps的价值不仅在于提供智能化的运营决策，还在于在执行过程中对现有基础结构、应用关系、监控报警、日志数据等进行整理，实现真正的精细化运营。诚然，AI算法的限制、场景的多样性、数据的复杂性，决定了AIOps是一种人力密集性，这也决定了AIOps无法解决所有问题，需要人机协作和知识图谱来发挥AIOps的最佳价值。

　　数字化操作：信息化是将人工处理过程变为在线处理，数字化是将物理对象抽象成数字对象，通过大数据分析和机器学习算法挖掘数据的价值。海量数据主要通过对海量数据的分析，挖掘数据的价值，会用到一些机器学习算法，机器学习主要强调决策的自动化，依赖的基础也是数据，可以说，大数据分析的基础，AI就是目标状态。AIOps是运营数字化的直接体现。

　　AIOps场景：第一，质量方向，主要是异常处理，包括异常预测，异常检测，根因分析，故障自愈等。效率导向：主要包括批量预测、产能预测、成交量预测、成交量预测。第三，成本导向，包括资源优化、性能优化等。

算法遵从：

　　在这个阶段，由于计算力、算法、数据的共同改进、算力具有普遍性，场景决定数据，数据决定算法，数据决定算法。通常情况下，不同的场景数据是不一样的，即使同一场景的不同环境也有不同的数据，这决定了数据的适配性和算法的多样性。

　　AI算法：机器学习算法，按标注可分为监督、非监督、半监督、强化；根据用途可分为分类、聚类、回归、降维；根据方法可分为统计学、传统机器学习、深度学习等。在这些领域中，统计（例如，正态分布，均衡分布）要求数据必须符合一定的分布情况，用于异常探测领域，包括运营领域的错误处理、金融领域的反欺诈以及工业领域的残次品检测。常规机器学习（例如：kmeans、随机森林、支持向量机、贝叶斯、决策树、Malkov等），尽管对数据要求不高，但是对场景有很强的依赖性，即使是同一场景的不同环境，也需要不同的模型，在数据分析领域用的比较多。深度学习（如CNN,RNN）对于数据的要求很高，因为它需要更多的数据来训练深度神经网络，神经网络深度抽象表达能力较好，也决定了场景适应能力较强，主要应用于图像技术、语音技术、自然语言处理三大领域。

　　AIOps算法：做异常处理的时候，主要是概率分布和聚类，由于GT较少，分类较少。进行预测时，可采用多维线性回归模型，线性回归简单，但鲁棒性较差；也可采用一种基于深度学习的非线性模型，一种对数据要求较高，另一种是需要监督学习的，也可能是传统的贝叶斯模型，但是预测一般。

　　方案为王：研究一般问题，寻找一个更优的算法，工业部门除了要解决一般问题外，还要解决更多的个性化问题。对于算法，产品，解决方案，应用场景，生成价值，算法只是一个开始，研究新的算法，解决一般问题，尽管很重要，利用现有的算法，解决个性化问题，给出完整的解决方案，才是关键。

　　非零基构建：AIOps是建立在已有基础结构上的智能大脑，它依赖于现有的眼睛（应用存取关系、监视报警、日志）和手（云和自动化工具）。眼睛数据主要是应用访问关系，企业基础结构成熟，已积累应用访问关系，尚未成熟的企业，需要借助AIOps对数据进行整理；其主要内容包括设备监测数据、网络监测数据、系统监测数据、平台监测数据、应用监测数据、业务指标监测数据等是有组织的时序数据；各系统具有其自身的非结构化日志数据，不利于进行统一分析。其操作主要是在外部系统进行，可通过云平台（IAAS和PAAS）来实现，AIOps是在现有数据的基础上，进行分析、推理、决策，然后利用已有的手工操作。

监督管控

　　规制需求的“稳定器”是一把双刃剑，一方面保证了企业的安全稳定运行，另一方面又阻碍了技术创新。作为金融业的一个例子，强调严格控制，严格遵守ITIL的流程标准（发布管理、配置管理、变更管理、问题管理），追求一个稳定的状态。但是，不管是云计算，还是DevOps，还是AIOps，技术革新正在寻求敏捷的状态，常常对法规的需求提出了挑战。任何违反管理规定的行为，在监管面前都是一票否决。在现有的管理框架下，我们可以寻求折中办法，比如，在严格遵守ITIL严格控制流程的同时，将所有人工过程优化成自动化的过程。

云呐结合十五年行业服务领域经验，为企业提供集数据库监控、服务器监控、动环监控、智能运维、日志分析等一体化的运维集中运营生态圈。

　　云呐设备全周期统一运维一体机是一个统一操作平台，采集各维度运营数据，打破互联信息孤岛，提供可视化、自动化、智能化的运维数字化服务。通过平台管理和运维从内部到边缘的各种设备，为您的IT团队和终端用户提供更好的体验。

　　一体机7*24H无缝值守，秒级告警监控，极速性能感知，故障自动通知，并结合ITIL、DevOps理念，内置符合需要的流程场景，支持流程自定义调整，提升流程处理的协作能力。

　　相比传统产品，一体机在管理中具有难度更低、管理简约、场景丰富等特点。

免费试用：点我开通试用

智能运维品牌

招募合伙人

扫码快速提交

咨询热线

咨询热线

钉钉版试用

钉钉扫码开通

系统体验

联系客服