云运维是什么

ODS View IT大数据运维平台,基于大数据技术、智能分析和可视化展示为基础开发的一套解决海量运维数据分析难题的系统平台。

通过采取主动的运维分析和实时态势感知,有效整合网络、服务器、业务应用、机房基础环境、日志、资产等方方面面的管理。

一个管理平台监测整体IT系统,用于解决企业IT运维工作所面临的全方面需求。

全面的性能及故障告警管理

能够提供对现在所有的设备和服务质量进行实时监测,并且提供动态阈值的告警,实时的准确的告警,减少延迟和误报。

统一的资源管理

需要有统一的监控平台,可以把所有业务相应资源视图抓取出来,便于我们对整体资源有一个合理的预估和分配,并从整体角度评估各个业务部门对资源的使用情况。

集中统一展现管理

把很多不同的监控子系统集成起来,借助于各种工具,采集数据之后自动合成一个报表统一展现出来,方便管理

云运维平台架构图

云运维平台的应用场景

生命周期管理

第一个是生命周期管理,以前在一个部署过程中,通常是开发人员写一个是需求文档给运维接口人,他会协调各资源管理员分配资源形成部署方案,最后将这个部署方案通过人工构建变更的方式实施。这里面有两个问题,一是传递过程中可能偏差,二是周期比较长,我们希望借助我们的云运维平台实现参数级别的电子化传递,以及由平台进行一个自动化的部署,并在部署过程中自动进行各项规范标准的实施。

持续部署管理

第二个场景是持续部署管理,传统部署方式我们会遇到一些问题,包括:应用版本通过版本服务器多次人工传递,各应用的配置、维护脚本没有统一标准;通过表格人工维护各环境的参数差异,不同环境人工修改参数;应用的安装过程视变更人员经验,异常告警没有统一标准,回退方式不统一等。为此,我们做了一个持续发布的标准,而且将这些标准借助这个平台可以实施,包括:统一版本传递路线,版本标准化;构建生产、测试、研发环境配置差异库,平台根据所在环境自动生存对应参数;标准化应用部署过程,多节点安装顺序自由编排,按照编排顺序进行安装;标准异常告警;故障时按照编排顺序逆向回退。

运行环境管理

第三个场景是我们的运行环境管理,包括资源类的CPU、内存、IP、端口、访问关系等,以及我们运维人员关注的,定时任务、备份策略、自启动项目等。我们通过云运维平台对运行环境进行管理,替代原有excel表格,并进行自动化设置。

运行环境维护

第四个场景是是常用运维工具集成,包括我们常用的应用重启、健康检查、隔离、恢复工具,服务器的一些物理测试和自动装机后自动接入OpenStack或者其它资源管理平台的自动对接,网络设备的健康检查,还有一些定期的安全检查,我们把这些工具集成在我们的云运维平台上。

画像场景

我们在云运维平台里面,借助我们之前提到的各种产品管理工具,容量管理和高可用管理,我们放在一个视图的画像里面,根据变迁维护历史以及应用的容量、高可用信息,还可以计算出这个应用他的运维方面的成熟度。

云运维采集能力及机房实景

云运维的优点

可视化管理

可以提供可视化管理,并且可自动同步用户当前使用的云资源,自动构建云架构的拓扑。

集成/优化工作的负载

可以集成/优化工作负载,由于混合云资源通过单一管理点进行管理,可以免去多平台来回切换的困扰。

自动编排

可以对云资源自动编排,并且可以一键构建业务应用环境,轻松应对企业所需的业务扩展。

监控和告警

可以实现深度监控,个性化的监控指标和告警策略,可自定义的监控目标,帮助企业时刻掌握业务健康状况。

自动化运维

可以自动化运维,从而实现混合云场景在线作业统一部署,提升运维效率。

大数据分析服务

可以提供大数据分析服务,流量分析检测服务,从而实现以数据应万变。

©深圳市中科鼎创科技股份有限公司 版权所有 粤ICP备14010718号