运维平台管理办法

2022-08-11

第一篇：运维平台管理办法

ITIL已成为IT运维管理平台的事实标准

CBSi中国•PChome 责编: 邹震 2009-11-02

摘要：ITIL 是IT 运维的事实标准，ITIL 的流程和原则通过规章制度的方式定义和实现，通常要借助工具软件帮助其落实，在国内，这些工具软件被统称为IT 运维管理平台。

随着信息化的不断发展，企业越来越多的依赖PC、LAN、服务器、防火墙等互联网技术，IT系统发展至今已经成为业务系统不可或缺的支撑基础，业务系统借助IT系统帮助企业更高效的服务于客户及市场，IT系统不单纯只是零散孤立的软硬件设备，为了更好的保障业务系统持续运行，IT应用系统已经上升到了IT服务管理层面。

IT服务存在的问题

在传统的IT管理模式下，缺乏适用的自动化管理流程，导致IT服务管理能力低下，从而使IT服务存在诸多问题：

* 传统监控方式过于分散，监控相互独立，故障的不能准确定位;

* 关键配置信息登记不完善，系统配置散乱在各种资料中，没有进行统一的管理; * IT资源管理混乱，领导层无法清晰了解资产的变更、使用等情况; * 系统升级变更后业务不稳定;

* 运维管理效率低下，相似问题屡屡发生，IT运维人员疲于奔命;

* 知识分散，信息中心过度依赖某个人，人员流失能影响故障解决速度; * 人员技能要求增高;员工工作考核无法量化，有的人很忙，有的人很闲; * 缺乏以客户为中心、以流程为导向，面向业务体验的运维模式„„ ITIL产生的效益分析

为了更好的让IT服务于用户，让运维人员不至于沿用“被动响应、救火队”的服务支持管理模式，英国CCTA(现OGC)于20世纪80年受英国政府的委托，组织开发了一套提高IT架构有效管理、经济使用支撑业务运行的IT资源的标准——ITIL，ITIL自诞生之初就引起了众多政府、企业的关注，企业、政府组织纷纷加入进来使用ITIL、雕琢ITIL，到如今，ITIL已经经历了V

1、V

2、V3三个版本的变迁，已经拥有了数万个政府、企业的用户，可以说ITIL已经成为了IT服务管理的最佳实践标准。

ITIL能够风靡全球，原因在于“以客户为中心，以流程为导向”，ITIL定位在面向终端用户，关注客户体验，为业务与技术搭建沟通的桥梁，确保政府、组织、企业的战略推动的实施。ITIL定义了企业IT系统计划、研发、实施到运维的最佳实现流程和管理原则。以下是应用ITIL可能产生的效益。

ITIL对用户的效益分析

1、ITIL是以客户为中心的，实施ITIL之后，用户的IT服务质量可以得到很大的提升，从而提高用户的客户满意度。

2、服务内容可以以客户的语言和更为恰当的详细程度得到更好的描述。

3、通过实施ITIL，可以对服务质量、可用性、可靠性和服务成本进行更好的管理。

4、通过实施ITIL，可以更好的让企业提升IT服务质量的改进，还可以对采纳基于ISO20000系类标准或BS 15000的质量管理体系提供支持。

5、ITIL为内部沟通和外部供应商沟通，以及程序的标准化和识别提供一个一致的参考框架。

ITIL对IT部门的效益分析

1、通过实施ITIL，IT部门可以全面监控网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源。

2、更加有利于IT部门对其负责的IT资源进行管理。

3、ITIL流程可以对日常运行维护工作(或外包作业)提供一个管理框架。

4、通过ITIL规范的服务台，可以建立一个更好的IT部门与业务部门沟通的平台。

但是，ITIL仅仅只是IT运维的事实标准，ITIL的流程和原则通过规章制度的方式定义和实现，通常要借助工具软件帮助其落实，在国内，这些工具软件被统称为IT运维管理平台。

IT运维管理平台是遵循ITIL理论，同时根据用户自身的特点而构建的，IT运维管理平台通过整合以往对网络、服务器与业务应用等IT基础设施的管理，通过基础监控平台提供的接口实行有效对接，帮助用户建立全面完整的、以业务价值为核心的基础监控和统一展现管理平台，为IT服务管理提供足够的管理元素，帮助管理者从不同角度、不同层面去了解系统运维状况，从而帮助用户实现对IT服务基础支撑系统的透彻管控。

广通信达科技有限公司总经理徐育毅认为，IT运维管理平台的作用从信息部门工作重点来讲，就是需要保障IT数据的连续性，保障业务数据保存正常、保障业务的连续性。业务部门最直接的要求总结起来就是——网络不断、系统不瘫、数据不丢。

IT运维管理平台不但要满足业务部门的需求。还能切实解决用户的实际问题，比如对信息中心主管而言，他需要将信息部门工作向决策层汇报，IT运维管理平台可以提供一种计算方式、或者一种表格、让信息中心主管来量化整个信息系统运行情况，同时产生一系列数据向决策层汇报信息部门运营情况。

IT运维管理平台不仅仅是一种提升IT服务质量的手段，更应该帮助用户导入一种服务管理思想、过程方法、制度体系。IT运维管理平台是ITIL落地的工具，实施ITIL是一个循序渐进的过程。它有初期、中期和远期三个阶段。初期一般只实现服务台、事件管理和配置管理。虽然这只是一小部分的流程，但走好这一步不仅可以提高ITIL实施的信心，而且能够为以后的实施打下牢固的基础。

中期的目标是建立问题管理、变更管理、发布管理、安全管理、继续优化或强化配置管理以及IT服务管理中部分的管理流程。在完成初期和中期的ITIL流程实施之后，IT运维基本可以实现可控和在控。可控要求的是基础IT运维有流程、有职责;在控则是要求在可控的基础上进行扩展，在完善IT服务管理流程的同时建立IT服务管理的部分管理流程。

Broadview IT运维管理平台是遵循ITIL，结合国内现状与广通实践经验，建立的以服务流程为驱动的管理平台。通过标准化的建立，IT运维管理平台定义了服务台、事件管理、问题管理、配置管理、变更/发布管理等在内的服务管理流程，能够为用户提供运维过程中的流程化处理的IT服务管理解决方案，通过各流程环节的工单形成IT服务的闭环管理，将人员、流程和技术有机地结合起来，将管理、监控和考核有机地结合起来，提升用户整体的运维管理水平。

IT运维管理平台实施之后，就会形成一套完整的流程。当机房环境发生变化时，系统会通过告警台进行预警，IT运维人员第一时间就能知道业务系统中断了，值班人员通过智能化的告警处理中心提示的内置故障根源分析作出处理，恢复业务系统正常运行。如果不能处理就将故障事件派给相应的IT运维人员，IT运维人员解决问题之后将结果反馈给服务台，所有的配置项信息都储存在配置管理库里，以备查看，事件工单关闭。

同一事件经常发生之后，服务台或IT运维人员就会将此事件作为问题来处理，或者在日常巡检或趋势分析中也可以找到潜在的问题，这时就会启用问题管理，问题工单会派给相应的IT运维人员将事件频发的根源找到并作出处理，消除隐患、彻底解决，避免以后人力浪费在解决同样的事件上。

如果发现问题的根源是软、硬件设备问题造成的，这时需要对软、硬件进行更换或者升级，就不得不提到变更管理。之所以此处添加变更管理，是因为软硬件的变更是具有风险的，可能会影响到整个业务系统，比如常见的软件升级存在的风险就很大，很容易就会升级失败导致业务系统中断，所以变更管理需要经过有效评估，复杂的变更管理还需要变更委员会确定变更计划是否可行、操作是否得当、是否会影响到业务系统、需要在变更前对于预见的风险做好哪些必要准备，变更委员会同意进行变更之后，再由运维人员按照规范进行变更操作，如果是软件的变更会有新版本的升级发布。最后，将所有的问题解决、变更、发布管理涉及到的配置项信息都需要到配置管理库进行记录和更新，最后返到服务台关闭问题工单，形成完整的工作流程。

IT运维管理平台遵循ITIL标准，能将各种IT 管理活动按照流程的方式加以组织，并且赋予每个流程以特定的目标、范围和职能，从而加强了IT 管理的全面性和综合性，使IT 对用户业务系统的支持更为彻底和有效。同时在实施每个管理流程时从客户需求的角度出发，强调根据客户的需求对IT 进行“量身定做”式的管理，通过提供高品质的IT 服务提高客户的满意度。

第二篇：自助学习平台运维检查情况通报

自助学习平台运维情况检查

通报

4月7日上午，学校教科室和值周巡查小组一起深入各班级就自助学习平台运维情况进行了检查，现将结果简要通报如下：

一、检查对象与内容

重点检查了各班自助学习平台运维情况，特别是新学期平台第一期节目的制作、发布与播放情况。

二、检查依据

本次主要依据《竹溪县城关中学自助学习平台运维方案》中的要求对照检查，并根据“未开机的只记40分，开机但节目未更新的记60分，重新做的新节目至少70分以上”进行百分制量化打分，然后取平均成绩再除以10算作班级得分，年级汇总后又除以班级数算作年级得分。

三、基本情况

1、年级间差异较大。从检查情况看，

七、八年级行动较积极，特别是八年级整体情况蛮好，九年级则投入不够，显得较为滞后，多数班级不开机。

2、班级节目制作水平差异也很明显。如本次评比中七(1)、八(6)班版面美观和谐、主题鲜明，八(9)、八(8)、八(7)、八(3)、七(4)班内容较为丰富，值得其他班借鉴。

3、学校“主题鲜明”这一新的要求在大多数班级得到较好体现，如七(6)、八(3)班的星空版，七(1)班的安全版，七(3)、七(5)、八(4)班的励志版，八(5)、八(7)、八(9)班的感恩版，八(6)班的勤奋版，七(4)、八(2)班数学版，八(1)班文学版等都很好的突出了主题。

四、存在的主要问题与整改意见

1、把主页在做得美化些。如七(8)、八(7)班等可以考虑把主页再进行修改。

2、内容再丰富些。

3、适当体现班级文化。

4、班主任强化责任意识，不拖不欠，积极投入，保质保量保运行。特别是九(4)、九(5)、九(6)和九(7)班出现强行断电关机现象，这将可能造成软件崩溃、甚至硬件的损坏,如再出现此类情况引起终端不能正常云行，学校将责成相关班级班主任负责组织维修(已经过了保修期，厂家不再负责)。

2017.4.7

第三篇：网首IT运维服务平台技术白皮书

北京金商祺科技股份有限公司

网首IT运维服务平台技术白皮书

201207

网首IT运维服务平台技术白皮书

产品概述 ................................................................................................................................... 1

产品背景 ........................................................................................................................... 1 产品定位 ........................................................................................................................... 1 系统构架 ........................................................................................................................... 1 技术优势 ........................................................................................................................... 1 基础网络管理功能模块介绍 ................................................................................................... 2

拓扑自动发现与计算 ....................................................................................................... 2 拓扑管理 ........................................................................................................................... 2 拓扑展示 ........................................................................................................................... 3 网络设备管理 ................................................................................................................... 4 交换机端口状态管理 ....................................................................................................... 4 IPv6管理 ........................................................................................................................... 5 无线网AP监控与管理 .................................................................................................... 5 网络设备自动扫描发现功能 ........................................................................................... 6 批量修改和批量删除功能 ............................................................................................... 6 数据查询服务 ................................................................................................................... 7

已删除地址查询 ....................................................................................................... 7 按房间查询 ............................................................................................................... 7 按墙插编号查询 ....................................................................................................... 7 按IP地址查询 ......................................................................................................... 8 按MAC地址查询 ....................................................................................................... 8 按设备端口查询 ....................................................................................................... 9 查看路由表工具 ............................................................................................................... 9 查看ARP与FDB(MAC)表工具 ................................................................................... 9 IP与子网管理模块介绍 ......................................................................................................... 10 IP地址资源管理 ............................................................................................................. 10 子网使用情况统计 ......................................................................................................... 10 子网地址利用率排名 ..................................................................................................... 11 剩余地址段情况统计 ..................................................................................................... 11 IP地址使用情况统计 ..................................................................................................... 11 IP频繁变化排名 ............................................................................................................. 12 在线用户情况监测 ......................................................................................................... 12 交换机端口利用率统计 ................................................................................................. 12 网络流量监控与管理模块 ............................................................................................. 13 服务器监控与管理模块 ......................................................................................................... 13 服务器与应用自动扫描发现 ......................................................................................... 13 服务器监控与管理 ......................................................................................................... 13 服务器运行状态监控 ..................................................................................................... 14 服务器内部监控 ............................................................................................................. 14 监控与告警模块 ..................................................................................................................... 14

网首IT运维服务平台技术白皮书

邮件告警 ......................................................................................................................... 14 短信告警 ......................................................................................................................... 15 设备告警日志查询 ......................................................................................................... 15 ARP监控与告警 ............................................................................................................. 15 延时与丢包实时监控功能 ............................................................................................. 16 链路流量TOP10监控 .................................................................................................... 16 端口流量实时监控功能 ................................................................................................. 17 收发包错误监控 ............................................................................................................. 17 自定义监控图 ................................................................................................................. 18 运维管理模块 ......................................................................................................................... 18 运维事件类型管理 ......................................................................................................... 18 事件管理 ......................................................................................................................... 19 运维数据统计分析 ......................................................................................................... 19 网络设备配置自动备份功能 ......................................................................................... 19 知识库管理 ..................................................................................................................... 19 报表查询管理 ................................................................................................................. 20 机房环境监控与布线管理 ..................................................................................................... 21 园区、建筑、机房管理 ................................................................................................. 21 配线信息管理 ................................................................................................................. 21 机柜管理 ......................................................................................................................... 22 机房拓扑 ......................................................................................................................... 22 机房环境监控与管理 ..................................................................................................... 23 视频监控管理 ................................................................................................................. 25 资产管理 ................................................................................................................................. 25 项目与合同管理 ............................................................................................................. 25 资产管理 ......................................................................................................................... 25 SYSLOG汇总分析模块 ........................................................................................................... 26 SYSLOG实时采集过滤查询............................................................................................ 26 日志归档保存 ................................................................................................................. 26

网首IT运维服务平台技术白皮书

产品概述

产品背景

随着互联网和计算机技术的发展以及信息化建设步伐的不断加快，各行业都开始大规模的建立和使用网络，并且越来越多的单位对网络办公、各种在线的信息管理系统的依赖程度不断增加。网络的使用者不仅仅是在数量上增长迅速，同时对网络应用的需求也更加多样化，因此网络的运维和管理比以往任何时刻都显得更加重要。如何才能高效的运维和管理网络成为各个单位网络或者IT部门面临的一个难题。

产品定位

网首IT运维服务平台正是为了解决在产品背景中描述的问题而设计和开发的。系统包含了网络设备管理、服务器与应用管理、监控与告警管理、网络运维调度管理、机房与布线管理、机房环境监控、资产管理等几个模块，将以往需要人工或者从多个不同渠道和系统收集的信息通过一个系统进行整合;同时系统提供的协同工作平台使得网络管理人员之间的信息传递?共享?的有效性大大增强，将以往各种复杂的网络管理工作简单化、自动化，在极大的提高网络管理的效率同时提高网络服务的质量。

系统构架

网首IT运维服务平台采用基于64位Linux操作系统以及mysql数据库进行开发，采用纯粹的B/S构架(不需要安装第三方插件或者java虚拟机、兼容各种主流浏览器，包括手机浏览器);WEB展现部分与业务逻辑分离，用户可以自己定制WEB界面;支持分布式数据采集;采用基于角色和分组的权限管理方式，用户可以根据自己单位的管理模式任意制定角色和分组，从而做到权限的横向纵向的任意划分。

技术优势

1. 支持不同厂商的设备

不仅支持思科、华为、H3C、锐捷、神舟数码、中兴、juniper、extreme等厂商的网络设备，同时支持allot、acenet等厂商的安全流控设备。 2. 高可靠性、高稳定性、高安全性

基于Linux操作系统和mysql数据库，不用担心病毒与升级打补丁的麻烦;支持https，保证数据的传输安全。 3. 高性能

基于64位操作系统开发，优化系统配置和自定制内核，发挥64位的最大优势 4. 用户、角色、权限自定义

网首IT运维服务平台技术白皮书

采用基于角色和分组的权限管理方式，用户可以根据自己单位的管理模式任意制定角色和分组，从而做到权限的横向纵向的任意划分。 5. 对IPv6具有良好的支持

系统可以在IPv4和IPv6双栈方式下运行，也可以在纯IPv6网络上运行。可以监测用户的IPv6使用情况以及统计数据。 6. 对服务器的监控采用被动方式

对服务器监控不需要在服务器上进行任何的设置，系统根据服务器对外提供服务的情况依据协议规定进行外部探测。

7. 整合资产管理和工作流事件处理

对网络设备管理的同时增加资产管理和统计报表功能，使得对设备使用情况有更好的了解，网管结合工作流处理提高效率。 8. 整合机房环境监控与布线管理模块

采用自行设计开发的传感器通过网络对机房、配线间的环境(温度、湿度等)进行实时控和数据记录、结合系统告警功能对环境变化进行实时告警，将布线系统和网管系统结合，提高网络管理的效率。

基础网络管理功能模块介绍

拓扑自动发现与计算

系统支持自动拓扑发现功能，可以进行二层和三层设备的拓扑自动发现，同时对思科设备支持CDP算法拓扑发现。

拓扑管理

可以根据网络的具体情况和用户的使用习惯任意定义网络拓扑图，将任意区域的网络设备放置到一个定义好的拓扑中进行展现。

网首IT运维服务平台技术白皮书

拓扑展示

使用flex对拓扑信息进行实时展示，动态显示拓扑中每台交换机当前的状态，每条链路的双向流量，并且用不同的颜色区分链路带宽的使用情况，根据用户定义的告警级别阀值给出告警信息。

通过拓扑图可以选择查看交换机的各种信息，包括端口信息、配线信息、端口状态、用户情况等;如果拓扑图中设备的下级设备(没有显示在本级拓扑中)出现故障，也会在当前拓扑中得到告警体现，同时可以直接从本级拓扑展开到下一级拓扑中。

网首IT运维服务平台技术白皮书

网络设备管理

可以查看交换机IP地址、描述、厂商、类型、当前状态、在线用户、端口状态、链接关系等信息，也可以直接通过IP查找交换机。

交换机端口状态管理

可以查看被管理交换机的端口列表，包括该交换机所有的物理端口的端口名称、MAC地址、当前的管理状态、当前的链接状态、链接速率、当前该端口下链接设备的设备的MAC地址情况以及历史上曾经出现在该端口的上的MAC地址使用情况、与该端口互联的设备的IP地址，如果是接入层设备会显示该端口接入的建筑物与房间号等信息。

网首IT运维服务平台技术白皮书

IPv6管理

对网络设备中支持IPv6的三层设备可以开启IPv6管理与监控功能，实时收集网络中IPv6地址的使用情况，包括用户的IPv6地址，与其对应的MAC地址，所在交换机端口，结合布线信息可以直接定位IPv6用户所在房间等信息。

无线网AP监控与管理

随着网络的发展，无线网在日常工作中的地位越发显得重要，很多单位已经实现了大面积的无线网络覆盖，但是对于无线AP的监控和管理一直处于空白状态。本系统提供了对无线AP监控的方式，用户可以对网络中AP的在线状态进行监控，如果采用POE方式还可以设置对故障AP实施自行重启。系统设计专门针对目前主流的瘦AP+控制器的方案，有效的解决了瘦AP的IP地址不固定等影响监控的问题。

网首IT运维服务平台技术白皮书

网络设备自动扫描发现功能

可以对指定的IP地址或地址段的设备进行批量扫描和初始化，自动识别该地址段内的设备信息，包括设备的厂商、型号、端口信息等。本功能支持并发操作，并且用户可以根据服务器的性能自己定义并发数据大小，极大的提高了扫描效率，节省初始化时间。

批量修改和批量删除功能

为了方便用户操作，系统支持对交换机进行批量修改和删除操作，可以对指定的交换机进行二次筛选，对需要修改的项进行批量的修改或删除。

网首IT运维服务平台技术白皮书

数据查询服务

在建立了完备的网络和设备信息档案以后，就可以在日常维护工作中大大的提高工作效率。对于管理员来说，日常维护中大量的工作内容就是故障的排除和维修，通过系统这里提供的数据查询功能，就可以实现故障点的快速识别、定位和对故障原因的初步判断识别。

已删除地址查询

所谓已删除IP是指该IP地址以前在某个设备上被使用过，后来由于设备调整，该IP被释放掉了，但是系统中仍然会记录着原来使用这个IP地址的设备的日志信息，是可以通过该模块查询出来的。

按房间查询

在日常报修事件中，更多的情况是某个人说自己所在的房间无法上网了，这时就需要根据其所在位置来查找问题的原因。在本模块中，可以根据具体的房间信息来查询设备和连接状态。然后逐步排查问题的所在。

按墙插编号查询

当某个房间内的用户报修说自己的电脑无法上网时，如果连接其电脑的网线插入的墙插有编号信息，也可以根据墙插编号来查询该节点的设备和连接信息。

通过输入建筑物信息和墙插编号，可以查看到该墙插连接的接入交换机信息，以及对应的设备端口上的当前和历史访问记录。

网首IT运维服务平台技术白皮书

按IP地址查询

该功能很适合用来追查恶意访问者行为，如果某个人通过某个地址发表了不良言论或者是从事了违法行为，可以通过其访问服务器时的IP地址，追查到使用者的方位。

按MAC地址查询

很多单位由于大量使用无线接入点，所以会有通过DHCP方式获取地址的大量终端，这时候由于IP地址不固定，使得我们在追查某个设备行为的时候只能依赖其设备MAC来定位。

网首IT运维服务平台技术白皮书

按设备端口查询

当检测到某个设备的端口流量发生异常的时候，么可以通过查询交换机的特定端口，查询出该端口接入点和当前以及历史的接入信息，有助于排查发生流量异常的原因。

查看路由表工具

可以通过系统直接查看三层设备的路由表，包括网络地址、子网掩码、路由类型、下一跳地址。

查看ARP与FDB(MAC)表工具

可以通过系统直接查看设备的ARP表与FDB(MAC)表，并且可以根据MAC地址将两张表自动关联，直接显示IP、MAC、二层设备端口的对应关系。

网首IT运维服务平台技术白皮书

IP与子网管理模块介绍

IP地址资源管理

随着网络规模的不断扩大，网络管理部门要应对的不仅仅是网络设备的增加，同时也要管理更多的IP地址与子网，对于大量的IP地址分配和子网的划分需要有一套高效的信息系统进行管理，该模块就是针对这个应用场景进行设计的，提高IP与子网的管理效率。

子网使用情况统计

可以自动发现网络中划分的子网信息，包括网络地址、子网掩码、三层设备地址、VLANID、可用的IP地址数、当前子网内使用的IP地址数、历史上曾经使用的IP地址情况等信息;同时可以增加管理员自己维护的信息，如分配情况等。

网首IT运维服务平台技术白皮书

子网地址利用率排名

可以按照每个子网当前或者历史的地址利用率进行排名，使得管理人员更容易了解每个子网的IP地址使用情况。

剩余地址段情况统计

根据用户可以使用的子网信息以及系统扫描到的子网信息自动计算剩余的IP资源，并且以聚类后的形式给出。

IP地址使用情况统计

可以对一段IP地址的使用情况用图表的方式进行显示，显示本段地址中正在使用的和从未使用或者是曾经使用过的IP。

网首IT运维服务平台技术白皮书

IP频繁变化排名

如果一个IP地址在很短的时间内经常在不同的交换机端口变动或者使用该IP的主机的MAC地址不断的变化说明存在IP冲突或者IP地址不够的情况，系统可以自动监控全网此类IP异动，为网络管理人员及时发现问题提供了一个良好的工具。

在线用户情况监测

可以实时监控和记录整个网络的用户使用情况，使得管理者清楚在不同的时间段网络用户数量的变化。

交换机端口利用率统计

可以根据时间、建筑物、交换机等统计交换机端口使用情况，并且按照使用率高低进行排序，使网络管理者及时有效的掌握交换机端口使用情况。

网首IT运维服务平台技术白皮书

网络流量监控与管理模块

系统可以自动监控收集拓扑中交换机各条链路的流量信息，支持按照日、周、月、年进行流量图绘制，支持链路汇聚。

服务器监控与管理模块

服务器与应用自动扫描发现

可以通过对给定IP地址范围内的服务器进行扫描，发现服务器以及服务器上的标准应用，如FTP、WEB、telnet等。

服务器监控与管理

对网络中心管理或者在网络中心托管的服务器进行监控和管理，包括对IP地址分配，服务器运行状况、服务器描述、操作系统、管理员、服务器配置等信息进行管理。

网首IT运维服务平台技术白皮书

服务器运行状态监控

通过flex实时监控服务器的运行状态以及服务器上应用的的运行状态，可以实时展示服务器当前的运行情况。

服务器内部监控

通过配置服务器SNMP协议可以更深入的了解服务器的运行情况，包括服务器的CPU利用率、内存使用率、磁盘IO情况、网络流量情况等信息，并且可以根据信息画出跟踪图表，使得监控效果更加清晰。

监控与告警模块

邮件告警

系统支持邮件方式进行告警，可以设置邮件服务器，然后针对设备和告警级别选择对应的告警邮件接收用户。

网首IT运维服务平台技术白皮书

短信告警

系统支持短信告警，既支持网络发送短信，也支持将短信模块直接挂载在服务器上使用，既节约了短信成本又提高了短信发送的可靠性。

设备告警日志查询

系统会记录各种设备的告警日志信息，提供按照IP地址和时间段进行查询的接口，使得用户更好的定位各种设备告警。

ARP监控与告警

系统会实时监控交换机当前的ARP表，对于一个MAC同时占用大量IP的设备进行监控，同时直接定位该主机所在位置，对于网络管理人员对ARP攻击和欺骗的追查提供了便利的手段。

网首IT运维服务平台技术白皮书

延时与丢包实时监控功能

可以对网络的重要节点(重要的路由器、服务器、监控点)的延时(ping的响应时间)和丢包率做实时监控，设定告警门限值，当丢包率或者延时超过门限值时自动告警，并且可以将系统的记录以图表的形式展现，有助于用户对网络基础数据的掌握。

链路流量TOP10监控

可以对每条链路的流量情况按照绝对值大小和使用比例两种发方式排序，给出流量最大或者是使用率最高的前10条链路，使用户很容易找到网络带宽的瓶颈所在。

网首IT运维服务平台技术白皮书

端口流量实时监控功能

对于交换机出现异常，如CPU利用率居高不下、转发能力下降等情况，传统的处理方法一般是对交换机端口进行折半关闭处理，既浪费时间也难准确的定位出问题的端口。本系统提供了一种全新的方式处理此类事件，将关注交换机端口的数据按照一定的次序排序展现给管理人员，可以有效的帮助判断出问题的端口。

收发包错误监控

由于设备接口老化或者线路老化以及介质接触等原因会使得设备在互联端口上出现收发包错误的情况，这种情况通常很难被发现，但是却严重影响网络质量。系统提供了一个全自动监控全网链路收发包错误的功能，可以时刻查看存在收发包错误的端口，同时可以查看端口收发报错误的历史数据。

网首IT运维服务平台技术白皮书

自定义监控图

可以根据用户关注的重点任意组合端口的流量图、节点的延时丢包率统计图、传感器温湿度监控图或者其他图表到一个自定义页面做统一的展示和监控。

运维管理模块

运维事件类型管理

可以根据网络运维需要处理和应对的事件自行定义类型，系统根据事件类型自动分类汇总事件的统计结果。

网首IT运维服务平台技术白皮书

事件管理

系统用户可以根据业务流程添加日常运维事务，事务可以由添加的用户直接处理，也可以转交其他用户处理。

运维数据统计分析

可以将历史运维数据进行分类汇总和统计分析，从而了解运维的整体状况，与系统监控告警结合可以更好的为网络建设提供可靠的依据。

网络设备配置自动备份功能

可以根据用户定义的策略(每天、每周等)自动备份网络设备的配置文件，并且可以从网管系统直接选择相应设备的配置文件推送到用户桌面，可以大大节省用户对网络设备配置备份付出的人力成本，也避免了由于用户疏忽造成的修改配置不能及时备份的错误。

知识库管理

面对日趋复杂的IT应用，多种多样的IT需求，如何提供高品质的IT运维支持，成为众多企业关注的核心问题。很多的运维问题都可以通过知识库中已有的内容得到解决。系统提供了一套完整的知识库体系，可以根据自己运维的方式和内容自定义知识库结构。可以按照分类和内容方便的检索知识库内容，支持各种格式的附件功能。

网首IT运维服务平台技术白皮书

报表查询管理

通过查看报表的功能，可以对全局流量进行某时间段的流量总量统计查询，让管理人员更直观、更清楚的知道各部分网络的流量情况。报表种类丰富，包含了交换机CPU、服务器、传感器、告警的报表。

网首IT运维服务平台技术白皮书

机房环境监控与布线管理

园区、建筑、机房管理

系统可以根据用户网络的实际情况分别按照园区、建筑、机房、机柜、配线架进行系统的管理，也可以定位每个设备和接入点的具体位置。

配线信息管理

系统可以按照配线间、机柜、配线架管理配线信息，配线信息可以和交换机网管系统联动快速定位接入点位置和接入交换机情况。

网首IT运维服务平台技术白皮书

机柜管理

可以按照机柜的实际位置显示机柜中的设备、并且可以打印机柜装配图，设备状态与网管系统联动，可以准确的定位设备位置和了解设备运行状态。

机房拓扑

可清楚地展现个机房运行情况、机房间光纤连接情况等。为机房改造、搬迁提供清晰的数据。

网首IT运维服务平台技术白皮书

机房环境监控与管理

结合自主开发的网络传感器可以对机房环境进行监控，传感器体积小、成本低，可以在所有设备间进行部署，数据通过网络传递回系统，与系统自带的告警系统结合完美的解决了机房环境(温度、湿度等、电流、电压)监控的问题。

IPS-1020是一款业内领先的网络温湿度传感器。它支持TCP/IP协议，由内部的webserver在多个端口上向用户提供服务，用户可以使用浏览器轻松地更改传感器的IP，查看当前的温湿度信息等。IPS-1020支持专业的SNMP协议进行传感器管理，可以通过标准的SNMP协议获取传感器各项监控值。IPS-1020还通过点阵液晶显示面板，实时显示当前的温湿度及IP地址。此外，IPS-1020还拥有大量的外扩资源：多速率的RS232，RS485及TTL电平的串口，SPI、I2C及GPIO接口使得IPS-1020可以轻松地面对各个场合的使用。

网首IT运维服务平台技术白皮书

 温度测量范围：-40℃ ~ 85℃  温度测量精度：±0.5℃  湿度测量范围：010/100M自动识别，支持Auto-MDIX  网络协议：TCP，UDP，IP(支持动态更改IP)，ARP，ICMP，DHCP，HTTP(使用浏览器访问IP即可显示当前温湿度或修改IP)，SNMP(支持通过SNMP获取当前温湿度指标))  串口电平：RS232，RS485，可对外5V供电，单DB9公接头集成，协议可定制  串口速率：1200 – 115200 bps  供电电压：5V 500mA  外形尺寸：10CM * 10CM * 3CM

网首IT运维服务平台技术白皮书

视频监控管理

根据需要，在机房区配置IP摄像头，以便管理人员可以实时监视机房情况，亦可根据需要设置录像。

资产管理

项目与合同管理

可以依据对项目申报、审批、签订合同、设备到货的的记录，管理项目从申报到验收的整个过程，以及对项目合同产生的资产进行跟踪。

资产管理

可以自定义资产分类，并且根据不同的分类进行扩展，支持资产的批量添加和导入，可以直接从在线设备列表中导入交换机和服务器等资产，与网管、机房设备间管理联动可以有效的掌资产的使用情况。

网首IT运维服务平台技术白皮书

SYSLOG汇总分析模块

SYSLOG实时采集过滤查询

启用该功能后可以将支持SYSLOG的设备的日志指向本系统，系统会根据用户定义的关键子进行过滤和分析，并且可以按照IP、时间、关键字等查询日志。

日志归档保存

对于网络规模较的的系统，可以按照IP和时间将历史的日志归档，方便以后分类查询，并且大大降低了存储开销。

网首IT运维服务平台技术白皮书

第四篇：阿里云大数据计算平台的自动化、精细化运维之路

本文章来自于阿里云云栖社区

摘要：作者简介：

范伦挺

阿里巴巴基础架构事业群-技术专家

花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput 免费开通大数据服务：https:///product/odps 作者简介：

范伦挺

阿里巴巴基础架构事业群-技术专家

花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute等)的运维、架构优化及容量管理等

1、前言

本文主要会从以下四个方面来写，分别是：阿里大规模计算平台运维面临的一些挑战;

阿里自动化平台建设;

数据精细化运维;

我对运维转型的思考和理解;

2、在阿里我们面对的挑战

在讲挑战之前，我们可以简单看一下阿里大数据平台演进历史，我们的MaxCompute(原ODPS)平台是2011年4月上线的，2013年8月份单集群超过5K，2015年6月单集群超10K，目前在进行异地多活和离在线混布方面的事情。

首先是规模大、小概率事件常态化

对于小概率事件大家不能赌运气，基本每次都会踩中狗屎的。譬如各类硬件故障，规模小的时候觉得硬件故障概率比较低，即使坏了也比较彻底，但是规模大了后会有很多情况是将坏不坏，类似这种奇葩事件会越来越多。

还有网络链路不稳定，网络链路会有很多原因导致它不稳定。一方面是网络设备多了，网络设备出现故障的概率也大了，另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。

还有一部分是工具，机器的环境变得复杂以后，我们对工具稳定性就有更高要求，比如你要考虑到有些机器的 SSH 会 hang 住，还有某些机器yumdb是坏的，不能想当然的以为一条命令下去一定会执行成功。

其次是多机房多地域

几千公里距离会有几十毫秒的延时增加，大家在布置异地多机房应用的时候，要考虑到应用之间的超时设置是不是合理，需要重新 review 尤其针对多次往返的请求，累加效应是非常明显的。

还有一块是资源不均衡，可能那个集群早上忙一点，那边是下午忙一点，但是因为计算任务依赖下面大规模底层数据，所以你不可能利用长传带宽直接来进行直读直写的计算，因此要考虑应用的合理布局。

关于自动化平台建设，自动化的意义我想读者们应该是有共识的。

第一自动化能够提升稳定性，机器的操作比人要靠谱，固化的操作交给机器去做，可以减少人犯错机会，提高线上稳定性。

第二自动化能够提高效率，机器代替人做很多事情之后，把我们从日常繁琐运维操作中解放出来，解放出来以后我们可以做更有价值和意义的事情。

今天因为时间关系，我会从以下四个最常见自动化方向做简单举例介绍，变更、问题排查、硬件维修，交付检查。右边是我们内部用的运维平台架构简图，下面介绍的东西都是基于这个平台的功能模块。

3、四步走让平台自动跑起来

3.1 第一步：实现自动变更

说到变更，做运维的总是有很多共同语言要聊。变更在我们日常工作中占的时间还是比较多的，包括变更方案整理，变更跟进执行，都是比较耗时的，另外变更也是非常危险的。

原来有过统计，号称70%稳定性事件是跟变更相关的，有可能是运维工程师直接变更操作引起的，也有可能是上线代码有 bug 引入的，这两类都归结在一起，反正是“线上不作不死，一作就死”。

但是不能因为这个不发布，还有很多功能开发也是跟我们一样，天天加班熬夜，搞出来的代码不给他推上去也说不过去，还要满足业务需求，那这个问题得解。怎么解呢?

我们内部思路是首先会把最底层的一些操作进行原子抽象，比如像把一台机器从 VIP 里摘取出来，装一些包进行固化，固化之后抽象出来，称为工作流，然后把工作流进行组装把它称之为组合工作流。

一个组合工作流对应一种日常的固化变更类型，比如控制集群服务升级等等，这样固化的变更就可以由对应的组合工作流去做。

在组合工作流之上，还会有一层封装需求单。主要解决开发的自助申请，审批等环节。在工作流执行页面可以查看详情，包括对应的每个步骤具体命令，返回信息，执行超时时间，超时或者失败的通知方式和人等等。

通过这样一套平台，基本上能够解决日常固化的那一类变更请求，能够做到变更由开发自己申请发起，运维只需审核一些参数、测试报告等等。

3.2 第二步：高效稳定的解决问题

第二个例子是关于问题排查的，上图画的是我们当前用的实时日志分析系统的架构，阿里因为这块的产品自研的都有，所以用的都是自研的产品。

为了便于理解，我在边上备注了对应的开源产品，基本上的流程或者逻辑也是比较好理解的，首先在服务器上部署 Agent，Agent 会依据日志服务里配置的规则进行过滤以后，将对应的信息推送到日志服务。日志服务里数据可以实时进入到流计算平台进行实时分析计算，并且把结果存到 RDS 里面，然后 tesla 通过 RDS 进行调取和展现。

另外日志服务存的数据，也会通过实时建立索引，提供 WEB 级别日志查询，帮助用户做日志查询。同时也会导入 max compute 做永久存储和进一步分析。

基于这套系统，我们举一个例子：异常流量排查。流量打满是很常见的问题，通过这样的机制怎么帮忙我们排查和定位这些问题呢?

比如有N个机房，机房与机房之间有很多链路，每一条链路带宽都是有限的，有时一个突发流量尖峰过来会导致流量拥塞，假设平台上有一条链路，流量打满以后，呈现黄色预警状态，通过点击这条链路，就会进入流量分析实时界面。

这里可以看到从某个时间段到某个时间段，从某个机房到另外一个机房最近十分钟的情况，这里显示的是最近十分钟对应作业流量总的情况，点击流量最高的点可以在右侧看到每个作业对于流量贡献情况及其最近10分钟的变化趋势。

下面还可以列出来这些作业具体的项目归属，作业名称等等。通过这个机制就可以很快定位到问题的原因。这里收集的日志是阿里云飞天盘古 master audit log，盘古 master 有点类似Hadoop里的 name node 节点，它会记录所有集群发起的数据访问请求，包括来源 IP 是什么，获取数据大小是多少，发起的作业名称等。

把这些信息通过前面介绍的实时架构收集完之后，放到流计算平台算，然后再结合网络地域和 IP 归属，就可以画出整个网络拓扑和实时流量图。

基于这套平台还可以做很多其他的事情，比如说网络静默丢包，这个理论上来讲在网络层很难做到监控。但可以通过收集作业执行日志，分析长尾和失败的作业相应的源IP及目的IP分布情况，可以发现某些交换机的异常情况。做到先进行隔离，再让网工去排查解决。

3.3 第三步：更高效的硬件维护

第三步是硬件维修，我们内部有个硬件全生命周期管理工具称之为是 DAM，在日常工作中它能够涵盖整个硬件循环的生命周期，上线以后如果发现线上有硬件问题，它会调应用自定义的下线接口，把这台机器从具体应用里摘出来，从应用层面隔离完之后，再去调机房维修自动接口进行报修。

报修以后会监测这个维修单子状态，等维修结单后，自动做上线前硬件检查，检查通过以后会把这个工单关闭，同时调用应用自定义的上线接口，完成服务器上线。

所以这套东西基本上跟应用是属于松耦合的，只要应用提供满足条件的上下线 API 接口，基本上都可以转起来。

这是它的一个架构简图，主要有三大模块：Dam Worker 、Dam Client、Dam Center.

这里面主要难点还是在于硬件信息收集和分析，怎么判断这块磁盘坏了，怎么判断 CPU 是有问题的。这其中需要长期的数据和经验积累。

这里我可以简单介绍一下我们现在采集的信息源：

硬盘主要依赖于 kernel log/smartctl/tsar

内存是ipmitool/mcelog/stream，

CPU/风扇是mcelog/cpu频率/ipmitool，

网络/网卡/交换机端口是tsar/kernel log。

主板方面如果我们分析以后都不是以上信息，那可能就是主板的原因。

上面这个图是一个最终的效果，这个系统在规模化场景下还是非常有用的，以前没有这个的时候，值班人员是比较痛苦的，因为我们知道现在互联网用的机器都不是高可靠的，去 IOE 都差不多了，都是廉价的服务器，所以出现一些硬件问题还是比较常见的。

很可能一个电话过来，客户就开始抱怨作业又长尾了，你上去一看，这个机器硬盘有问题，加入黑名单，重跑一下，用户和我们自己都搞得很痛苦。

现在我们就不会因为单台机器的硬件问题而受到骚扰了。主要白天看看那些异常工单原因，不断优化逻辑即可。

对于这类自动处理我们肯定采取比较保守的策略，任何系统拿不准的或者不是完全精准匹配的就不动，先做隔离而不做进一步自动处理，放到异常工单池子里，由人工介入分析异常 case 什么原因，不断完善我们硬件检测判断的模型。

3.4 第四步：完善的交付检查

交付检查分为软件交付检查和硬件交付检查，软件交付检查就是用前面介绍过的工作流，硬件交付检查主要针对 CPU、内存和磁盘，对于 CPU 做法是绑定每个 CPU 算 π，算算它的消耗时间分布，最终把曲线画出来，标准就是看曲线的偏离程度。

其实大家可以看出，大部分还是很规矩的，会集中在一起，类似上面有几条偏离曲线的就是我们认为有问题的。那么这里大家可能会问，为什么你这里集中在两个区段，是不是有一半的机器都是有问题的，其实是因为这个集群机器是异构的，本来就有两种类型的cpu。

内存压测采用通用的 stream 方法，就是对内存做拷贝、读取相加，读取做乘法诸如此类的，对于性能指标明显偏离的机器也是有问题的。

磁盘主要用 Linux FIO 命令按照不同的读写比例和块大小，来看它的表现。

其实这里并没有用到什么高深的技术，我之所以拿来说是告诉大家这个极其重要，尤其是对于离线场景。离线计算在公司里一般给的是都是更廉价，更低成本的硬件设备，甚至很多时候在线应用退役的机器也会拿来用，即所谓的利旧。这种时候再加上机器是经过搬迁的话，那硬件的压测就必须做，否则线上会很长时间不得消停。

4、数据驱动精细化运维

下面我们讲讲数据驱动精细化运维，今天主要是讲一些点，举一些例子，以此来表达我的一些想法。

大家都知道数据是有很大价值的，我们通过历史数据分析，能够知道平台过去是发生过的事情，对于现在的数据分析，可以知道平台现在正在发生的事情，还可以通过建模预测未来可能会发生的事情，所以数据可以说是能够通晓过去未来之事。

我们运维的大数据平台上每天都在产生海量的各种运维日志、信息，我们手里拥有在线、离线，各种大数据平台，我们也想把运维做得更精细化一些，可以说是有数据，有需求，有平台，正可谓天时、地利、人和，所以一直在这方面做些尝试。

4.1 实时大屏背后的精细化运维实践

第一个例子是关于双十一大促的，这个屏相信大家不会太陌生，这是双十一大促在深圳晚会现场直播的一个媒体屏，上面有双十一大促最终定格的成交额 1207亿。

这是一个 GMV 翻牌器，它的作用就是实时汇总当前每一笔成交，并且把成交额显示在上面，在光鲜亮丽的媒体屏背后，其实我们还有很多保障用的技术屏，今天就带大家一起来看看其中的一块技术屏。

这上面的数字都抹掉了，简单介绍一下我想说的事情，左边部分是用于承载翻牌器成交额实时计算作业主备集群负载情况，在它的右边显示的就是几个关键的核心作业当前实时的延时情况，单位是毫秒。

这里最右边的这几个白色的数字，代表了每个作业对应的延时，有了这个之后我们才能知道当前算的成交额比真实的用户下单时间，它的延时有多大，超过一定的量，我们就要进行链路切换。

所以有了这个数字以后，可以更好地帮助我们判断现在哪条链路是好的，哪条链路不好的，不好到什么程度，好的话什么程度，不能盲目的去拍脑袋判断，需要有实时化的量化指标做评判。

这里还要强调说明一点，这里用不同的颜色深浅分成三段，这三段分别代表这个作业它的日志采集延时、消息队列读取延时和读到之后计算的延时，把三段延时进行了分开展现，这个有什么用呢?

当链路有问题之后，我们可以知道哪段出的问题，因为实时计算整个链路是非常长的，对于秒级应用来讲，每个环节消耗的时间都是需要被清晰度量的，也就是说，有了这个时间你才能准确判断现在是因为哪里出现的瓶颈导致整体延时不达标。

也就是说，不但能够知道哪条链路有问题，还可以知道链路具体问题点在哪，加快问题定位。

所以对于这个核心指标我建议大家做到三化

量化，这些压力值都可以清晰看到。

细化，每个指标再分细一点，可以更精准判断和定位问题。

持久化，这些实时屏不能看完就算了，还要把数据存起来，非常有用。

所以做到三化，量化、细化、持久化，在核心指标量化分析里是很重要的。

4.2 存储分析在精细化运维中的实践

下面讲一个存储分析的例子，这个例子起源是因为集群规模太大了，每年都被老板盯着能不能省出一点钱来，我们分析了下存储的数据，看看每个 byte 是被什么占用了，这是可以分析的。

我们通过分析之后得到右边的图，这个是真实的图。看了这个图之后，你会注意到，原来存储是这么被消耗的。其中我们可以找到一些应用层的优化。

譬如平台是分层的，每一层为了数据安全都会做自己的回收站(延迟删除)功能，站在每一层独立去看都是合理的，但各种回收站累加在一起就会发现回收站占用比例有些高(尤其是对于频繁删除类型应用)。可以从整体运维的角度去看，对于各层回收站策略做评估。

另外我们还发现一个优化点，就是inode。我们可以计算下看看我们要不要用到这么多inode，按照PPT公式计算可能只需要原来的1.75%就够了，万台集群可以因此省下6PB的存储。

当然这里面实际适用inode大小还是要根据自己应用场景去评估。大家经常做数据运营，数据分析，其实它在很多地方都在那儿等着大家，有很多点可以去做，包括我们日常忽略的，司空见惯的，觉得不值一提的地方，大家可以细究一下，会发现那里有另外一番天地。

4.3 精细化运维在资源优化上的成果

还有一个是资源优化例子，大家知道资源调度器里有一个用户资源申请的值，和申请之后真正跑起来的实际消耗值，我们建立了一个用户实际消耗和用户资源申请的比例，理想值我们希望接近100%，这个指标能够说明调度模型的资源使用状态，有了这样的衡量指标之后，我们做进一步细化分解，看看怎么优化这个指标。

这个是实时计算里面作业的情况，每个作业我们会去看它的资源使用趋势，这上面红色的两条直线是作业里设的申请值，下面蓝色波动比较大的是这一周来资源使用的尖峰值，大家可以看到即使按照这一周作业使用物理资源峰值来看，离申请值也是很远的。

所以这里面还是有不少优化的事情可以做，包括提醒用户自己做优化，也可以在平台层面自动做优化，来达到节省成本的目的。因为一旦调度器认为可以申请的资源都分配出去了，哪怕这时平台物理水位非常低，它也不会调度更多的作业了，所以这件事情也是我们可以深度去做的。

5、如何摆脱苦逼运维的魔咒

5.1 转向运营或许是破解之道

我个人对于运维转型的一些理解和思考。运维转型最近被谈的比较多，有一个论调就是运维向运营转。

这个问题我是这么看的，传统运维更多关注的是平台稳定、安全，也就是非常传统的两个领域，更多关心的是平台是不是活着，这个平台没有出问题，没有挂掉，这是传统运维关心的事情，重点关键词活着。

对于运营来说，除了活着，还要看平台质量怎么样，用户用得好不好，这个平台本身它的效益怎么样，它的成本是不是还能进一步优化，用户感受怎么样，用户满意度怎么样。

而对运维来讲，包括运营，我们大部分都是跟垂直的具体产品或者平台绑定的。不可能完全脱离他们，去谈运维的价值。

所以运营是以一种更积极开放的态度，去看待我们所运维的对象，多看一点，不光看它的活着，还想想怎么能够帮助它和自己一起去成长和发展。

5.2 自动化在转型过程中的四个阶段

然后讲到转型逃不开自动化，我个人认为自动化可以分为四个阶段：

第一个阶段人肉时代

这时候人就是一切，你说了算，你说什么命令就是什么命令，这时候没有任何校验标准机制，就像交警纯人肉指挥交通一样，什么时候让你走就走，什么时候让你停你就停。

第二阶段工具时代

好比交警手里的指挥棒和哨子，这些工具提升了他的个人能力，比如哨子可以让更远的车辆听到他的指令，棒子可以在天气不好的时候让汽车看到他的指令。

这个阶段还是以我们人为主体，工具在能力上做了一定延伸和拓展，但是始终还是人为主，器为辅。还是人在决定这个操作要不要做，什么时候做，参数应该是什么。只是人做完决定后，可以由工具搞定具体落地执行，提升了执行效率，节约下来了时间。

但是离开了人还是什么也不是。所以这个时代，单兵作战能力增强了，但是人逐渐成为整个运维的瓶颈点，因为工具的能力是远远大于人的能力的，更多需求就堆在你手里的，你怎么编排和控制。你成为瓶颈点了，工具越多，人的瓶颈点就会凸显。

第三个阶段平台时代

这个阶段过渡到器为主，人为辅的阶段，还是以交通举例，这里面大家可以看到由很多工具沉淀变成了完整的交通疏导指挥平台，包括红绿灯，包括限速和车道划分等等，这一系列规则和工具，最终不是零散的在那里放着，而是通过一个有序组织变成一个固化的平台，通过这个平台，能够完成交警日常工作中交通疏导的事情。

对于我们运维也一样，我们怎么把我们的经验、想法和技能放到平台里，最终变化自助或者自动化运维平台，这样的时代才能称之为平台时代，就像我刚才前面说的变更平台一样。

我不知道大家有没有经历过，其实很多公司经历过，变更平台可能有很多不同的人开发过很多拨，第一拨可能是开发写的，第二拨可能是工具团队写的，第三拨可能是运维团队自己写的。

这里做一个变更平台并不难，难的是怎么把运维的想法和思考沉淀到平台里面去，怎么让平台有和你相当的能力，这时候它才能代替你日常的职责，所以它这里面的灵魂和思想很重要。

同样是做开发变更平台，开发考虑的是怎么快速高效的执行变更，那运维做的时候会有些什么更多的思考呢?

你会考虑是否有灰度功能，是不是应该先灰度发布一部分，然后有自动冒烟机制，冒烟过了我再引流，然后有没有快速回滚机制，这就是区别，为什么我们要自己去做，自己转型，我觉得别人很难理解我们，也很难救我们，所以要自己转型做自己想要的运维平台。

这里面大家多想想你平常怎么工作的，重要的是把你的能力进行平台化，而不仅仅是简单开发一个系统。第四个阶段智慧时代

第一个时代是人解决问题，第二个时代是人借助工具更好的解决问题，第三个时代是让平台能像人一样解决问题，第四个时代是让平台超越人类能力去解决问题。这张图是阿里云栖大会上王博士发布城市大脑的照片。城市大脑是解决城市交通拥堵问题，这个问题已经突破人的能力极限，安排再多的交警到各路口执勤也搞不定这件事。

但城市大脑可以，它通过对每天的车流量预测数据，再加上其他的一些补充数据，包括实时红绿灯，每个探头采集到的实时流量等等，把这些数据进行综合判断，它就能够智慧的实时控制所有的交通信号灯，从而达到缓解城市拥堵的目标。

在这里其实一样的，当上升到一个智慧时代以后，平台能力就能够突破人的极限，做到一些人的能力以外的事情，譬如故障的预测、快速自恢复等等。这也是未来的方向——智能运维时代。

5.3 运维效率向运维价值转型

假如我们前面的自动化事情做得不错了，有时间了，该干点什么，原来有一句老话叫做“喝着咖啡干运维”，我个人认为这个观点从生活的角度来讲是不错的，但从工作和个人发展的角度来看还是太过于消极了。

当你达到这个阶段，如果你真这么去做的话，慢慢你可能有时间喝咖啡，但却没钱喝了，很有可能会被淘汰掉。我们应该转变思路，更多的去关注数据分析，可视化及运维平台的产品化。

当我们建立了前面说的自动化运维平台以后，可以更多去想一想如何通过数据分析，让我们运维平台更加智能，达到一个智慧运维的时代。利用计算机强大的计算能力，最终实现机器管理机器的目标。另一方面也可以借助数据分析和运营，帮助我们所运维的产品做改善，如性能、易用性、成本等等。

另外我们也要更多的去思考怎么把运维平台进一步产品化，使我们的运维能力可以输出，产生更大的价值。

这些目标都是可以实现的，当然有很多的事情需要去做，我们可以分阶段的，先从一些简单的事情做起，逐步深入。

6、最后的思考

最后用一张图来总结我对于运维转型的思考。运维应该始终以稳定性为基石，一旦脱离稳定性，其他一切都是扯淡，都是浮云。在稳定性基础之上，我们应该以更积极的运营思路来思考我们自身的发展和平台的发展，借助于数据分析和运维能力产品化这样两个翅膀，实现华丽的转型。运维的人生不止苟且，还有诗和远方!

文章转载自：http:///News/Industry/10052.html

第五篇：运维管理标准

概述

运维是管理的核心和重点部分，也是内容最多、最繁杂的部分，主要用于运维部门内部日常运营管理，涉及的对象分成两大部分，即业务系统和运维人员。其管理内容又可细分为七个子系统：

第一、设备管理：对网络设备、服务器设备、操作系统运行状况进行监控，对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理，如邮件系统、DNS、Web等的监控与管理;

第二、数据/存储/容灾管理：对系统和业务数据进行统一存储、备份和恢复; 第

三、业务管理：包含对企业自身核心业务系统运行情况的监控与管理第

四、目录/内容管理：该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

第五、资源资产管理：管理企业中各IT系统的资源资产情况，这些资源资产可以是物理存在的，也可以是逻辑存在的，并能够与企业的财务部门进行数据交互;

第六、信息安全管理：该部分包含了许多方面的内容，目前信息安全管理主要依据的国际标准是ISO17799，该标准涵盖了信息安全管理的十大控制方面，如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

第七、日常工作管理：该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

第一章总则

1. 为加强公司各个项目后期的系统运维管理，确保系统能够平稳、可靠地运行，更好地为客户提供管理服务，特制定本规定。

2. 实行预防性维护为主、故障性维护为辅的运行维护管理原则，预防性维护和故障性维护都应遵循事先设计好的程序进行。

3. 完善运维管理体系，建立健全运维规范，提高运维管理效率，并不断提高运维质量。

4. 本规定适用所有进入运维环节的项目。

5. 运维人员应根据授权，处理本规定中所涉及的业务事项。

第二章主机、服务器及数据库系统的运维管理

1. 根据应用需求，主机、服务器及数据库系统的配备和安装、以及系统资源的使用等由公司项目实施部统一规划。

2. 应指定专人作为系统管理员(系统工程师)和数据库管理员，对系统的运行、管理、维护和安全负责，并按照有关规定负责系统和数据的备份与恢复。 3. 系统/数据库管理员应定时对系统进行监控和定期的健康性检查，分析系统运行和资源使用状况，并进行必要的优化、调整和修正，及时消除隐患。如系统设置发生变化，或重新安装系统，或安装了新软件，应在此后15个工作日内对系统进行密切跟踪。

4. 及时解决处理系统运行过程中出现的异常问题和软硬件故障，并采取必要措施，最大限度地保护好系统资源和数据资源。

5. 对于重大软硬件系统故障，应立即通知部门领导，协调服务商，使系统尽快得以恢复运行;对于应用系统引发的系统异常或故障，应及时通知相关人员，并协同解决处理。

6. 每季度应对系统主机/服务器/数据库进行一次停运维护，其操作必须严格按照操作规程进行。其他非正常性停运(故障引发的除外)，应提出书面申请，并经部门领导批准后方可进行。同时做好相应的准备工作，最大限度地减少对业务操作带来的影响。

7. 具有系统操作或管理权限的人员调离工作岗位或离职，应立即从系统中删除该用户;如该人员掌握超级用户口令，应立即更换口令。

第三章软件系统的运维管理

1. 避免在用户工作时间进行软件版本升级工作，以免由于人为失误造成业务中断。 2. 软件系统的安装、升级等操作应保留完整的实施记录。

3. 对软件系统进行升级、更新补丁，应首先进行相关的测试，并在确认无误后实施。

4. 对软件系统进行升级、更新补丁，或进行系统的重新安装等操作，应在实施前对原有系统及数据进行备份。

5. 变更系统配置，修改配置文件、参数文件时，应对原始配置数据(或文件)进行保留。

6. 软件进行版本升级时，对于不影响业务的升级工作，须以书面形式详细将计划、方案、措施等报上级主管部门备案;对于影响业务的升级工作，必须提前两周向上级通信主管部门以书面形式提出申请详细报告计划、方案、措施等，经批准后方可实施。

7. 维护人员应定期跟踪所使用系统的软件升级情况和升级后的新功能，必要时提出升级建议。

第四章数据库的运维管理

1. 对于数据库的变更必须有记录，可以回滚。 2. 无用表和字段要及时清理。

3. 从数据库删除数据一定要先备份再删除。

4. 定期对数据库数据进行自动备份，以便在故障发生后尽快恢复最新的数据。定期检查备份的执行情况，确保备份操作正确执行。 5. 指定专人定期进行备份数据的恢复性试验。

1、严格操作原则：在系统上进行可能影响系统运行的参数设置、更改和维护等操作时，须有2人以上在场进行监护和确认，并作好详细的操作记录;

2、提前沟通确认原则：软件进行版本升级时，对于不影响业务的升级工作，必须提前与客户方进行沟通，避免操作中人为失误造成业务中断;对于影响业务的升级工作，须提前与客户方进行确认，达成一致后方可实施。

3、遵守保密原则：对被运维系统单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任，不得随意复制和传播。

第五章巡检管理

定期了解设备的运转情况，做好系统日常运行的基础数据记录，做到有问题早发现、早解决，避免隐患，确保设备的完好率，保证系统运行质量。

1. 对硬件设备进行定期巡检，是确保系统稳定运行的重要措施，巡检工作包括例

行巡检、节假日和重要事件前的巡检

2. 维护人员应根据工作计划，对维护的设备定期进行预防性巡视检查，巡查过程中应认真负责，及时发现问题，重点注意处在恶劣环境下、存在潜在质量故障的设备，巡查要认真做记录。

3. 巡检过程中发现告警应立即进入处理流程，判定为故障的要立即进入故障处理流程

4. 所有的巡检都应有详细的记录，包括时间、巡检情况和责任人，并应在巡检纪录卡上签字。

第六章网络管理规范

 关键业务流程

对以下业务系统流程监控，对业务系统是否正常运行、各项具体参数指标是否超标等进行掌控，避免或降低业务系统故障的发生率。

1、单位内部的关键业务流程。

2、网络吞吐量大的业务流程。

3、对系统造成大的压力，频繁使用数据库的业务流程

4、同其它系统集成的业务流程，这些集成会提高应用失败的风险。  用户体验同系统性能指标相关联

将网络中的所有网络基础架构都进行集中监测，包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控，收集网络运行信息，将性能数据同单位内部用户的体验相结合来分析网络的性能状况，诊断系统瓶颈。

 建立网络运行基准指标并观察趋势

长期监测并通过对网络运行的观察，分析网络性能的变化和流量等指标的运行趋势;及时发现网络偏离系统基准模型时的异常状况，分析故障，达到预警的目的，防止更严重问题的发生。  设计报警策略，避免警报泛滥

配置报警的依据是根据信息服务管理网的网络运维管理目标，报警设置的原则：

1、对影响网络和业务的重要指标设置报警;

2、消除误报和重复报警;

3、报警应该以多种方式及时发送给相应的负责人。  创建自动化、规范化事件处理程序

信息服务网络运维，日常处理事务较多，需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序，快速处理各种潜在故障并且分配到相应的负责人，提高工作效率。另外可将工程师长期积累的知识和工作经验系统化和固化，达到快速定位故障的目的。

 网络服务质量SLA的量化管理提高网络服务质量的设立量化指标，将其作为整个网络运维管理团队的整体目标。信息服务管理网网络性能管理的总体目标包括网络和设备、业务的可用性、网络的吞吐量、带宽使用百分比、网络延时、CPU和MEMORY的负载，对于不同的网络指标还要根据网络的上下级连接关系分解到每一个子指标，作为对网络故障诊断和性能管理的依据。

 制定网络的升级和改进策略

网络的升级和改进应该以对现有网络和系统性能数据的测量为前提，以对网络整体运行的现状及趋势分析为依据。通过对单一网络系统和整体网络系统性能数据的比较、单一网络组件和其它网络组件的数据比较、系统负载量最大时的性能数据和一般负载时的性能数据的比较等，判断是否需要对系统的局部或者整体进行升级，发现网络系统性能的瓶颈，提出网络系统改进的方法。  日常规范

1. 每天两次进行业务系统、网络运行状况、业务流量及对外服务器服务状况监控巡查;

2. 按照规定的时段巡统计并汇总运维表单。(流量统计、事件统计、问题统计、手里投诉统计等)按照规定的时段查看路由、防火墙等关键系统运行情况，包括网络流量、带宽占用率等，重点检测关键设施，并记录;

3. 处理产品组网络问题应做完整、详细记录，快速响应，及时确定原因，积极组织处理，同时记录解决问题的操作过程，问题解决后应及时回复;

4. 对网络资源调配管理(ip资源分配、设备端口划分、链路传输、负载均衡等)、核心和汇聚层等核心网络运维的调试，做好汇报申请并记录。

5. 故障分析及处理，网络拓扑更新及网络优化。网络安全方案实施部署，更新维护录入知识库。

6. 处理各种网络故障，并作记录，保障网络正常运行。 7. 遇到不能处理的问题时，通知相关人员或及时汇报，并记录;

8. 工作人员要有强烈的安全意识，巡查时应注意发现各种可能的安全隐患并及时排除。

第七章请示报告制度

为加强相关信息处理和反馈管理，有效的控制系统和设备的运行状态，通过规范的请示报告流程，提高运行维护的管理效率。

例行性请示报告

1. 按照规程和制度规定的周报、月报、季报和年报。 2. 系统升级、交接和重大数据变更请示报告。 3. 各类专项请示报告和合理化建议。紧急性请示报告

1. 各种事故、严重设备故障、严重电路故障、系统运行异常等情况。 2. 各项工作中发现的严重泄密、安全性事故报告 3. 客户要求的其他紧急性报告。

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

>> 查看更多相关文档

上一篇：业务员辞职申请书下一篇：语文主题学习感受

运维平台管理办法

第一篇：运维平台管理办法

第二篇：自助学习平台运维检查情况通报

第三篇：网首IT运维服务平台技术白皮书

第四篇：阿里云大数据计算平台的自动化、精细化运维之路

第五篇：运维管理标准

热门文章

精品范文

全站热搜