您的当前位置:首页正文

日常运维管理制度

来源:画鸵萌宠网


日常运维管理制度

1. 运维保障机制

(1) 建立硬件、网络、系统、应用及业务软件日常维护流程机制; (2) 建立故障应急处理流程机制; (3) 建立备份恢复保障机制; (4) 建立安全保障管理机制;

(5) 建立版本管理机制,管理平台生产环境运行的软件版本;以上机制应形成文档,作为日常遵循规范,按要求执行。

2.硬件维护能力

需对硬件设备具备 7*24小时不间断的支持、响应能力,原则上每日对硬件设备至少健康检查一次并记录;定期对网络环境进行检查。

我公司服务器部署在移动云上定期通过命令进行硬件检测, 内存、硬盘、I/O 的使用情进行查询并进行登记,每台服务器运行的软件对硬

1 / 9

件性能使用情况检测,对于服务器我们进行系统备份、软件,每日对网络使用情况进行观察,针对突发异常流量进行分析。

3. 故障处理响应及要求

设备(系统)出现故障时,根据不同的故障级别提供相应的 服务响应,响应方式及要求如下:

故障级

故障内容

出现系统故障,不影响系

I 一般

统运行,不影响业务正常运

故障

响应时间及效 果

工程师即时响应 处理, 24小时内解 决。

出现系统故障,影响系统

工程师即时响应 处理,8小时内解 决。

其他

对于硬件故障(含机房环境故障),要求不论在何时确诊需

II

运行或影响非关键业务运 作,不影响核心业务运作

要故障

要进行备件

2 / 9

更换,发出备 件更换指令 起 3小时内备

出现系统故障,系统崩溃

工程师即时响应 处理, 2小时内解

III 重 大故障

或其他状况,影响核心业务 的正常运行

件到达故障 现场,并恢复 决。

系统正常运 行。

4.具备应急预案

针对部署国家平台节点服务器我们实施系统备份、 软件重要数据实时备份, 主 机备份是提供的保留某个时间点上的主机系统数据状态的服务。基于主机备份可以随时生成或删除备份, 并基于已备份进行主机的恢复,实现已有应用和主机数据的快速复用, 如系统出现事故无法使用将进行系统恢复并把最近一次备份的数据进行恢复。 对于突发情况建立应急服务流程, 主要是针对可能发生的各种意外情况设计应急的方案,以控制和规避突发事件带来的集中性风险, 从而降低设备集中性风险所造成的损失,制定以下流程图:

3 / 9

应急机制处理流程图

工程师分析

故障

处理结果

携带配件

现场处理

报告故障进度、结果

项目经理

解决

录入后台 数据库

结束

提供故障技术报告

联系

用户提出服 务需求 受理并记录 服务需求

未解决 驻厂经理 沟通 用户负责人

报告 总经理

为保证服务实施的质量能够稳定并不断有所提升, 保障客户需求能够

得到有效满足, 保障服务实施团队为客户提供统一、 标准化的服务支

持,并为客户设立专门的技术服务专员,对进行全程跟踪,提升服务

实施专业性,制定服务流程:

4 / 9

服务台及现场服务流程图

用户

1. 提出服务

需求

理 受 务 服

服务台

技术支持 服务经理

2. 受理并记录服务请求

3. 事件分类

4. 远程解

现场服务

未解决

未解决

理 处 务 服

派发现场服

务单 解决

服务升级

服务支持

解决

5. 满意度回

访

解决

遗留问题

原因调查及

诊断

服务支持

束 结 务 服

结束

5.数据库维护能力

每日对数据库进行日常巡检, 内容包括对日志、 会话数、表空间、

磁盘空间等主要数据库参数进行检查 (需要配置监控软件);对数据

5 / 9

库进行数据备份、归档日志整理、表空间维护、权限分配、异常问题处理;对数据库相关 JOB进行维护;定期对数据库进行重启,以释放资源;制定数据备份方案及数据恢复演练方案, 定期进行数据恢复演练。

6.中间件维护能力

对中间件进行运行状况检查; 每日对核心中间件和应用日志进行检查。定期对中间件性能进行检测,必要时进行优化处理。

7.安全要求

需要按照信息系统等级保护二级的要求对系统进行维护, 包括但不仅限于:

( 1)定期对系统进行风险评估工作,包括对网站及应用接口进行外

网渗透测试、对内部主机进行漏洞扫描,并完成加固工作; ( 2)对网站进行安全 7*24小时安全监测,发现问题及时记录并处理;

( 3)需每周至少一日信息系统进行安全巡检。包括对网络安全设备

的巡检、配置优化,对信息系统内的各类状态进行判断,定期升级规则库和系统版本。

8. 运维服务方式

为了保证项目所有软硬件设备的正常运行, 我方提供了灵活的服务方式,可以充分满足项目的需求,服务方式有以下几种:

服务台—提供技术咨询、服务请求受理、任务分派、意见受理客户

6 / 9

服务专员快速通道、服务查询等服务。

远程支持服务―为终端用户提供远程技术维护服务。

现场服务―为远程未能解决的问题提供技术支持、现场维护服务。

9. 运维人员管理: ( 1)人员储备

建立与运行维护服务相关的人员储备计划和机制,确保有足够的

人员,以满足与需方约定的当前和未来的运行维护服务需求。

(2)人员培训

建立与运行维护服务相关的培训体系或机制,在制定培训计划时

识别培训要求,并提供及时和有效的培训。

(3)绩效 考核

建立与运行维护服务相关的绩效考核体系或机制,并能够有效组织实施。

10. 岗位结构 :

有专职团队负责运行维护服务的工作, 对运行维护服务中的不同角色有明确分工和职责定义,为了保障运行维护服务交付的顺利实

施,需方也应提供必要的接口。 一个完整的运行维护服务团队应包括管理、技术支持、操作等主要岗位:

7 / 9

a) 管理岗职责: 1)

在运行维护服务中负责管理运行维护服务;

2)

与需方建立顺畅的沟通渠道, 准确地将需方的需求传递到

运行维护服务团队;

3)

规划、检查运行维护服务的各个过程,对运行维护服务能

力的策划、实施、检查、改进的范围、过程、信息安全和成果负责。

b)

技术支持岗职责:

1)

在运行维护服务中负责技术支持,包括网络、操作系统、

数据库、中间件、应用开发、硬件、集成、信息安全等;

2)

对运行维护服务过程中的请求、事件和问题做出响应,保

障信息安全并对处理结果负责。

c) 1)

操作岗职责:

在运行维护服务中负责日常操作的实施;

2) 根据规范和手册, 执行运行维护服务各过程, 并对其执行

结果负责。 11. 整理知识库

具备运行维护服务活动相关的知识积累,以保证在整个组织内收集、共享、重复使用所积累的知识和信息,包括:

8 / 9

a) 针对常见问题的描述、分析和解决方法建立知识库; b) 确保整个组织内的知识是可用的、可共享的; c)

选择一种合适的知识管理策略;

d) 知识库具备知识的添加、更新和查询功能;

e) 针对知识管理要求制定相关管理制度,并进行知识生命周期 管理。

(范文素材和资料部分来自网络, 供参考。可复制、编制,期待你的好评与关注)

9 / 9

因篇幅问题不能全部显示,请点此查看更多更全内容

Top