数据中心运行维护与管理标准 一、数据中心接管与分界 1、数据中心运维团队接管 数据中心全生命周期包括规划设计、施工建造和投产后的运行维护。按照数据中心全生命周期的管理,运维团队应该需要参与数据中心的规划、设计、施工、调试和验收,了解和掌握数据中心的建设才能更好的做好投产后的运维,但是大部分的数据中心建设与运维是分离的,那么数据中心运维团队至少应(或者宜)在数据中心工程竣工验阶段介入,参与组织工程竣工测试验证,完成竣工和技术文档的检查和接收,这样可以全面的掌握设计、施工和交付时各系统的状况。 测试验证的内容应包括单机或单系统测试验证、系统联调测试验证、带载测试验证和故障模拟验证。 测试验证包括建设方自行组织的测试验证,也包括第三方专业检测评估机构的测试验证。 竣工和技术文档包括规划和设计资料、施工竣工图、设备清单和采购合同、设备出厂技术说明书、操作手册、维护手册、各系统设计说明、验收测试文档、报审资料、质保期各厂商联络方式和技术支持人员的信息等。 2、数据中心运维的工作范围、界面与职责 数据中心运维团队在接管数据中心的运维时还有一项重要的工作应明确工作范围、界面划分和职责。 界面划分主要是指数据中心与外部能源、网络等供应方的分工及数据中心各部门之间的分工。与外部的分工界面包括外部供电、供水、消防、安防、网络运营商等的分工界面和职责,内部分工界面包括内部供电、供水、空调、消防、安防、监控、网络等各部门的维护界面和相应的职责。 二、建立运行维护质量管理体系 运行维护质量管理体系应体现在数据中心运行的全过程中,运行维护质量体系包括: 1)制定质量管理目标,管理目标应包括系统稳定运行的可用性、服务响应和解决时效、应急保障的能力、服务等级协议、运行成本控制、能效等指标; 2)运行维护服务效率与质量保障计划。 3)团队和各岗位的职责。 4)运行维护相关的制度和流程。 5)用户满意度。 三、数据中心运行维护管理 数据中心的运行维护管理应遵循:“以安全运行为纲、预防为主”的目标,运行维护质量管理包括:日常的监控、维护保养、风险控制。 1、日常的监控与巡检日常监控包括两部分: 1)通过DCIM系统实施监控各系统的运行状态; 2)现场巡视:主要由基础设施监控和操作的人员在线检查并记录基础设施的运行数据,包括各系统运行环境、设备外观、指示灯、 本文来源:https://www.wddqw.com/doc/61e4e4e653e2524de518964bcf84b9d529ea2c67.html