您的位置:新葡亰496net > 服务器网络 > IT运维自动化概览,说说数据中心日常维护工作的

IT运维自动化概览,说说数据中心日常维护工作的

发布时间:2019-11-05 00:50编辑:服务器网络浏览(160)

    数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。

    服务器维护可以预防严重问题,并保持一切正常运行。为服务器上的硬件和软件的这些简单筛查预留时间。

    IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

    数据中心需要全年不休地运转,无时无刻都在对外提供各种应用服务。数据中心里有大量的电子设备,也和人一样是需要休息的,不然迟早都会出现这样那样的问题,其中应急关机就是数据中心自我保护的一种方式。显然在关机的前面增加了一个修饰词“应急”和关机的意义就完全不同了,应急关机必然不是关机那样关闭一下按钮或者拔掉电源那么简单。前面也说了数据中心是全年不休地工作,对数据中心内的设备进行关机,需要考虑这样的操作对整个数据中心的业务影响,是否在关机之前做足了准备工作、是否制定了详细的关机预案、是否有回退机制等等,这绝非是开关一下电源那么简单。下面就来详细说一说数据中心里的应急关机。

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    当一个数据中心建成投产后,维护工作就开始了,一直到数据中心的生命周期结束。一般我们可以将数据中心的维护工作分为四大类:一是日常检查类;二是应用变更、部署类;三是软、硬件升级类;四是突发故障处理类,下面就来详细说一说这些维护工作,让大家对维护工作有个了解。

    数据中心服务器只是复杂的机器。像任何机器一样,它们需要定期维护,以达到最佳性能。简单的维护程序可减少严重的服务电话,延长服务器的使用寿命。

    传统运维管理方式存在的问题

    应急关机是提前有周密计划来关闭部分运行设备的方案。应急关机作为应急响应过程的处置之一,是每个数据中心都必须考虑的问题,在很多特定的场合下,数据中心就需要应急关机。比如:由于数据中心自身存在的缺陷被暴露,或者数据中心所在地区出现了地震、火灾等灾害,使得数据中心可能受到外界的严重威胁,使得数据中心数据受损或者被破坏,在不得已的情况下就需要启动应急关机,临时关闭部分甚至全部的对外业务,保护数据中心不受到损坏;数据中心里的电子设备特别多,这些设备或多或少都存在一些问题,这世界上没有一点BUG都没有的软件,认为自己使用的设备没有问题,只不过是还没有碰到BUG 而已,所以一旦数据中心遇到这些设备BUG,很多时候就要对设备进行软件升级,补丁搞不定就需要升级软件版本,可很多设备还无法做到不重启升级软件,这就需要应急关机,对设备进行关机重启;还有数据中心里的服务器、存储等设备运行久了,长时间运行不重启会累积大量的内存垃圾,周期性地对这些设备进行主动重启,可以提升设备的运行效率,而且主动重启设备还可以规避一些BUG暴露出来,避免BUG导致设备运行异常而对数据中心业务造成影响。如此看来,应急关机是数据中心运行过程中不可缺少的重要一环,每个数据中心都要经历的一个方案,是对数据中心运行的一种主动保护。

    新葡亰496net 1

    新葡亰496net 2

    即使现代服务器拥有强大性能与丰富功能,增加的工作量整合和可靠性预期可能会对您的业务造成损失。您的服务器维护核对清单应包括物理元素以及系统的关键配置。

    目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:

    应急关机需要做好三方面的准备工作,才能通过关机达到预期效果。在一些紧急情况下,有应急关机方案,往往可以使数据中心免遭一劫。首先,关机前要做好关机的流程。在数据中心里,应用与应用、应用与设备、设备与设备之间普遍存在着依赖关系,一定要按照固定的关机顺序来执行,避免应急关机给数据中心带来伤害。比如:在计划关闭网络设备之前,应该先将各种数据库服务、存储服务、支付系统等重要应用切走或者关闭,然后关闭外部访问入口、关闭计算节点、管理节点等,避免直接关机网络设备对正在提供服务的系统紊乱或者数据丢失,做好这些步骤后再去关闭网络设备,一般步骤应该是先关闭应用层服务、然后底层数据传输设备,最后是物理链路,越上层的服务越应该先关机,在应急关机前要将操作的步骤固化下来,然后按照步骤依次执行。与此同时,对于每个操作步骤的耗时要进行预估,确定各个环节花费的时间,控制好应急关机的各环节,一旦与预期不符,还要启动相应的回退或者规避方案。既然叫应急关机,更多的时候关机是突发、临时执行的,难免会出现执行异常的现象,与原有的预计结果不符,这时就需要根据实际情况灵活应对。在应急关机之前应该准备好备件,对关键设备进行备份,将部分配置提前做好,一旦出现异常情况时直接用备件进行替换。在无法避免损失的情况下,一切以关键数据的划分结果为依据进行取舍,这种情况下考验着数据中心人员的智慧。还有关机的时长也是一项必须要考虑的重要因素。很多时候在关机步骤执行完毕之后,往往需要密切关注数据中心外部情况,确定再次开机的时机,也有的时候应急关机是很快又进行开机了,这个关机的时间长短要根据出现紧急情况的具体情况,经过评估来确认关机时长。其次,在关机执行过程中,每一个步骤执行完毕后,都需要对执行结果进行确认,同时与原有预期进行对比,看是否达到预期结果。当发现与设定的情况不符,或者已经出现了失控局面,需要即刻启用回退方案,恢复原有运行状态。最后,应急关机后,根据设定的关机时长,还需要进行开机。开机后,需要对数据中心运行情况进行密切关注,不是设备都启动起来就完事儿了,很多时候评估数据中心是否运行正常、稳定,往往需要观察数天,一旦发现依然存在问题或者风险,还可能需要二次应急关机。

    运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力。

    IT运维自动化概览,说说数据中心日常维护工作的那些事儿。日常检查

    新葡亰496net 3

    (1)运维人员被动、效率低

    从应急关机的三大部分,在关机前要做的工作最多,也最为重要,这也正是应急关机的重要体现。当应急关机策略制定完成后,应该定期组织应急演练,发现缺陷马上进行修复,确保最终应急关机方案没有漏洞,应急关机的方案也不是一成不变的,随着时间的推移和人员的变更,还需要不断进行修改。这样周期性地组织应急关机的演练非常重要,只有这样才能发现方案中的不足。

    通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使公司的互联网业务符合预期的可用性要求,持续稳定地为用户提供务。

    “千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一些数据中心设备厂商提供了检查软件,比如网管软件,安全防护软件等。可以利用这些软件对数据中心网络进行检查,看日志是否有异常告警,网络是否出现过短时中断,端口是否出现UP/DOWN等。通过网络探测软件看网络质量如何。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,然后排除后再切回。

    坚持常规检查

    在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

    任何一个数据中心都不愿意出现需要应急关机的情况,但是一旦必须要做出关机决定时,就一定要提前做好充足准备,有详细的应急关机预案,以免在应急关机时,人员都手忙脚乱,毫无组织,乱作一团,这样的应急关机往往会给数据中心带来严重损失,起不到保护数据中心的目的。

    在安全方面,运维人员需要关注业务运行所涉及的各个层面,确保用户能够安全、完整地访问在线业务。

    对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班维护人员很多都抱着电脑在浏览网页,打游戏。对于日常检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手毛脚,甚至哪个业务走的哪个设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。

    服务器管理员也经常忽略规划维护窗口。不要等到发生实际的问题,再预留时间进行例行的服务器预防性维护。

    (2)缺乏一套高效的IT运维机制

    【编辑推荐】

    从网络边界划分、ACL 管理、流量分析、DDoS 防御,到操作系统、开源软件的漏洞扫描和修补,再到应用服务的XSS、SQL注入防护;

    应用变更

    维护频率取决于设备的年龄、数据中心环境、需要维护的服务器的数量等因素。例如,位于设备仓库中的较旧设备需要比采用HEPA过滤方式部署的、冷却良好的数据中心中的新服务器更频繁的检查。组织可以根据供应商或第三方提供商例程的日常维护计划,如果供应商的服务合同每四到六个月要求进行系统检查,遵循该日程安排。

    目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

    从安全流程梳、代码白盒黑盒扫描、权限审计,到入侵行为检测、业务风险控制等。

    数据中心承载的业务不会是一成不变的,随着业务的多样化,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,做出变更。这时就对维护人员提出了更高的要求,不仅是对数据中心原有业务要非常熟悉,还要对新上的应用业务有正确的理解,这样才能在不影响原有业务的基础上做调整。这样的应用变更每个月可能都要做几次,是数据中心维护人员的必修课,突显了一个技术人员的基本技能水平。这时要对设备操作命令比较熟悉,懂得如何实现业务,要经常和设备厂商的技术人员打交道,通过交流尽快掌握设备操作方法。同时,由于设备厂商对应用业务缺乏了解,这就需要维护人员在应用业务和设备具体实现之间做好协调,处理。以最快的时间和最小的代价完成应用业务部署。

    准备工作决定一切

    (3)缺乏高效的IT运维技术工具

    运维人员需要保障公司提供的互联网业 运行在安全、可控的状态下,确保公司业务数据和用户隐私数据的安全,同时还需要具备抵御各种恶意攻击的能力。

    软硬件升级

    在处理服务器维护清单上的项目之前,请先制定计划。这包括检查系统日志中是否包含需要更多直接关注的任何错误或事件。例如,如果系统日志表示特定内存模块的错误,您应该订购一个替换的DIMM并将其安装。同样,如果有固件,操作系统或代理补丁或更新可用,请在维护窗口之前先测试并检查这些补丁。

    随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

    在确保业务稳定、安全的前提下,还需保障业务高效的运转,公司内快速的产出。运维工作需要对业务进行各方面优化。

    数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分,尤其是软硬件出现故障时,就必须要进行更换。有时为了不影响业务,往往还需要设备厂商提供软件补丁来解决问题。数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升级,这类工作往往都要在业务量最少的凌晨之后进行,维护人员通宵熬夜是常有的事,维护人员要有一个良好的身体素质,否则会吃不消。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了维护人员的家常便饭。

    还需一份明确的将系统脱机并将其返回服务状态的明确计划。在虚拟化技术出现之前,服务器及其驻留应用程序将需要停机以适应维护窗口——通常迫使IT人员在夜间或周末执行维护。虚拟化的服务器支持工作负载迁移,以取代停机时间,因此您可以将应用程序迁移到其他服务器,并且在底层主机系统上发生服务器维护时,将它们保持为可用状态。在服务之前,了解虚拟机应该出现的位置,将虚拟机迁移到所选系统,并确保每个工作负载正在运行,然后再将服务器关闭进行维护。

    IT运维自动化迫在眉睫

    比如,IO 优化提升数据库性能,图片压缩降低带宽使用量等,提供的互联网业务以较小的资源投入带来最大的用户价值和体验。

    突发故障

    此时,通常可以关闭服务器并将其从机架或其他机箱中取出。

    尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。

    同时,还需要通过各种工具平台提升内部产品发布交付的效率,提升公司内运维相关的工作效率。

    没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。这时就显示出维护人员的高技能水平,根据统计百分之八十的故障都是人为故障,所以维护人员的水平高低往往决定了一个数据中心运行的稳定程度。另外对于突发故障,高水平的维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。这时拥有高水平的维护人员对于一个数据中心至关重要,在关键时刻就能派上用场。

    确保服务器正常运行

    现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此, 对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。

    运维的工作方向比较多,随着业务规模的不断发展,越成熟的互联网公司,运维岗位会划分得越细。

    虽然这些工作看起来有些平常,但千万别小看它们。数据中心维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。目前市场上这类专业人才非常抢手,尤其对于具有较深故障排查水平的人才比较缺乏。只有重视数据中心的维护工作,才能给数据中心一个平安。

    一旦服务器脱机时,目视检查其外部和内部气流路径。除去灰尘和其它碎屑能够妨碍冷却空气的任何累积。

    首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。

    当前很多大型的互联网公司,在初创时期只有系统运维,随着服务规模、服务质量的 要求,也逐渐进行了工作细分。

    ...

    从外部空气入口和出口开始检查,随后进入系统机箱,查看CPU散热器和风扇组件,内存模块和所有冷却风扇叶片和风道通道。用清洁、干燥的压缩空气清除适当、静电安全的工作区上的灰尘或碎屑。不要在机架上打扫服务器。

    其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。

    一般情况下运维团队的工作分类和职责如下。

    打扫灰尘是一个古老的流程,但这并不意味着它已经过时了。灰尘是一种绝热材料,如何去掉它们的方法非常重要,现在替代的冷却方案和ASHRAE建议已经提高了数据中心的运行温度。灰尘和其他气流障碍物将导致服务器使用更多的能量,甚至会引起本可避免的早期组件故障。

    再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

    新葡亰496net 4

    检查本地磁盘

    IT运维自动化管理的具体内容

    系统运维

    许多服务器依靠内部硬盘进行引导、工作负载启动和存储,用户数据和其他功能。磁盘介质问题严重损害了工作负载的性能和稳定性,往往导致磁盘过早故障。

    IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前--自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。

    系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修。详细的工作职责如下:

    磁介质不完美。普遍的问题包括扇区损坏和碎片。RAID在存储错误后保持数据完整性有很大的进步,但较小的1U机架式服务器不能提供足够的物理空间来部署磁盘阵列。使用CHKDSK(检查磁盘)实用程序等工具来验证磁盘的完整性,并尝试恢复任何损坏的扇区。Windows Server 2012的更新版本的CHKDSK可以快速分析和修复文件系统结构中的磁盘问题。

    简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

    1.IDC数据中心建设

    只要NTFS和文件分配表或FAT文件系统首先使用磁盘空间可用的集群,磁盘碎片根本不会消失。碎片可能会拖慢服务器的磁盘并导致故障。Windows Server 2012下的Optimize-Volume等实用程序会将每个文件的集群连续排列在磁盘上。

    IT运维自动化的工具

    收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。

    阅读事件日志的详细报告

    对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:

    2.网络建设

    服务器在事件日志中记录大量信息,特别是有关问题的详细信息。没有仔细检查系统,恶意软件和其他事件日志,没有服务器维护清单完成。当然,关键的系统问题应该立即引发IT管理员和技术人员的关注,但是, 无数的小问题可能预示着长期和严重的问题。

    监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等;

    设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作。

    当您查阅日志时,请检查报告设置并验证警报和警报收件人是否正常。例如,如果服务器组有技术人员离职,则需要更新服务器的报告系统。仔细检查联系方式;如果错误发生在工作时间之外,则报告发给技术人员公司电子邮件地址的严重错误可能完全不够用(译者注:非工作时间,技术人员可能无法登陆公司邮箱获取重要的问题报告)。

    配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置;

    3.LVS 负载均衡和 SNAT 建设

    主动跟日志数据。当日志检查发现长期或重复的问题时,积极的调查可以在问题升级之前进行问题解决。例如,如果服务器的日志报告内存模块中的可恢复性错误,它将不会触发关键警报。但是重复的实例会导致模块出现问题,IT人员可以执行更详细的诊断来识别即将发生的故障。

    维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人;

    LVS 是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群。

    如果问题不是那么严重,无需关闭服务器,则可以在更换硬件进入之前重新恢复生产状态。

    系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控;

    完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击能力。

    为补丁和更新腾出时间

    维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
    编辑本段建立高效IT运维自动化管理的步骤

    SNAT .集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。

    服务器的软件栈——BIOS、操作系统、虚拟机管理程序、驱动程序、应用程序、支持工具——都必须进行交互和协同工作。不幸的是,软件代码少有精致或无问题的时候,所以这些软件拼图经常被修补或更新,以修复错误、提高安全性、简化互操作性和提高性能。

    (1)建立自动化运维管理平台

    4.CDN 规划和建设

    生产软件不具备自动更新的能力。管理员应确定是否需要修补程序或升级,然后彻底评估和测试更改。如果更新解决的是您服务器没遇到的问题,为何要冒发生其他问题的风险(去修复补丁)?

    IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

    CDN 工作划分为第三方和自建两部分。

    软件开发人员无法测试硬件和软件的每个潜在组合,因此修补程序和更新可能会导致比修复特定服务器或软件堆栈以外的问题。例如,监控代理补丁可能导致重要工作负载的性能问题,因为新代理所占用的带宽比预期的要多。

    (2)建立故障事件自动触发流程,提高故障处理效率

    建立第三方 CDN 的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN 系统稳定、高效运行。

    向DevOps的转变,更微小和更频繁的更新加剧了潜在的问题。在部署之前,您仍然需要在实验室中测试任何修补程序或更新。并且始终确保您可以撤销更改,并在必要时恢复原始的软件配置。

    所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。

    分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。

    新葡亰496net,验证和记录任何的变更

    (3)建立规范的事件跟踪流程,强化运维执行力度

    5.服务器选型、交付和维护

    在诸如硬件、软件、系统配置更改的维护窗口中,服务器可能会发生很多事情。完成服务器维护清单后,IT员工必须验证并记录任何新的系统状态。例如,更改网络适配器,添加或更换DIMM,更新操作系统和许多其他操作可能会改变系统的配置。依赖于系统配置管理工具的组织,可能需要更新或“发现”变更—在系统允许恢复使用之前将这些变更记录到配置管理数据库。IT人员可能需要更新任何强制或期望的状态配置状态以允许变更。

    IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

    负责服务器的测试选型,包含服务器整机、部件的基础性测试和业务测试,降低整机功率,提升机架部署密度等。

    还可以验证防火墙设置、防恶意软件版本或扫描频率和入侵检测/防御(IDS/IPS)设置等系统安全性。安全检查可以帮助确保,对系统软件的变更不会无意中暴露在先前配置中可能已关闭的任何攻击路径。

    (4)设立IT运维关键流程,引入优先处理原则

    结合对公司业务的了解,推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。

    还有,最后,当服务器重新上线运行,不要忘记更新任何系统备份或灾难恢复(DR)内容。除非特别需要调整相关设置以反映服务器的角色变化,验证服务器的备份/DR情况或频率是否保持不变。

    设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。

    负责整体平台的 OS 选型、定制和内核优化,以及 Patch 的更新和内部版本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟进日常各类 OS 相关故障;针对不同的业务类型,提供定向的优化支持。

    【编辑推荐】

    变革带来的思考

    7.资产管理

    当变革产生的时候,如果不能主动应对变革,必然会产生失衡,失衡的后果就是信息化建设的坍塌。科技的发展带来了新的IT运维需求,相关服务提供商需 要做的事情是找到应对需求变化的理论方法和技术手段。而用户的信息化管理者需要做的则是找到合理的解决方案并且快速的部署实施。

    记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确性;开放API接口,为自动化运维提供数据支持。

    实际上,无论用户还是IT运维服务提供商,他们所探求的核心目的是一致的,那就是将分散的IT资源进行统一的融合管理。不同的是IT运维服务提供商是解决问题的技术提供者,用户是解决问题的方案使用者。

    8.基础服务建设

    对于统一的融合管理,需要融合哪些方面?通过什么样的手段进行统一管理?对于这些问题,H3C的iMC2.0数据中心管理解决方案提出了很好的参考意见。

    业务对 DNS、NTP、SYSLOG 等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务。

    想要做到统一融合管理,需要解决的问题可以分成四个方向:

    应用运维

    一、融合的基础设施管理;

    应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作。详细的工作职责如下所述。

    二、智能的自动化管理;

    1.设计评审

    三、完善的安全管控策略;

    在产品研发阶段,参与产品设计评审,从运维的角度提出评审意见,使服务满足运维准入的高可用要求。

    四、开放的IT管理架构。

    2.服务管理

    融合的基础设施管理包括:

    负责制定线上业务升级变更及回滚方案,并进行变更实施。掌握所负责的服务及服务间关联关系、服务依赖的各种资源。能够发现服务上的缺陷,及时通报并推进解决。

    1、 统一网络管理平台。通过统一的网络管理平台将海量的网络和服务器节点进行实时的监控,通过有效的阀值设定,实现准确的故障以及与故障报警以及准确定位。

    制定服务稳定性指标及准入标准,同时不断完善和优化程序和系统的功能、效率,提高运行质量。完善监控内容,提高报警准确度。

    2、 虚拟网络管理。将虚拟网络与物理拓扑图进行结合,动态显示虚拟网络、虚拟机的变化迁移,将原本比较抽象的虚拟机和虚拟网络进行实体化管理,帮助用户解决虚拟化的管理瓶颈。

    在线上服务出现故障时,第一时间响应,对已知线上故障能按流程进行通报并按预案执行,未知故障组织相关人员联合排障。

    3、 服务器应用管理。针对计算核心的实施监控,针对服务器本身硬件配置以及相关操作系统、虚拟化系统进行监控管理,确保业务计算核心稳定运行。

    3.资源管理

    4、 业务流量分析。针对网络流量以及相关数据包进行分析,一方面保证相关业务的带宽稳定,同时衡量出不同业务对于信息化资源的需求,另一方面,对网络流量的分析也可以杜绝安全隐患。

    对各服务的服务器资产进行管理,梳理服务器资源状况、数据中心分布情况、网络专线及带宽情况,能够合理使用服务器资源,根据不同服务的需求,分配不同配置的服务器,确保服务器资源的充分利用。

    智能的自动化管理应该具有的特性包括:

    4.例行检查

    1、虚拟资源自动迁移。服务器虚拟化为保障VM系统的可靠性、灵活性,提供了VM迁移、以及高可用性HA)、热备容错FT)、动态资源池调度 DRS)等特性,这些特性都会影响VM的物理部署位置,而VM接入物理网络设备是需要一定的网络资源配置的,其接入位置的动态性就要求物理网络配置能提 供随需而动的管理能力,否则VM对网络的连通性、安全性、可靠性需求就无法得到保障。为了实现网络配置的动态迁移、随需而动,准确定位VM和物理交换机的 连接关系是关键能力。正在形成标准的802.1Qbg协议不仅保证了所有网络流量都必须在物理交换机上处理,而且通过EDCP/CDCP/VDP等协议解 决了VM和交换机连接关系的定位需求。另一方面物理交换机端口和VM的1:N连接关系,使针对每个VM的网络配置实现精细化控制是非常复杂的,H3C实现 的802.1Qbg方案通过在物理交换机上支持vPort概念,为解决该问题提供了更好的支持。iMC基于802.1Qbg实现了虚拟化环境中网络配置的 自动迁移能力。同时基于iMC对于网络和服务器、VM的融合拓扑分析能力,支持vSwitch环境下的网络配置自动迁移能力。首先根据用户应用对网络资源 的需求,定义网络资源类型。然后将此网络资源类型分配给不同的VM,则VM在迁移或启动时,就会在网络设备中自动分配相应的网络资源。

    制定服务例行排查点,并不断完善。根据制定的服务排查点,对服务进行定期检查。对排查过程中发现的问题,及时进行追查,排除可能存在的隐患。

    2、数据中心设备“零配置”。这里所说的“零配置”是相关设备与IT运维系统之间的配置关系。对于企业用户而言,内部的信息化设备的品牌繁多,相关 设备的更新换代也比较频繁。如果运维系统需要针对每一台设备进行配置备案的话,工作量浩大而繁琐。而iMC的“零配置”指的是IT运维系统对于相关设备的 自动识别,相关监控数据的自动采集和抓取,这样既节约了运维系统的上线时间,又降低了管理者的工作成本。
     
    3、网络服务自动编排。在云时代的数据中心环境中,我们所面临的不再是一成不变的设备环境,基础设施可能随着业务需求的变换而不断增长、调整。为了屏蔽不 同厂商、不同型号设备的差异,使IT管理员聚焦在服务本身,必须要作到对资源及业务的快速开通,实现高度智能的自动化管理。iMC借助融合的资源管理能 力,将各种资源提供的能力抽象出来,建立统一的机制,实现基于业务的编排能力。
     
    4、IT服务水平自动度量。根据ITIL信息技术基础架构库)规范要求,数据中心IT服务部门通过服务水平管理SLA)来保证其服务有效,建立服务健 康水平监督体系,来保证服务达到规定的健康水平等级,即使服务失败,也可以正确分析原因,帮助IT服务部门做出正确的应对决策。

    5.预案管理

    完善的安全管控策略所需要的要素包括:

    确定服务所需的各项监控、系统指标的阈值或临界点,以及出现该情况后的处理预案。

    1、配置合规检查

    建立和更新服务预案文档,并根据日常故障情况不断补充完善,提高预案完备性。能够制定和评审各类预案,周期性进行预案演练,确保预案的可执行性。

    数据中心规模庞大,设备及系统众多,管理人员经常面临的问题就是大量重复设备配置的规范性、安全性问题。伴随着各种审计体系在级别和频度上的不断增 加,传统的通过人工方式检查设备规范性的审计方法,不仅效率低下,还会存在遗漏,已经无法适应云时代数据中心的安全管控需求。都说安全问题“三分技术,七 分管理”,但是想要把那“七分管理”iMC配置合规检查内置常用的策略,如NSA路由安全建议、PCI、Syslog功能、设备安全高级建议等,以满足用 户的日常检查管理。用户可以自定义合规策略,对网络设备进行配置检查。合规策略包括一个或多个检查规则,一个检查规则分为配置文件、接口、链路、聚合链 路、配置片段、脚本等不同类型,包含支持的厂商、设备系列、检查内容来源、规则内容等信息。用户可通过创建检查任务来检查设备是否符合合规策略,检查任务 包含待检查的合规策略、设备的信息等。检查任务执行完毕后,可以通过报表查看设备违背合规的信息。对于违背合规的设备,用户可以创建违规修复任务进行修 复,及时解决在数据中心环境中出现的配置问题,提高安全等级及各种法案法规的遵从度。

    6.数据备份

    2、设备操作审计

    制定数据备份策略,按规范进行数据备份工作。保证数据备份的可用性和完整性,定期开展数据恢复性测试。

    设备资源是数据中心的基础资源,对于设备管理的安全性也是信息安全的重要组成部分。与配置合规检查不同的是,iMC设备操作审计从验证管理员登陆设 备的身份、权限出发,根据企业设定的规则,合理分配访问设备的权限,即明确管理用户可访问的设备,可执行的命令,可完成的操作并记录设备管理员详细的操作 行为信息,以利于以后历史回溯和故障的判断和分析。iMC设备操作审计通过TACACS 协议实现,提供基于接入情境的控制策略,统一的监控设备管理员的 登录和执行命令行操作,支持主流厂商的设备,简化操作员为设备管理员细化权限的过程,为管理带来了便捷。

    数据库运维

    开放的IT管理架构的特点:

    数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化,对数据库进行变更、监控、备份、高可用设计等工作。详细的工作职责如下所述。

    云计算最终的目标是达到系统的按需运营,运营系统能够根据用户请求执行服务的开通。任何一套管理系统,都不可能满足所有用户的需求,在云时代尤其如 此,这就要求用户在建设数据中心时具备开放的管理战略,IT管理系统具备开放的能力。iMC是一个开放架构的SOA平台,所有iMC相关产品都是在此统一 平台上开发的,并在此平台上封装网络服务并开放服务接口,第三方产品可以使用基于iMC 平台和开放的API接口实现对网络资源的调度。

    1.设计评审

    总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

    在产品研发初始阶段,参与设计方案评审,从DBA的角度提出数据存储方案、库表设计方案、SQL开发标准、索引设计方案等,使服务满足数据库使用的高可用、高性能要求。

    看了这么多内容,相信大家对于IT运维自动化以及iMC已经有一些相关的了解了,感谢大家参与我们的活动,赶快回到论坛领取精美礼品吧,也许幸运大抽奖就会降临到您的头上哦。

    2.容量规划

    论坛活动地址:

    掌握所负责服务的数据库的容量上限,清楚地了解当前瓶颈点,当服务还未到达容量上限时,及时进行优化、分拆或者扩容。

    ...

    3.数据备份与灾备

    制定数据备份与灾备策略,定期完成数据恢复性测试,保证数据备份的可用性和完整性。

    4.数据库监控

    完善数据库存活和性能监控,及时了解数据库运行状态及故障。

    数据库安全建设数据库账号体系,严格控制账号权限与开放范围,降低误操作和数据泄露的风险;加强离线备份数据的管理,降低数据泄露的风险。

    5.数据库高可用和性能优化

    对数据库单点风险和故障设计相应的切换方案,降低故障对数据库服务的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保障成本不增加或者少量增加的情况下,数据库可以支撑更多的业务请求。

    6.自动化系统建设

    设计开发数据库自动化运维系统,包括数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审核和上线、故障切换等功能。

    7.运维研发

    运维研发负责通用的运维平台设计和研发工作,如:资产管理、监控系统、运维平台、数据权限管理系统等。提供各种API供运维或研发人员使用,封装更高层的自动化运维系统。详细的工作职责如下所述。

    8.运维平台

    记录和管理服务及其关联关系,协助运维人员自动化、流程化地完成日常运维操作,包括机器管理、重启、改名、初始化、域名管理、流量切换和故障预案实施等。

    9.监控系统

    负责监控系统的设计、开发工作,完成公司服务器和各种网络设备的资源指标、线上业务运行指标的收集、告警、存储、分析、展示和数据挖掘等工作,持续提高告警的及时性、准确性和智能性,促进公司服务器资源的合理化调配。

    10.自动化部署系统

    参与部署自动化系统的开发,负责自动化部署系统所需要的基础数据和信息,负责权限管理、API开发、Web端开发。结合云计算,研发和提供PaaS相关高可用平台,进一步提高服务的部署速度和用户体验,提升资源利用率。

    运维安全

    运维安全负责网络、系统和业务等方面的安全加固工作,进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理。详细的工作职责如下所述。

    1.安全制度建立

    根据公司内部的具体流程,制定切实可行,且行之有效的安全制度。

    2.安全培训

    定期向员工提供具有针对性的安全培训和考核,在全公司内建立安全负责人制度。

    3.风险评估

    通过黑白盒测试和检查机制,定期产生对物理网络、服务器、业务应用、用户数据等方面的总体风险评估结果。

    4.安全建设

    根据风险评估结果,加固最薄弱的环节,包括设计安全防线、部署安全设备、及时更新补丁、防御病毒、源代码自动扫描和业务产品安全咨询等。为了降低可能泄露数据的价值,通过加密、匿名化、混淆数据,乃至定期删除等技术手段和流程来达到目的。

    5.安全合规

    为了满足例如支付牌照等合规性要求,安全团队承担着安全合规的对外接口人工作。

    6.应急响应

    建立安全报警系统,通过安全中心收集第三方发现的安全问题,组织各部门对已经发现的安全问题进行修复、影响面评估、事后安全原因追查。

    运维工作发展过程

    早期的运维团队在人员较少的情况下,主要是进行数据中心建设、基础网络建设、服务器采购和服务器安装交付工作。几乎很少涉及线上服务的变更、监控、管理等工作。

    这个时候的运维团队更多的属于基础建设的角色,提供一个简单、可用的网络环境和系统环境即可。

    随着业务产品的逐渐成熟,对于服务质量方面就有了更高的要求。这个时候的运维团队还会承担一些服务器监控的工作,同时会负责 LVS、Nginx 等与业务逻辑无关的 4/7 层运维工作。

    这个时候服务变更更多的是逐台的手工操作,或者有一些简单批量脚本的出现。监控的焦点更多的在服务器状态和资源使用情况上,对服务应用状态的监控几乎很少,监控更多的使用各种开源系统如Nagios、Cacti等。

    由于业务规模和复杂度的持续增加,运维团队会逐渐划分为应用运维和系统运维两大块。应用运维开始接手线上业务,逐步开展服务监控梳理、数据备份以及服务变更的工作。

    随着对服务的深入,应用运维工程师有能力开始对服务进行一些简单的优化。同时,为了应对每天大量的服务变更,我们也开始编写各类运维工具,针对某些特定的服务能够很方便的批量变更。

    随着业务规模的增大,基础设施由于容量规划不足或抵御风险能力较弱导致的故障也越来越多,迫使运维人员开始将更多的精力投入到多数据中心容灾、预案管理的方向上。

    业务规模达到一定程度后,开源的监控系统在性能和功能方面,已经无法满足业务需求;大量的服务变更、复杂的服务关系,以前靠人工记录、工具变更的方式不管在效率还是准确性方面也都无法满足业务需求。

    在安全方面也出现了各种大大小小的事件,迫使我们投入更多的精力在安全防御上。逐渐的,运维团队形成之前提到的5个大的工作分类,每个分类都需要有专精的人才。

    这个时候系统运维更专注于基础设施的建设和运维,提供稳定、高效的网络环境,交付服务器等资源给应用运维工程师。应用运维更专注于服务运行状态和效率。

    数据库运维属于应用运维工作的细化,更专注于数据库领域的自动化、性能优化和安全防御。运维研发和运维安全提供各类平台、工具,进一步提升运维工程师的工作效率,使业务服务运行得更加稳定、高效和安全。

    我们将运维发展过程划分为4个阶段,如图1-2所示。

    新葡亰496net 5

    图1-2运维发展过程

    手工管理阶段:业务流量不大,服务器数量相对较少,系统复杂度不高。对于日常的业务管理操作,大家更多的是逐台登录服务器进行手工操作,属于各自为战,每个人都有自己的操作方式,缺少必要的操作标准、流程机制,比如业务目录环境都是各式各样的。

    工具批量操作阶段:随着服务器规模、系统复杂度的增加,全人工的操作方式已经不能满足业务的快速发展需要。因此,运维人员逐渐开始使用批量化的操作工具,针对不同操作类型出现了不同的脚本程序。

    但各团队都有自己的工具,每次操作需求发生变化时都需要调整工具。这主要是因为对于环境、操作的规范不够,导致可程序化处理能力较弱。此时,虽然效率提升了一部分,但很快又遇到了瓶颈。

    操作的质量并没有太多的提升,甚至可能因为批量执行而导致更大规模的问题出现。我们开始建立大量的流程规范,比如复查机制,先上线一台服务器观察10分钟后再继续后面的操作,一次升级完成后至少要观察20分钟等。

    这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而降低了工作效率。

    平台管理阶段:在这个阶段,对于运维效率和误操作率有了更高的要求,我们决定开始建设运维平台,通过平台承载标准、流程,进而解放人力和提高质量。

    这个时候对服务的变更动作进行了抽象,形成了操作方法、服务目录环境、服务运行方式等统一的标准,如程序的启停接口必须包括启动、停止、重载等。通过平台来约束操作流程,如上面提到的上线一台服务器观察10分钟。

    在平台中强制设定暂停检查点,在第一台服务器操作完成后,需要运维人员填写相应的检查项,然后才可以继续执行后续的部署动作。

    系统自调度阶段:更大规模的服务数量、更复杂的服务关联关系、各个运维平台的林立,原有的将批量操作转化成平台操作的方式已经不再适合,需要对服务变更进行更高一层的抽象。

    将每一台服务器抽象成一个容器,由调度系统根据资源使用情况,将服务调度、部署到合适的服务器上,自动化完成与周边各个运维系统的联动,比如监控系统、日志系统、备份系统等。

    通过自调度系统,根据服务运行情况动态伸缩容量,能够自动化处理常见的服务故障。运维人员的工作也会前置到产品设计阶段,协助研发人员改造服务使其可以接入到自调度系统中。

    在整个运维的发展过程中,希望所有的工作都自动化起来,减少人的重复工作,降低知识传递的成本,使我们的运维交付更高效、更安全,使产品运行更稳定。对于故障的处理,也希望由事后处理变成提前发现,由人工处理变成系统自动容灾。

    本文由新葡亰496net发布于服务器网络,转载请注明出处:IT运维自动化概览,说说数据中心日常维护工作的

    关键词: