原文:《自動化運(yùn)維》

一、傳統(tǒng)運(yùn)維方式簡介

傳統(tǒng)的IT運(yùn)維仍然是等到IT故障出現(xiàn)后再由運(yùn)維人員采取相應(yīng)的補(bǔ)救措施。這種被動、孤立、半自動式的IT運(yùn)維管理模式經(jīng)常讓IT部門疲憊不堪,主要表現(xiàn)在以下三個方面。

1)運(yùn)維人員被動、效率低。

2)缺乏一套高效的IT運(yùn)維機(jī)制

3)缺乏高效的IT運(yùn)維技術(shù)工具。 

二、自動化運(yùn)維簡介

IT運(yùn)維已經(jīng)在風(fēng)風(fēng)雨雨中走過了十幾個春秋,如今它正以一種全新的姿態(tài)擺在我們面前,運(yùn)維自動化是IT技術(shù)發(fā)展的必然結(jié)果,現(xiàn)在IT系統(tǒng)的復(fù)雜性已經(jīng)客觀上要求IT運(yùn)維必須能夠?qū)崿F(xiàn)數(shù)字化、自動化維護(hù)。

運(yùn)維自動化是指將IT運(yùn)維中日常的、大量的重復(fù)性工作自動化,把過去的手工執(zhí)行轉(zhuǎn)為自動化操作。自動化是IT運(yùn)維工作的升華,IT運(yùn)維自動化不單純是一個維護(hù)過程,更是一個管理的提升過程,是IT運(yùn)維的最高層次,也是未來的發(fā)展趨勢。 

三、運(yùn)維自動化的具體內(nèi)容

日常IT運(yùn)維中大量的重復(fù)性工作(小到簡單的日常檢查、配置變更和軟件安裝,大到整個變更流程的組織調(diào)度)由過去的手工執(zhí)行轉(zhuǎn)為自動化操作,從而減少乃至消除運(yùn)維中的延遲,實(shí)現(xiàn)“零延時(shí)”的IT運(yùn)維。

簡單地說,IT運(yùn)維自動化是指基于流程化的框架,將事件與IT流程相關(guān)聯(lián),一旦被監(jiān)控系統(tǒng)發(fā)現(xiàn)性能超標(biāo)或宕機(jī),會觸發(fā)相關(guān)事件以及事先定義好的流程,可自動啟動故障響應(yīng)和恢復(fù)機(jī)制。

3.1、建立高效的IT自動化運(yùn)維管理

建立高效的IT自動化運(yùn)維管理的步驟主要包括以下幾點(diǎn)。

1)建立自動化運(yùn)維管理平臺。

IT運(yùn)維自動化管理建設(shè)的第一步是要先建立IT運(yùn)維的自動化監(jiān)控和管理平臺。通過監(jiān)控工具實(shí)現(xiàn)對用戶操作規(guī)范的約束和對IT資源進(jìn)行實(shí)時(shí)監(jiān)控,包括服務(wù)器、數(shù)據(jù)庫、中間件、存儲備份、網(wǎng)絡(luò)、安全、機(jī)房、業(yè)務(wù)應(yīng)用和客戶端等內(nèi)容,通過自動監(jiān)控管理平臺實(shí)現(xiàn)故障或問題綜合處理和集中管理。

2)建立故障事件自動觸發(fā)流程,提高故障處理效率。

所有IT設(shè)備在遇到問題時(shí)要會自動報(bào)警,無論是系統(tǒng)自動報(bào)警還是使用人員報(bào)的故障,應(yīng)以紅色標(biāo)識顯示在運(yùn)維屏幕上。然后IT運(yùn)維人員只需要按照相關(guān)知識庫的數(shù)據(jù),一步一步操作就可以。

3)建立規(guī)范的事件跟蹤流程,強(qiáng)化運(yùn)維執(zhí)行力度。

需要建立故障和事件處理跟蹤流程,利用表格工具等記錄故障及其處理情況,以建立運(yùn)維日志,并定期回顧從中辨識和發(fā)現(xiàn)問題的線索和根源。

4)設(shè)立IT運(yùn)維關(guān)鍵流程,引入優(yōu)先處理原則。

設(shè)置自動化流程時(shí)還需要引入優(yōu)先處理原則,例行的事按常規(guī)處理,特別事件要按優(yōu)先級次序處理,也就是把事件細(xì)分為例行事件和例外關(guān)鍵事件。

3.2、IT自動化運(yùn)維工具

對于企業(yè)來說,要特別關(guān)注兩類自動化工具:一是IT運(yùn)維監(jiān)控和診斷優(yōu)化工具;二是運(yùn)維流程自動化工具。這兩類工具主要應(yīng)用于如下場景:

1)監(jiān)控自動化:是指對重要的IT設(shè)備實(shí)施主動式監(jiān)控,如路由器、交換機(jī)、防火墻等。

2)配置變更檢測自動化:是指IT設(shè)備配置參數(shù)一旦發(fā)生變化,將觸發(fā)變更流程轉(zhuǎn)給相關(guān)技術(shù)人員進(jìn)行確認(rèn),通過自動檢測協(xié)助IT運(yùn)維人員發(fā)現(xiàn)和維護(hù)配置。

3)維護(hù)事件提醒自動化:是指通過對IT設(shè)備和應(yīng)用活動的實(shí)時(shí)監(jiān)控,當(dāng)發(fā)生異常事件時(shí)系統(tǒng)自動啟動報(bào)警和響應(yīng)機(jī)制,第一時(shí)間通知相關(guān)責(zé)任人。

4)系統(tǒng)健康檢測自動化:是指定期自動地對IT設(shè)備硬件和應(yīng)用系統(tǒng)進(jìn)行健康巡檢,配合IT運(yùn)維團(tuán)隊(duì)實(shí)施對系統(tǒng)的健康檢查和監(jiān)控。

5)維護(hù)報(bào)告生成自動化:是指定期自動地對系統(tǒng)做日志的收集分析,記錄系統(tǒng)運(yùn)行狀況,并通過階段性的監(jiān)控、分析和總結(jié),定時(shí)提供IT運(yùn)維的可用性、性能、系統(tǒng)資源利用狀況分析報(bào)告。