◼︎ 穩定運行:即資産(chǎn)上線(xiàn)後,确保其持續穩定運行,盡可(kě)能(néng)少的出現故障。
美創結合浴盆曲線(xiàn)模型,将資産(chǎn)的生命周期劃分(fēn)為(wèi):剛上線(xiàn)時不穩定且故障率較高的磨合期、相對平穩運行的使用(yòng)期,以及故障率快速增加的劣化期。
◼︎ 極限生存:即一旦資産(chǎn)出現不可(kě)修複、短期内無法修複的故障時,通過數據備份、業務(wù)容災、應急切換和運行恢複等機制,讓業務(wù)在故障時以最短時間快速感知、幹預和恢複運行。
◼︎ MTBF/MTTD/MTTR/MTTF:用(yòng)于衡量可(kě)用(yòng)性和故障恢複,韌性運行安(ān)全體(tǐ)系旨在不斷提高MTBF和MTTF,并不斷降低MTTD/MTTR,以确保系統的穩定運行。
◼︎ RPO/RTO:用(yòng)于衡量業務(wù)連續性和數據完整性,韌性運行安(ān)全體(tǐ)系建設和運營旨在不斷降低和優化RPO和RTO。
韌性運行安(ān)全體(tǐ)系框架
美創聚焦持續運行、極限生存,基于數據庫運行安(ān)全管理(lǐ)平台OSM、“雲端”架構災備一體(tǐ)化平台DRCC、數據庫防水壩、諾亞防勒索等産(chǎn)品體(tǐ)系,統一納管雲端和本地的各類資産(chǎn),并通過體(tǐ)系化流程化管理(lǐ)和運營策略,簡化複雜性。
在韌性運行安(ān)全體(tǐ)系建設中(zhōng),美創通過三個具(jù)體(tǐ)行動實現落地,包括:資産(chǎn)上線(xiàn)前的運維左移、資産(chǎn)運行中(zhōng)的運行保障、極限生存。
通過數據庫運行安(ān)全管理(lǐ)平台(OSM)、數據庫防水壩的提前介入,将日常上線(xiàn)後才進行的運維工(gōng)作(zuò)提前到業務(wù)的設計、開發、測試等階段進行,實現标準化配置、合規性檢查、SQL審核、授權審批,智能(néng)分(fēn)析和故障快速定位,減少業務(wù)上線(xiàn)後的故障和風險,提高業務(wù)穩定性和可(kě)靠性。
基于數據庫運行安(ān)全管理(lǐ)平台(OSM)、數據庫防水壩進行主動預防性維護,提供實時監控資産(chǎn)運行狀态和健康巡檢、快速感知風險減少非預期的數據變更,從源頭降低對系統運行安(ān)全造成根本性破壞;當故障發生時OSM提供運維編排能(néng)力,及時自動修複。
在業務(wù)正式上線(xiàn)後,發生了局部或者全部的不可(kě)修複性故障時,通過基于災備一體(tǐ)化平台搭建的可(kě)靠性備用(yòng)系統或數據,快速接管業務(wù),并提供災難後的數據重建恢複能(néng)力,确保數據和業務(wù)在漫長(cháng)的生命周期中(zhōng)能(néng)夠持續穩定運行。
同時,為(wèi)了保障備用(yòng)業務(wù)和數據的可(kě)靠性,引入基于零信任的諾亞防勒索系統,實時監控各類進程對數據文(wén)件的讀寫操作(zuò),快速識别、阻斷非法入侵行為(wèi),保護底線(xiàn)數據安(ān)全性。