人成在线免费视频|久久久久成人国产免费|亚洲成a人片4444|初尝人妻少妇中文字幕XX|久久综合婷婷噜噜综合网站|粉嫩小泬无遮挡久久久久久|国产精品午夜无码AV天美传媒|欧美日韩专区国产精品一区二区

資訊

精準(zhǔn)傳達(dá) ? 有效溝通

從品牌網(wǎng)站建設(shè)到網(wǎng)絡(luò)營銷策劃,從策略到執(zhí)行的一站式服務(wù)

構(gòu)建面向IT性能的精益運維組織

來源:公司資訊 | 2021.09.08

追求極致IT性能的運維是精益運維的高度體現(xiàn)!

在復(fù)雜的IT運維組織事務(wù)活動中,如何確定IT運維的目標(biāo),對于很多運維組織來說也是一個難點。有些運維組織用的是穩(wěn)定性/可用性/質(zhì)量的指標(biāo),有些團(tuán)隊用的是效率,有些團(tuán)隊用的成本指標(biāo)等等。

說實話,在以上諸多指標(biāo)中,能夠帶來巨大變革力和牽引力的,我個人認(rèn)為還是效率,或者是性能,也就是說,完成某個事情能有多快。當(dāng)然很多時候,需要對這個IT性能形成精確的理解,才能形成真正的作用力。

有人會說,為什么運維的核心目標(biāo)不是追求業(yè)務(wù)的穩(wěn)定性/可用性/質(zhì)量呢?

我個人一直秉承的觀點,這些指標(biāo)根本不是運維人的核心職責(zé),而是開發(fā)、測試和運維共同的核心職責(zé)。

記得JezHumble說過,“測試者并不能增加產(chǎn)品的質(zhì)量,而只是讓質(zhì)量透明出來,更直接的說測試是為了確認(rèn)軟件是否可部署”。而戴明在談質(zhì)量管理的時候,更是直接了當(dāng)?shù)恼f“停止事后檢驗來達(dá)到高質(zhì)量的依賴,應(yīng)該在產(chǎn)品之初就開始考慮質(zhì)量”。

其實類推到我們運維過程也是同樣如此,軟件不能靠后期的運維來達(dá)到業(yè)務(wù)的高質(zhì)量,而更應(yīng)該把運維作為早期軟件設(shè)計過程的一部分。

我們講要追求IT性能,這個也是來源早期的一個管理思想—-精益思想。精益思想的五個原則所蘊(yùn)含的內(nèi)在核心就是“拒絕浪費,創(chuàng)造價值”:

從一開始就要求從客戶的角度來定義產(chǎn)品價值(滿足某類功能或者服務(wù)的需求),通過這一價值的定義,再反向推導(dǎo)出內(nèi)部的價值活動流,比如說需求設(shè)計、概要設(shè)計、詳細(xì)設(shè)計、軟件研發(fā)、測試、運維等等。

拉動式價值的創(chuàng)造過程是一種讓客戶的價值訴求決定內(nèi)部活動的價值創(chuàng)造,是一種精益式做法,是有目標(biāo)的行事。持續(xù)改進(jìn)直到完美狀態(tài)。其實這個從軟件研發(fā)傳統(tǒng)的瀑布模型到敏捷模型,再到DevOps模型,目的都是讓軟件創(chuàng)作的多個職能組很好的銜接起來,而不產(chǎn)生停滯的狀態(tài)。

這個地方更需要提到的是持續(xù)集成,它是實現(xiàn)精益的一個有效手段,落地的最佳方式。這一思想的背后,無不透露著對性能、對質(zhì)量的極致要求,比如說等待就是一種精益思想所理解下的性能浪費。

從軟件交付的角度來說,運維是離用戶最近的,那么運維的IT性能和整個IT組織的性能息息相關(guān),另外運維要把IT性能要求反向傳導(dǎo)對研發(fā)、測試過程,催其持續(xù)改進(jìn)。而對IT性能的核心的識別原則,就是從用戶的角度來設(shè)置指標(biāo)。

其實本質(zhì)上來說,IT性能的核心指標(biāo)是吞吐率和延時,但這兩個指標(biāo)需要和用戶價值流進(jìn)一步去關(guān)聯(lián)。進(jìn)一步分解,就可以形成如下的指標(biāo)體系:

服務(wù)交付的延時

延時就是看完成一次服務(wù)交付要多長時間。這個地方的場景就很多了,核心的就兩類場景:

持續(xù)的軟件新功能和新特性交付過程,應(yīng)用發(fā)布的過程,處理的粒度是應(yīng)用,和研發(fā)、測試過程密切相關(guān)。這個就是當(dāng)前持續(xù)集成思考的范疇。

因為容量、服務(wù)搬遷等原因,面向用戶的整體服務(wù)的交付過程,比如說用戶訪問量增加,擴(kuò)容數(shù)據(jù)庫,擴(kuò)容前端,擴(kuò)容某個組件等等,這個聚焦在運維內(nèi)部過程就可以了,無須軟件設(shè)計、軟件研發(fā)過程的接入,這是一種純運維的輸出。以下就是一個完整的服務(wù)上線過程圖:

服務(wù)交付的頻率

頻率可以算是單位周期內(nèi)的交付能力。一個典型的場景就是每個月持續(xù)部署的數(shù)量,由此折算出交付的頻率怎么樣。以下是我們當(dāng)前游戲持續(xù)部署平臺的交付能力,有了平臺之后對人的依賴大大的降低,同時吞吐率大大提升。

而剛剛說的整體服務(wù)交付過程,可以由自己的業(yè)務(wù)調(diào)度變更平臺輸出,這個地方重點關(guān)注批量作業(yè)的能力,比如說一個變更單能擴(kuò)容多少臺,花費時間多少?這種往往是用戶需求拉動的,所以對他的頻率考察要求就不是太高了。

故障恢復(fù)的延時

故障恢復(fù)的延時直接會影響服務(wù)的可用性,影響用戶對產(chǎn)品質(zhì)量的感知。服務(wù)恢復(fù)的越快,就說明運維故障處理能力越強(qiáng)。

在進(jìn)一步細(xì)分故障處理能力的過程,可以分解成三個部分:故障發(fā)現(xiàn)、故障定位、故障處理與解決。這三部分都直接考察了運維的能力,這三部分能力可以直接的映射到監(jiān)控系統(tǒng)上:

故障發(fā)現(xiàn)是需要監(jiān)控系統(tǒng)要走向基于用戶的實時監(jiān)控上去;

故障定位是需要監(jiān)控系統(tǒng)能夠打通基于用戶流的數(shù)據(jù)能力;

故障處理是需要運維人工的處理經(jīng)驗沉淀,然后再自動化。

有了如上的核心指標(biāo)之后,那么我們就需要同步思考那些因素會影響IT性能,這些點就需要后續(xù)持續(xù)的改進(jìn)。個人也總結(jié)了一些自己看到的點:

建立開發(fā)與運維之間的互信開發(fā)一定不要把運維當(dāng)做一個簡單的資源提供者角色來看待,需要準(zhǔn)確的看待運維的價值。只有運維才有能力從所有業(yè)務(wù)的角度出發(fā),構(gòu)建統(tǒng)一的IT服務(wù)平臺提供給業(yè)務(wù)使用,對于公司來說,也是一種降低浪費的方式。開發(fā)和運維之間的互信、合作以及責(zé)任共享的團(tuán)隊氛圍是高性能運維團(tuán)隊的基礎(chǔ),缺少研發(fā)、測試的支持,運維只能在低級層次上做服務(wù)封裝,而缺少對運維的深層次理解。

團(tuán)隊的多樣性對于運維團(tuán)隊來說,首先需要保證運維研發(fā)和運維執(zhí)行者角色搭配,但需要有一種機(jī)制就是運維執(zhí)行者需要不斷的把需求轉(zhuǎn)換到運維研發(fā)團(tuán)隊,讓他提供平臺性的實現(xiàn),甚至運維執(zhí)行者自己也需要嘗試轉(zhuǎn)變,使自己具備運維研發(fā)的能力。其次對于團(tuán)隊來說,需要有個階梯性,都是運維執(zhí)行者不行,都是運維研發(fā)也不行,都是運維技術(shù)高手也不行,需要有推動能力強(qiáng)的,技術(shù)能力強(qiáng)的和運維研發(fā)能力強(qiáng)的搭配等等;最后運維團(tuán)隊需要有女性角色存在,當(dāng)然你不能把她當(dāng)男人使用,這樣你的團(tuán)隊就缺少了柔性。

可視化運維過程我覺得沒有比可視化的要求更能驅(qū)動運維的過程。但你想著要可視化的時候,一定想著如何簡化你的運維過程,否則實現(xiàn)起來非常的繁瑣。可視化,是運維把問題化繁為簡、把思路從模糊變清晰、把工具變產(chǎn)品的一個過程。

持續(xù)交付(持續(xù)集成+持續(xù)部署)這是敏捷業(yè)務(wù)形態(tài)下的標(biāo)配了,更是互聯(lián)網(wǎng)業(yè)務(wù)的一個標(biāo)配。但對于傳統(tǒng)業(yè)務(wù)來說,實施持續(xù)交付貌似還有一點難度,很大一部分和服務(wù)耦合有關(guān)系。做互聯(lián)網(wǎng)不可能不知道Jenkins,不可能不知道持續(xù)部署。具體的最佳實踐請參照【持續(xù)集成】那本書,里面寫了很多最佳的實踐標(biāo)準(zhǔn)。

一鍵化調(diào)度平臺通過該平臺來解決整體服務(wù)交付的能力問題。一鍵化調(diào)度平臺需要打通所有的運維內(nèi)部服務(wù),把所依賴的運維服務(wù)和技術(shù)架構(gòu)服務(wù)抽象成一個個API供其調(diào)用。此時需要對線上服務(wù)環(huán)境做一些標(biāo)準(zhǔn)化的約束,比如說服務(wù)之間的調(diào)用抽象到名字服務(wù)中心,應(yīng)用環(huán)境對系統(tǒng)環(huán)境零依賴等。線上技術(shù)架構(gòu)的運維管理應(yīng)該Api服務(wù)化,可以通過API來控制技術(shù)架構(gòu)中的服務(wù),比如說配置文件管理/組件服務(wù)管理/服務(wù)降級服務(wù)/服務(wù)過載保護(hù)設(shè)置等等。越API化,意味著機(jī)器能夠控制的能力越強(qiáng),也就意味著運維性能能力可以越高。

端到端的監(jiān)控平臺監(jiān)控在故障恢復(fù)延時中起到核心作用,需要將運維被動監(jiān)控變?yōu)橹鲃颖O(jiān)控。從用戶的角度實現(xiàn)主動式的監(jiān)控才是真正的監(jiān)控系統(tǒng)發(fā)現(xiàn)問題的有效手段,而非傳統(tǒng)的監(jiān)控系統(tǒng)從系統(tǒng)內(nèi)部指標(biāo)看問題。端到端,從用戶側(cè)到服務(wù)側(cè),基于應(yīng)用的拓?fù)渫瓿烧麄€數(shù)據(jù)通路的構(gòu)建。

還有一個因素要特別注意,就是架構(gòu)的智能決策能力。

在我個人推動SDK雙中心的時候,當(dāng)我們設(shè)定服務(wù)故障恢復(fù)時長為8分鐘,發(fā)現(xiàn)真正的系統(tǒng)恢復(fù)能力不是靠人,而是讓后臺故障被前臺感知,從而讓前臺實現(xiàn)智能決策,屏蔽故障節(jié)點。這樣的例子比比皆是:

mysql的故障由proxy來屏蔽決策;

proxy的故障由名字服務(wù)來調(diào)度屏蔽;

名字服務(wù)的故障實現(xiàn)高可用,不依賴中心節(jié)點;

邏輯層故障也由名字服務(wù)中心來調(diào)度屏蔽;

web層故障由負(fù)載均衡層調(diào)度屏蔽;

負(fù)載均衡層故障由DNS或者h(yuǎn)ttpdns調(diào)度屏蔽。

IT性能,應(yīng)該成為運維團(tuán)隊的核心驅(qū)動力,它能夠直接反映運維能力水平。運維對IT性能的極致苛求,也直接反映了運維團(tuán)隊自我價值要求,甚至也決定了運維團(tuán)隊的能力建設(shè)。

沒有IT性能最強(qiáng)的運維團(tuán)隊,只有IT性能更強(qiáng)的運維團(tuán)隊。它如同優(yōu)化線上的業(yè)務(wù)程序一樣,運維團(tuán)隊的性能優(yōu)化也永遠(yuǎn)沒有終點。

?

—— 靈通云微信公眾號 ——

熱門標(biāo)簽

上一條———————

下一條———————

十七年 建站經(jīng)驗

多一份參考,總有益處

聯(lián)系靈通云,免費獲得專屬《策劃方案》及報價

咨詢相關(guān)問題或預(yù)約面談,可以通過以下方式與我們聯(lián)系

業(yè)務(wù)熱線:400-688-6062 / 大客戶專線   南通:15818561755