亚洲熟妇av一区二区三区,久久久久久精品观看sss,免费观看四虎精品国产永久,国产成人精品一区二三区熟女,天堂网在线最新版www资源网

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

脫胎于阿里巴巴內(nèi)部,經(jīng)過(guò)多年雙 11 打磨,每年為公司節(jié)省數(shù)十億成本的混部系統(tǒng) Koordinator 今天宣布正式開(kāi)源。通過(guò)開(kāi)源,我們希望將更好的混部能力、調(diào)度能力開(kāi)放到整個(gè)行業(yè),幫助企業(yè)客戶改進(jìn)云原生工作負(fù)載運(yùn)行的效率、穩(wěn)定性和計(jì)算成本。

混部是什么

業(yè)界很多互聯(lián)網(wǎng)公司或多或少都有在不同特征類型工作負(fù)載協(xié)同調(diào)度的技術(shù)方向進(jìn)行布局,充分利用負(fù)載之間的消峰填谷效應(yīng),讓工作負(fù)載以更穩(wěn)定、更高效、更低成本的方式去使用資源。這樣的一套系統(tǒng)或機(jī)制,也就是業(yè)界時(shí)常提及的 “混部”概念。

阿里巴巴的混部

阿里巴巴在 2011 年開(kāi)始探索容器技術(shù),并在 2016 年啟動(dòng)混部技術(shù)研發(fā),至今經(jīng)過(guò)了多輪技術(shù)架構(gòu)升級(jí),最終演進(jìn)到今天的云原生混部系統(tǒng)架構(gòu),實(shí)現(xiàn)了全業(yè)務(wù)規(guī)模超千萬(wàn)核的云原生混部,混部的日平均 CPU 利用率超 50%,幫助阿里巴巴節(jié)省了大量的資源成本。

混部是在互聯(lián)網(wǎng)企業(yè)內(nèi)部重金打造的成本控制內(nèi)核,凝聚了眾多業(yè)務(wù)抽象和資源管理的思考優(yōu)化經(jīng)驗(yàn),因此混部通常都需要數(shù)年的打磨實(shí)踐才能逐漸穩(wěn)定并產(chǎn)生生產(chǎn)價(jià)值。那么,是不是每家企業(yè)都需要很高的門檻才能使用混部,都需要大量的投入才能產(chǎn)生價(jià)值?Koordinator 來(lái)嘗試給出回答。Koordinator 基于內(nèi)部超大規(guī)?;觳可a(chǎn)實(shí)踐經(jīng)驗(yàn),旨在為用戶打造云原生場(chǎng)景下接入成本最低、混部效率最佳的解決方案,幫助用戶企業(yè)實(shí)現(xiàn)云原生后持續(xù)的紅利釋放。

Koordinator 是什么?

Koordinator: 取自 coordinator,K for Kubernetes,發(fā)音相同。語(yǔ)意上契合項(xiàng)目要解決的問(wèn)題,即協(xié)調(diào)編排 kubernetes 集群中不同類型的工作負(fù)載,使得他們以最優(yōu)的布局、最佳的姿態(tài)在一個(gè)集群、一個(gè)節(jié)點(diǎn)上運(yùn)行。

谷歌內(nèi)部有一個(gè)調(diào)度系統(tǒng)名叫 Borg,是最早做容器混部的系統(tǒng),其論文公開(kāi)發(fā)表之前在行業(yè)上一直是非常神秘的存在。云原生容器調(diào)度編排系統(tǒng) Kubernetes 正是受 Borg 設(shè)計(jì)思想啟發(fā),由 Borg 系統(tǒng)的設(shè)計(jì)者結(jié)合云時(shí)代應(yīng)用編排的需求重新設(shè)計(jì)而來(lái)。Kubernetes 良好的擴(kuò)展性使其能適應(yīng)多樣的工作負(fù)載,幫助用戶很好地提升工作負(fù)載的日常運(yùn)維效率。

Koordinator 是完全基于 Kubernetes 標(biāo)準(zhǔn)能力擴(kuò)展而來(lái),致力于解決多樣工作負(fù)載混部在一個(gè)集群、節(jié)點(diǎn)場(chǎng)景下的調(diào)度,運(yùn)行時(shí)性能以及穩(wěn)定性挑戰(zhàn)。項(xiàng)目包含了混合工作負(fù)載編排的一套完整解決方案,包括精細(xì)化資源調(diào)度、任務(wù)調(diào)度、差異化 SLO 三大塊。通過(guò)這樣一套解決方案實(shí)現(xiàn):

  1. 幫助企業(yè)用戶更多工作負(fù)載接入 kubernetes,特別是大數(shù)據(jù)、任務(wù)處理相關(guān)的工作負(fù)載,提高其運(yùn)行效率和穩(wěn)定性;
  2. 通過(guò)開(kāi)源技術(shù)標(biāo)準(zhǔn)幫助企業(yè)用戶在云上、云下實(shí)現(xiàn)一致的技術(shù)架構(gòu),提升運(yùn)維效率;
  3. 幫助企業(yè)用戶合理利用云資源,在云上實(shí)現(xiàn)可持續(xù)發(fā)展。

Koordinator 有什么優(yōu)勢(shì)?

混部需要一套完整、自閉環(huán)的調(diào)度回路,但在企業(yè)應(yīng)用混部的過(guò)程中,將要面臨的兩大挑戰(zhàn)是:應(yīng)用如何接入到混部平臺(tái),應(yīng)用如何在平臺(tái)上穩(wěn)定高效運(yùn)行。

Koordinator 吸取了阿里巴巴內(nèi)部多年的生產(chǎn)實(shí)踐經(jīng)驗(yàn)教訓(xùn),針對(duì)這兩大挑戰(zhàn)針對(duì)性地設(shè)計(jì)了解決方案,旨在幫助企業(yè)真正意義上用上混部,用好 Kubernetes,而不是秀技術(shù)秀肌肉。

Koordinator 1.0 的整體架構(gòu)如下圖所示,為用戶提供了完整的混部工作負(fù)載編排、混部資源調(diào)度、混部資源隔離及性能調(diào)優(yōu)解決方案,幫助用戶提高延遲敏感服務(wù)的運(yùn)行性能,挖掘空閑節(jié)點(diǎn)資源并分配給真正有需要的計(jì)算任務(wù),從而提高全局的資源利用效率。

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

超大規(guī)模生產(chǎn)實(shí)踐經(jīng)驗(yàn)錘煉

2021 雙 11 之后阿里對(duì)外宣布了“首次!統(tǒng)一調(diào)度系統(tǒng)規(guī)模化落地,全面支撐阿里巴巴雙 11 全業(yè)務(wù)”。作為阿里巴巴的核心項(xiàng)目,阿里云(容器團(tuán)隊(duì)和大數(shù)據(jù)團(tuán)隊(duì))聯(lián)合阿里巴巴資源效能團(tuán)隊(duì)、螞蟻容器編排團(tuán)隊(duì),歷時(shí)一年多研發(fā)和技術(shù)攻堅(jiān),實(shí)現(xiàn)了從“混部技術(shù)”到“統(tǒng)一調(diào)度技術(shù)”的全面升級(jí)。

目前,統(tǒng)一調(diào)度已實(shí)現(xiàn)阿里巴巴電商、搜推廣、MaxCompute 大數(shù)據(jù)的調(diào)度全面統(tǒng)一,實(shí)現(xiàn)了 pod 調(diào)度和 task 高性能調(diào)度的統(tǒng)一,實(shí)現(xiàn)了完整的資源視圖統(tǒng)一和調(diào)度協(xié)同,實(shí)現(xiàn)了多種復(fù)雜業(yè)務(wù)形態(tài)的混部和利用率提升,全面支撐了全球數(shù)十個(gè)數(shù)據(jù)中心、數(shù)百萬(wàn)容器、數(shù)千萬(wàn)核的大規(guī)模資源調(diào)度。

作為云原生混部的踐行者,阿里巴巴是真刀真槍地在生產(chǎn)環(huán)境中推進(jìn)混部技術(shù)理念,并在去年雙 11 完成了超過(guò)千萬(wàn)核的混部規(guī)模,通過(guò)混部技術(shù)幫助阿里巴巴雙 11 節(jié)約超過(guò) 50% 的大促資源成本,在大促快上快下鏈路上提速 100%。

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

回頭去看,阿里巴巴堅(jiān)定推進(jìn)混部技術(shù),主要是考慮到以下方面帶來(lái)的問(wèn)題:

  • 利用率不均衡:在非混部時(shí)代,幾大資源池之間的資源利用率不均衡,大數(shù)據(jù)資源池利用率極高,但長(zhǎng)期缺乏算力;電商資源池日常利用率比較低,空閑了大量的計(jì)算資源,但出于災(zāi)備設(shè)計(jì)又不能直接下掉機(jī)器提高在線密度?;觳康某踔允亲屓仲Y源調(diào)度更合理,在日常態(tài)通過(guò)混部將大數(shù)據(jù)的任務(wù)調(diào)度到電商資源池中,充分利用這部分空閑的資源。
  • 大促備戰(zhàn)效率低:在大促時(shí)為了減少資源采購(gòu),希望在大促時(shí)能夠借用大數(shù)據(jù)資源池,部署電商任務(wù)支撐流量洪峰。在非混部時(shí)代,這樣的彈性資源借用只能通過(guò)騰挪機(jī)器的方式推進(jìn),大促支持的效率較低很難大規(guī)模實(shí)施。

正是在雙 11 這樣的峰值場(chǎng)景驅(qū)動(dòng)之下,阿里的混部調(diào)度技術(shù)持續(xù)演進(jìn),積累了大量的生產(chǎn)實(shí)踐經(jīng)驗(yàn),到今天已經(jīng)是第三代即云原生全業(yè)務(wù)混部系統(tǒng)。這樣一套基于云原生理念的混部技術(shù)解決方案,脫胎于阿里巴巴,希望通過(guò)開(kāi)源社區(qū)輻射到整個(gè)行業(yè),幫助企業(yè)在云原生容器調(diào)度方向上加速快跑。

聚焦混部技術(shù),支持豐富場(chǎng)景

混部是一套針對(duì)延遲敏感服務(wù)的精細(xì)化編排 大數(shù)據(jù)計(jì)算工作負(fù)載混合部署的資源調(diào)度解決方案,核心技術(shù)在于:

  1. 精細(xì)的資源編排,以滿足性能及長(zhǎng)尾時(shí)延的要求,關(guān)鍵點(diǎn)是精細(xì)化的資源調(diào)度編排策略及 QoS 感知策略;
  2. 智能的資源超賣,以更低成本滿足計(jì)算任務(wù)對(duì)計(jì)算資源的需求,保證計(jì)算效率的同時(shí)不影響延遲敏感服務(wù)的響應(yīng)時(shí)間。

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

上圖是 Koordinator 混部資源超賣模型,也是混部最關(guān)鍵最核心的地方。其中超賣的基本思想是去利用那些已分配但未使用的資源來(lái)運(yùn)行低優(yōu)先級(jí)的任務(wù),如圖所示的四條線分別是:

  1. limit: 灰色,高優(yōu)先級(jí) Pod 申請(qǐng)的資源量,對(duì)應(yīng) kubernetes 的 Pod request;
  2. usage: 紅色,Pod 實(shí)際使用的資源量,橫軸是時(shí)間線,紅線也就是 Pod 負(fù)載隨時(shí)間的波動(dòng)曲線;
  3. short-term reservation: 深藍(lán)色,是基于 usage 過(guò)去一段時(shí)間(較短)的資源使用情況,對(duì)其未來(lái)一段時(shí)間的資源使用情況的預(yù)估,reservation 與 limit 之間也就是已分配未使用(預(yù)估未來(lái)一段時(shí)間也不會(huì)使用)的資源,可以用于運(yùn)行短生命周期批處理任務(wù);
  4. long-term reservation: 淺藍(lán)色,類似于 short-term reservation 但預(yù)估使用的歷史周期較長(zhǎng),從 reservation 到 limit 之間的資源可用于較長(zhǎng)生命周期的任務(wù),其可用資源相比 short-term 更少但穩(wěn)定性更高。

這一套資源模型支撐了阿里巴巴內(nèi)部全業(yè)務(wù)的混部,足夠精煉的同時(shí)也具備了很強(qiáng)的靈活性。Koordinator 整個(gè)混部資源調(diào)度的大廈構(gòu)建在這樣一個(gè)資源模型的基礎(chǔ)之上,配合優(yōu)先級(jí)搶占、負(fù)載感知、干擾識(shí)別和 QoS 保障技術(shù),構(gòu)建出混部資源調(diào)度底層核心系統(tǒng)。Koordinator 社區(qū)將圍繞這個(gè)思路投入建設(shè),持續(xù)將混部場(chǎng)景的調(diào)度能力展開(kāi),將阿里巴巴內(nèi)部豐富場(chǎng)景支持的經(jīng)驗(yàn)輸出到社區(qū),解決企業(yè)面臨的真實(shí)業(yè)務(wù)場(chǎng)景問(wèn)題。

雙零侵入,超低接入成本

企業(yè)接入混部最大的挑戰(zhàn)是如何讓應(yīng)用跑在混部平臺(tái)之上,第一步的門檻往往是最大的攔路虎。Koordinator 針對(duì)這一問(wèn)題,結(jié)合內(nèi)部生產(chǎn)實(shí)踐經(jīng)驗(yàn),設(shè)計(jì)了“雙零侵入”的混部調(diào)度系統(tǒng)。

第一個(gè)零侵入,是指對(duì) Kubernetes 平臺(tái)的零侵入。行業(yè)內(nèi)的人大多知道,將 Kubernetes 應(yīng)用于企業(yè)內(nèi)部的復(fù)雜場(chǎng)景混部時(shí),因?yàn)檫@樣或者那樣的原因總是需要對(duì) Kubernetes 做一定量的修改,特別是節(jié)點(diǎn)管理(Kubelet)部分,這部分修改本身具備較大的技術(shù)門檻,同時(shí)也為給后續(xù)的 Kubernetes 版本升級(jí)帶來(lái)巨大的挑戰(zhàn)。企業(yè)為了解決這一問(wèn)題,往往需要專門的團(tuán)隊(duì)來(lái)維護(hù)這一些定制化的修改,并且具有很大的沉沒(méi)成本,等到線上出現(xiàn)問(wèn)題或者需要升級(jí)新版本時(shí),熟悉這份修改的同學(xué)可能已不知去向。這給企業(yè)帶來(lái)了很大的技術(shù)風(fēng)險(xiǎn),往往讓混部技術(shù)的推廣受阻。而 Koordinator 混部系統(tǒng),設(shè)計(jì)之初即保證了不需要對(duì)社區(qū)原生 Kubernetes 做任何修改,只需要一鍵安裝 Koordinator 組件到集群中,不需要做任何配置,既可以為 Kubernetes 集群帶來(lái)混部的能力。同時(shí),在用戶不啟用混部能力時(shí),不會(huì)對(duì)原有的 Kubernetes 集群有任何形式的打擾。

第二個(gè)零侵入,是指對(duì)工作負(fù)載編排系統(tǒng)的零侵入。想象一下,在企業(yè)內(nèi)部的 Kubernetes 集群之上提供混部能力之后,面臨的問(wèn)題是如何將企業(yè)的工作負(fù)載接入進(jìn)來(lái)以混部的方式運(yùn)行。一般情況下將會(huì)面臨的兩種情況是:

  1. 工作負(fù)載具備企業(yè)私有運(yùn)維特性,由平臺(tái)或運(yùn)維團(tuán)隊(duì)的系統(tǒng)管理這些工作負(fù)載的日常升級(jí)發(fā)布、擴(kuò)容縮容,而企業(yè)推進(jìn)混部的容器或 SRE 團(tuán)隊(duì)與平臺(tái)運(yùn)維團(tuán)隊(duì)之間,存在著組織的鴻溝(或大或?。绾瓮苿?dòng)平臺(tái)團(tuán)隊(duì)改造工作負(fù)載管理機(jī)制,對(duì)接混部的協(xié)議,也是一個(gè)不小的挑戰(zhàn)。
  2. 工作負(fù)載以原生的 Deployment/StatefulSet/Job 的方式管理,對(duì)其 Kubernetes 內(nèi)部的設(shè)計(jì)實(shí)現(xiàn)或改造成本超出了團(tuán)隊(duì)的預(yù)期,也將成為推行混部的挑戰(zhàn)。

Koordinator 針對(duì)應(yīng)用接入層的改造成本,設(shè)計(jì)了單獨(dú)的工作負(fù)載接入層(Colocation Profile),幫助用戶解決工作負(fù)載接入混部的難題,用戶只需要管理混部的配置(YAML)即可靈活調(diào)度編排哪些任務(wù)以混部的方式在集群中運(yùn)行,非常簡(jiǎn)單且靈活。當(dāng)前 Koordinator 為用戶提供了混跑 Spark 任務(wù)的樣例,未來(lái),社區(qū)將持續(xù)豐富工作負(fù)載接入層的特性,支持更多場(chǎng)景的零侵入接入。

云上、云下一致的用戶體驗(yàn)

Koordinator 開(kāi)源項(xiàng)目是阿里巴巴云原生 2.0 的重點(diǎn)戰(zhàn)役,用戶除了在自己的環(huán)境中可以體驗(yàn)到 Koordinator 混部帶來(lái)的技術(shù)紅利,也可以將其部署到任意一個(gè)云廠商中,保持混合云、多云的架構(gòu)一致。當(dāng)然,也可以在阿里巴巴提供的多款云產(chǎn)品中獲得一致的用戶體驗(yàn),一次設(shè)計(jì)對(duì)接多處發(fā)揮價(jià)值。

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

可以看到,除了支持內(nèi)部超大規(guī)模的業(yè)務(wù)混部外,Koordinator 也是阿里云容器服務(wù)集成的解決方案,社區(qū)將持續(xù)的保持活力,致力于將混部變成平民化、通用化、標(biāo)準(zhǔn)化的技術(shù)能力。

為什么要開(kāi)源?

最早做容器混部的是 Borg, 在 Google 內(nèi)部運(yùn)行超過(guò) 15 年,最新公開(kāi)的資料是 Borg: the next Generation[1]。國(guó)內(nèi)互聯(lián)網(wǎng)公司內(nèi)部推進(jìn)混部接近 10 年,其中阿里巴巴的混部技術(shù)也經(jīng)歷過(guò)了 3 代技術(shù)架構(gòu)升級(jí)變遷,最終走到全局混部的終極形態(tài)。混部幫助阿里巴巴的電商、搜索、大數(shù)據(jù)業(yè)務(wù)極大提高了大促的備戰(zhàn)效率,也為歷年的雙 11 大促節(jié)省了大量的計(jì)算資源。

我們堅(jiān)信,云原生混部是企業(yè)容器調(diào)度技術(shù)發(fā)展的必然方向,只有通過(guò)工作負(fù)載的混合編排,才能在業(yè)務(wù)多可用區(qū)災(zāi)備架構(gòu)下實(shí)現(xiàn)更好的資源利用效率,才能充分發(fā)揮不同類型負(fù)載的削峰填谷效應(yīng),從而完全發(fā)揮出計(jì)算資源潛力,最大化釋放云計(jì)算的價(jià)值。

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

Koordinator 的開(kāi)源,希望讓更多的企業(yè)能夠看見(jiàn)并使用云原生混部的能力,幫助企業(yè)加速云原生化的過(guò)程。在技術(shù)上,Koordinator 能夠幫助企業(yè)實(shí)現(xiàn)更多的負(fù)載接入到 Kubernetes 平臺(tái),豐富容器調(diào)度的工作負(fù)載類型,繼而發(fā)揮出工作負(fù)載錯(cuò)峰分時(shí)的特征,從而實(shí)現(xiàn)效率、成本上的收益,保持長(zhǎng)期可持續(xù)發(fā)展的健康形態(tài)。

當(dāng)前,Koordinator 已經(jīng)支持了 Spark 任務(wù)場(chǎng)景的混部,同時(shí)也提供了低成本接入混部的解決方案。后續(xù),也非常期待看到大家的混部應(yīng)用案例,聽(tīng)到大家的反饋!未來(lái),Koordinator 社區(qū)將持續(xù)豐富混部的場(chǎng)景及業(yè)務(wù)形態(tài),支持 Flink、Hadoop、AI Jobs、音視頻任務(wù)等,敬請(qǐng)期待。

加入 Koordinator 社區(qū)

  • 你是否正在規(guī)劃或者正在實(shí)施提升 Kubernetes 集群資源利用率的項(xiàng)目?
  • 你是否正在頭痛 Kubernetes 集群上 Pod 運(yùn)行時(shí)資源穩(wěn)定性、性能調(diào)優(yōu)的問(wèn)題?
  • 你是否正在經(jīng)歷云上、云下調(diào)度體系不一致帶來(lái)的多倍復(fù)雜性?

非常歡迎你參與 Koordinator 開(kāi)源社區(qū),我們期待聽(tīng)到你的聲音:

  • Github 地址:

https://github.com/koordinator-sh/koordinator

  • 加入社區(qū) Slack channel(English):

https://koordinatorgroup.slack.com/archives/C0392BCPFNK

  • 參考鏈接

[1]:https://research.google/pubs/pub49065

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開(kāi)源

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。