****欧欧美毛片4,国产午夜精品视频,97视频在线观看免费视频,久久七国产精品

數(shù)據(jù)恢復(fù)咨詢熱線:400-666-3702??

歡迎訪問南京兆柏數(shù)據(jù)恢復(fù)公司,專業(yè)數(shù)據(jù)恢復(fù)15年

兆柏數(shù)據(jù)恢復(fù)公司

?常見問題

?當(dāng)前位置: 主頁 > 常見問題

美團(tuán)數(shù)據(jù)庫容災(zāi)體系建設(shè)實(shí)踐

瀏覽量: 次 發(fā)布日期:2023-09-08 13:46:26

美團(tuán)數(shù)據(jù)庫容災(zāi)體系建設(shè)實(shí)踐

  本文重點(diǎn)介紹了美團(tuán)數(shù)據(jù)庫的容災(zāi)體系建設(shè)實(shí)踐,主要內(nèi)容包括業(yè)務(wù)架構(gòu)、數(shù)據(jù)庫容災(zāi)平臺能力建設(shè)、演練體系建設(shè)以及這些建設(shè)取得的一些成果,最后也會分享一下容災(zāi)建設(shè)的未來思考。希望對大家能夠有所幫助或者啟發(fā)。

  1 容災(zāi)介紹

  2 業(yè)務(wù)容災(zāi)架構(gòu)

  2.1 容災(zāi)架構(gòu)演進(jìn)

  2.2 美團(tuán)容災(zāi)架構(gòu)

  3 數(shù)據(jù)庫容災(zāi)建設(shè)

  3.1 面臨的挑戰(zhàn)

  3.2 基礎(chǔ)高可用

  3.3 容災(zāi)建設(shè)路徑

  3.4 平臺能力建設(shè)

  3.5 演練體系建設(shè)

  4 未來思考

  4.1 補(bǔ)齊短板4.2 迭代架構(gòu) 1 容災(zāi)介紹 我們通常會把故障分為三大類,一是主機(jī)故障,二是機(jī)房故障,三是地域故障。每類故障都有各自的誘發(fā)因素,而從主機(jī)到機(jī)房再到地域,故障發(fā)生概率依次越來越小,而故障的影響卻越來越大。容災(zāi)能力的建設(shè)目標(biāo)是非常明確的,就是要能夠應(yīng)對和處理這種機(jī)房級和地域級的大規(guī)模故障,從而來保障業(yè)務(wù)的連續(xù)性。近幾年,業(yè)界也發(fā)生了多次數(shù)據(jù)中心級別的故障,對相關(guān)公司的業(yè)務(wù)和品牌產(chǎn)生了非常大的負(fù)面影響。當(dāng)前容災(zāi)能力已經(jīng)成為眾多IT企業(yè)建設(shè)信息化系統(tǒng)的必選項。

  容災(zāi)架構(gòu)從最早期的單活形態(tài)(同城主備)到同城多活形態(tài),再演化到異地多活,根據(jù)這個路徑可以將容災(zāi)分為容災(zāi)1.0、容災(zāi)2.0、容災(zāi)3.0三個階段。容災(zāi)1.0:容災(zāi)體系圍繞數(shù)據(jù)建設(shè),多以主-備的方式部署,但備用機(jī)房不承擔(dān)流量,基本上都是單活結(jié)構(gòu)。容災(zāi)2.0:容災(zāi)視角從數(shù)據(jù)轉(zhuǎn)換為應(yīng)用系統(tǒng),業(yè)務(wù)具有同城雙活或同城多活能力,采用同城雙活或同城雙活加異地冷備(兩地三中心)的部署架構(gòu),除冷備以外的每個機(jī)房都有流量處理能力。容災(zāi)3.0:以業(yè)務(wù)為中心,多采用單元化架構(gòu),容災(zāi)基于單元間的兩兩互備實(shí)現(xiàn),根據(jù)單元的部署位置可以實(shí)現(xiàn)同城多活和異地多活。采用單元化架構(gòu)的應(yīng)用本身具有很好的容災(zāi)能力和擴(kuò)展能力。

  由于各公司所處發(fā)展階段不同,采用的方案也會有所區(qū)別,美團(tuán)大部分業(yè)務(wù)處于2.0階段(即同城雙活或多活架構(gòu)),但對于大體量、有地域容災(zāi)及有地域擴(kuò)展性要求的業(yè)務(wù)則處在容災(zāi)3.0階段。下面會介紹一下美團(tuán)的容災(zāi)架構(gòu)。

  美團(tuán)的容災(zāi)架構(gòu)主要包括兩種,一種是N+1容災(zāi)架構(gòu),一種是SET化架構(gòu)。

  N+1架構(gòu):在業(yè)界也稱散部或者多AZ部署?案,將容量為C的系統(tǒng)部署在N+1個機(jī)房,每個機(jī)房能提供至少C/N的容量,掛掉任何一個機(jī)房時,剩余系統(tǒng)仍能支撐C的容量。該方案的核心是把容災(zāi)能力下沉到PaaS組件來完成,在出現(xiàn)機(jī)房級或者地域級故障的時候,由各個PaaS組件獨(dú)立完成容災(zāi)切換,實(shí)現(xiàn)業(yè)務(wù)恢復(fù)。整體架構(gòu)如下圖所示,業(yè)務(wù)上表現(xiàn)是多機(jī)房、多活形態(tài),數(shù)據(jù)庫采用這種主從架構(gòu),單機(jī)房處理寫流量、多機(jī)房的負(fù)載均攤讀流量。下面要講“數(shù)據(jù)庫容災(zāi)體系建設(shè)實(shí)踐” 就是面向N+1架構(gòu)的。

  單元化架構(gòu):也叫SET化架構(gòu),這是一種偏應(yīng)用層的容災(zāi)架構(gòu),它將應(yīng)用,數(shù)據(jù),基礎(chǔ)組件按照統(tǒng)一的維度切分成多個單元,每個單元處理一部分閉環(huán)流量。業(yè)務(wù)以單元作為部署單位,通過單元互備方式實(shí)現(xiàn)同城容災(zāi)或者異地容災(zāi)。一般金融業(yè)務(wù)或者超大規(guī)模的業(yè)務(wù)會選擇此類架構(gòu),它的好處就是流量可以閉環(huán)且資源隔離,具有很強(qiáng)的容災(zāi)能力和跨域擴(kuò)展能力,不過SET化架構(gòu)的落地需要業(yè)務(wù)系統(tǒng)做大量的改造,運(yùn)維管理也較為復(fù)雜。簡化示意圖如下:美團(tuán)內(nèi)部的大部分業(yè)務(wù)都是N+1架構(gòu),外賣和金融等業(yè)務(wù)采用了單元化架構(gòu)。總體上美團(tuán)內(nèi)部既有同城多活,也有異地多活,兩種容災(zāi)方案并存。

黔西南數(shù)據(jù)恢復(fù)

  超大規(guī)模的集群帶來的挑戰(zhàn):公司業(yè)務(wù)高速發(fā)展,服務(wù)器規(guī)模指數(shù)級增?,數(shù)據(jù)中心規(guī)模越來越大,大機(jī)房已有大幾千數(shù)據(jù)庫集群,上萬個實(shí)例。性能問題:高可用系統(tǒng)的故障并發(fā)處理能力出現(xiàn)明顯瓶頸。容災(zāi)失效風(fēng)險:管控鏈路隨集群數(shù)量的增加變的越來越復(fù)雜,一個環(huán)節(jié)出問題就會導(dǎo)致整體容災(zāi)能力失效。故障頻發(fā):集群數(shù)量和規(guī)模變大,使原來概率很低的大規(guī)模故障變成了稀松平常的故障,其發(fā)生的頻次和概率越來越高。

  演練成本高、頻次低:核心能力驗(yàn)證不充分,大規(guī)模故障的應(yīng)對能力處于不可知狀態(tài),已知容災(zāi)能力“保鮮”困難。拿應(yīng)對機(jī)房級大規(guī)模故障的相關(guān)能力來講,很大一部分是處于不可知狀態(tài)或者僅存在于“紙面”分析中,而對于已驗(yàn)證過的能力隨著架構(gòu)演進(jìn)迭代,“保鮮”也很困難。

  數(shù)據(jù)庫作為有狀態(tài)的服務(wù)之一,本身建設(shè)應(yīng)對大規(guī)模故障能力的難度和挑戰(zhàn)都相對更大。

  數(shù)據(jù)庫架構(gòu) 在美團(tuán)主要有兩種一種是主從架構(gòu),一種是MGR架構(gòu)。主從架構(gòu):應(yīng)用通過數(shù)據(jù)庫中間件訪問數(shù)據(jù)庫,在故障發(fā)生時,高可用做故障探測、拓?fù)湔{(diào)整、配置下發(fā),進(jìn)而應(yīng)用恢復(fù)。MGR架構(gòu):應(yīng)用也是通過中間件訪問數(shù)據(jù)庫,不過中間件對MGR做了適配,內(nèi)部叫Zebra for MGR,中間件自動進(jìn)行拓?fù)涮綔y感知,一旦MGR發(fā)生了切換,新拓?fù)鋾惶綔y到,數(shù)據(jù)源會進(jìn)行調(diào)整,進(jìn)而業(yè)務(wù)恢復(fù)。

  美團(tuán)的高可用架構(gòu):美團(tuán)主從集群的高可用是基于Orchestrator二次開發(fā)的,本質(zhì)上是一個中心化的管控架構(gòu),如下圖所示,有多個高可用分組,每個分組托管一部分?jǐn)?shù)據(jù)庫集群,分組在北京和上海實(shí)現(xiàn)兩Region部署,底層核心組件只在北京部署,比如我們的核心CMBD、WorkflowDB等,一旦北上專線出現(xiàn)問題,上海側(cè)的高可用會失效不可用。容災(zāi)建設(shè)路徑:確定容災(zāi)目標(biāo)、制定容災(zāi)標(biāo)準(zhǔn)、建設(shè)容災(zāi)平臺、夯實(shí)基礎(chǔ)能力、演練驗(yàn)證和風(fēng)險運(yùn)營。容災(zāi)建設(shè)飛輪:內(nèi)環(huán)是平臺能力建設(shè),從容災(zāi)需求的提出到研發(fā)上線,體驗(yàn)提升,用戶使用,發(fā)現(xiàn)問題提出新需求,不斷的迭代提升。另一個方面就是完善演練平臺建設(shè),開展高頻演練(或者真實(shí)故障驅(qū)動),發(fā)現(xiàn)問題、提出改進(jìn),促近平臺能力持續(xù)迭代提升。

  為了建設(shè)提升數(shù)據(jù)庫服務(wù)的容災(zāi)能力,內(nèi)部成立了容災(zāi)管控項目DDTP(Database Disaster Tolerance Platform),專注提升數(shù)據(jù)庫應(yīng)對大規(guī)模故障的能力,核心包括基礎(chǔ)容災(zāi)管控和故障演練兩大能力,分別對應(yīng)兩個平臺產(chǎn)品:一是容災(zāi)管控平臺,一個是數(shù)據(jù)庫演練平臺。

  容災(zāi)管控平臺主要專注于防守,它的核心功能主要包括事前逃生、事中觀測以及止損、事后恢復(fù)等,數(shù)據(jù)庫演練平臺則專注于進(jìn)攻,支持多種故障類型和多種故障注入方式,具備故障編排,故障復(fù)盤等核心能力。這個系列的第二篇《數(shù)據(jù)庫攻防演練建設(shè)實(shí)踐》就是對演練平臺的詳細(xì)介紹。接下來,我們將重點(diǎn)介紹一下容災(zāi)管控平臺的主要內(nèi)容,首先看一下全景圖:數(shù)據(jù)庫服務(wù):包括MySQL、Blade、MGR等基礎(chǔ)數(shù)據(jù)庫服務(wù)。基礎(chǔ)能力層:主要是備份恢復(fù)、資源管理、彈性伸縮、主從高可用以及指標(biāo)監(jiān)控能力,這些能力是穩(wěn)定性保障的基本部分,但在容災(zāi)場景下需要進(jìn)一步加強(qiáng),以處理大規(guī)模故障場景。管控編排層:核心是運(yùn)維編排服務(wù)OOS(Operation Orchestration Service),會把基礎(chǔ)能力按需編排生成對應(yīng)的處理流程也叫服務(wù)化預(yù)案,每個預(yù)案對應(yīng)一個或者多個具體的運(yùn)維場景。容災(zāi)預(yù)案也在這個范疇。平臺服務(wù)層:是容災(zāi)管控平臺的能力層,包括:1)容災(zāi)管控,容災(zāi)計算評估和隱患治理,還有故障前容災(zāi)逃生、故障中的兜底切換,故障摘流等。2)容災(zāi)觀測,明確故障范圍,支持故障中的容災(zāi)決策。3)容災(zāi)恢復(fù),故障后通過實(shí)例修復(fù)、集群擴(kuò)容等功能快速恢復(fù)集群的容災(zāi)能力。4)預(yù)案服務(wù),包含了常見故障應(yīng)急預(yù)案的管理和執(zhí)行等等。3.4.1 容量達(dá)標(biāo)

  數(shù)據(jù)庫建立了一套N+1容災(zāi)計算標(biāo)準(zhǔn),分為6個等級,如果集群容災(zāi)等級≥4級則容災(zāi)達(dá)標(biāo),否則容災(zāi)不達(dá)標(biāo)。

  從標(biāo)準(zhǔn)可以看出,從等級3開始就是多機(jī)房部署了。3級和4、5級的區(qū)別是,3級不滿足N+1要求,即如果一個機(jī)房的節(jié)點(diǎn)都出問題,剩余節(jié)點(diǎn)無法承擔(dān)峰值流量。等級4、5都是具備N+1要求的,等級5會滿足region間容量對等。除基礎(chǔ)標(biāo)準(zhǔn)以外,SET化集群有特殊規(guī)則,比如路由策略要閉環(huán)、SET集群的綁定機(jī)房要統(tǒng)一、互備SET容量要對等、集群內(nèi)機(jī)型要統(tǒng)一等。這些規(guī)則都會納入容災(zāi)計算來確定集群的最終容災(zāi)等級。

  在基礎(chǔ)容災(zāi)數(shù)據(jù)建設(shè)中,會把上述規(guī)則代碼化、計算流程化,通過近實(shí)時的方式做基礎(chǔ)數(shù)據(jù)“保鮮”。容災(zāi)數(shù)據(jù)是容災(zāi)管控平臺上用于逃生切換和事中止損的基礎(chǔ)數(shù)據(jù),同時還會基于容災(zāi)數(shù)據(jù)建設(shè)風(fēng)險隱患(即容災(zāi)不達(dá)標(biāo)隱患),并通過一定的運(yùn)營治理來消除這種隱患。3.4.2 故障前逃生

  故障前逃逸能力就是批量主庫切換和從庫摘流,主要用于在故障前收到預(yù)警,提前感知災(zāi)難來臨,快速將一個機(jī)房的所有數(shù)據(jù)庫服務(wù)切走或者下線從庫流量,以降低真實(shí)故障帶來的影響。

  我們知道對于主從架構(gòu)的集群,如果因?yàn)閿嚯娀蛘邤嗑W(wǎng)發(fā)生故障切換,很可能會發(fā)生數(shù)據(jù)丟失。數(shù)據(jù)一旦丟失,業(yè)務(wù)需要進(jìn)行確認(rèn)并做善后工作,有時候會非常繁瑣。如果能夠在事前逃走就會把這些風(fēng)險都規(guī)避掉。同時除了主庫逃走以外,從庫也可以提前把流量“摘掉”,從而做到故障對業(yè)務(wù)方“無感”。3.4.3 故障中觀測

六盤水?dāng)?shù)據(jù)恢復(fù)

  在大規(guī)模故障發(fā)生的時候,一般會出現(xiàn)告警轟炸,電話咨詢轟炸等情況,如果沒有全局的故障感知能力,就會使故障處理比較混亂,處理時間比較長,讓故障影響放大,所以我們建設(shè)了容災(zāi)觀測大盤,它能夠?qū)崟r、準(zhǔn)確、可靠地對故障進(jìn)行觀測,以確保值班同學(xué)能夠掌握故障的實(shí)時情況。

  如下圖所示,如果發(fā)生了故障,可以快速拿到故障集群或者實(shí)例列表,并在對應(yīng)的頁面上發(fā)起兜底切換動作,進(jìn)而實(shí)現(xiàn)快速止損。對觀測大盤的核心訴求就是要實(shí)時、準(zhǔn)確、可靠。可以通過減少服務(wù)依賴來提升自身的可用性。3.4.4 故障中止損

  在介紹故障中的止損之前,先了解一下預(yù)案服務(wù)。預(yù)案服務(wù)的核心功能就是管理常見故障以及對應(yīng)的各種處理預(yù)案,并提供執(zhí)行控制能力,讓預(yù)案可以方便、可控地運(yùn)行。

  故障止損:在有了預(yù)案以后,我們就可以進(jìn)行兜底止損。如下圖所示,當(dāng)大規(guī)模故障發(fā)生的時候,HA會自動進(jìn)行故障處理。如果集群切換失敗或者漏切,那么它就會進(jìn)入兜底階段。首先從DDTP平臺化兜底,如果平臺受故障影響不可用,可以在運(yùn)維編排層進(jìn)行兜底。如果運(yùn)維編排服務(wù)也失效,則需要人工通過CLI工具進(jìn)行兜底。CLI是DBA最底層的工具,它和高可用是兩個獨(dú)立的鏈路。CLI會進(jìn)行集群拓?fù)涮綔y、選主選舉、拓?fù)湔{(diào)整、配置修改、配置下發(fā)等邏輯,等同于手工集群切換步驟。

  總體原則優(yōu)先提升高可用自動切換的成功率,減少透傳到兜底階段的集群數(shù)量。其次提升預(yù)案可靠性,優(yōu)先選擇白屏,逐級下沉,易用性下降,可靠性提升。3.4.5 故障后恢復(fù)

  雖然集群具備N+1能力,一個機(jī)房故障的時候,集群剩余節(jié)點(diǎn)是能夠支撐峰值流量,但它不具備再一次AZ故障的容災(zāi)能力,所以在故障后會根據(jù)各機(jī)房的資源情況,通過容災(zāi)決策中心快速進(jìn)行集群擴(kuò)容來補(bǔ)齊核心集群的容災(zāi)容量,使其重新具備AZ容災(zāi)能力。

  上述方案有一個比較大的弊端就是需要有足夠的資源來進(jìn)行擴(kuò)容,這是非常困難的,目前我們在建設(shè)更快速的恢復(fù)能力,如實(shí)例原地修復(fù),集群原地擴(kuò)容等,在AZ恢復(fù)之后,可以快速復(fù)用發(fā)生故障的機(jī)房內(nèi)的機(jī)器資源,實(shí)現(xiàn)容災(zāi)快速恢復(fù)。

和縣數(shù)據(jù)恢復(fù)

  各項基礎(chǔ)容災(zāi)能力不能只存在于架構(gòu)設(shè)計、理論評估層面,必須實(shí)打?qū)嵉目捎茫@就要需要通過演練進(jìn)行驗(yàn)證。容災(zāi)管控項目之初,就制定了以演練為抓手的策略,驗(yàn)證并驅(qū)動各項基礎(chǔ)能力的提升。截止目前,已經(jīng)初步建成了多環(huán)境、高頻次、大規(guī)模、長鏈路的演練體系。

  多環(huán)境:我們建設(shè)了多種演練環(huán)境,滿足各個PaaS組件的各類容災(zāi)演練需求。一是容災(zāi)管控平臺的?穩(wěn)環(huán)境,二是線下專用于演練的隔離環(huán)境,三是生產(chǎn)環(huán)境,有演練專區(qū)以及正常生產(chǎn)環(huán)境。高頻次:目前能做到天、周級別。天級別屬于常態(tài)化的演練,主要是在長穩(wěn)環(huán)境下自動發(fā)起,幾百個集群的演練規(guī)模;周級別主要是在隔離環(huán)境、演練專區(qū)定期組織的斷網(wǎng)、斷電真實(shí)演練等。大規(guī)模:是在生產(chǎn)環(huán)境開展的演練,用于驗(yàn)證基礎(chǔ)高可用、兜底預(yù)案、逃生預(yù)案、容災(zāi)恢復(fù)等功能的大規(guī)模、高并發(fā)處理能力,確定管控系統(tǒng)的服務(wù)容量。長鏈路:整個容災(zāi)鏈路涉及到很多組件,包括CMDB數(shù)據(jù)庫、流程數(shù)據(jù)庫,高可用組件,配置中心、預(yù)案服務(wù)等,我們會逐步把這些組件都納入演練,可以讓一個或者多個組件服務(wù)同時故障,發(fā)現(xiàn)潛在問題,驗(yàn)證多服務(wù)的多節(jié)點(diǎn)同時故障對于整個故障處理能力的影響。3.5.1 隔離環(huán)境演練隔離環(huán)境演練顧名思義,它是一套和生產(chǎn)機(jī)房完全隔離的演練環(huán)境,有自己獨(dú)立的TOR、機(jī)柜,風(fēng)險能做到完全隔離,可以開展獨(dú)立斷網(wǎng)或斷電操作。參與演練的PaaS組件和業(yè)務(wù)服務(wù)要在該環(huán)境獨(dú)立部署。在隔離環(huán)境除了會定期開展各種容災(zāi)演練發(fā)現(xiàn)容災(zāi)問題外,還可以驗(yàn)證各PaaS的獨(dú)立部署能力,為國際化業(yè)務(wù)支撐提供基礎(chǔ)。3.5.2 生產(chǎn)環(huán)境演練常態(tài)化、大規(guī)模故障演練:此類演練是日常持續(xù)開展的,通過演練平臺對數(shù)據(jù)庫集群注入故障,高可用進(jìn)行故障切換。通過不同的演練規(guī)模來驗(yàn)證高可用的并發(fā)切換能力。此外,在容災(zāi)管控平臺上,可以驗(yàn)證逃生能力、止損預(yù)案、及大規(guī)模故障的觀測等。總而言之,它是利用“攻”和“防”相結(jié)合的形式,實(shí)現(xiàn)能力的驗(yàn)證驗(yàn)收和優(yōu)化提升。

  這類演練主要特點(diǎn):一是參演集群都是由生產(chǎn)環(huán)境的高可用分組進(jìn)行托管,就是說演練驗(yàn)證的都是生產(chǎn)環(huán)境的高可用的能力;二是參演的大規(guī)模集群是非業(yè)務(wù)集群,是每次演練前新創(chuàng)建的專門用于演練的集群,規(guī)模可以做到很大,目前可以常態(tài)化的進(jìn)行1500+集群同時進(jìn)行演練;三是有一定的仿真效果,為使演練更為真實(shí)并對RTO做精準(zhǔn)評估,對演練集群增加了帶載能力。

  真實(shí)專區(qū)演練:上文介紹的隔離環(huán)境演練、大規(guī)模演練都是偏模擬性質(zhì)的,和真實(shí)的故障場景有比較大的區(qū)別。為了彌補(bǔ)和真實(shí)故障主鍵的GAP,我們基于公有云構(gòu)建了一個專用演練AZ,可以理解為就是一個獨(dú)立的機(jī)房。參演業(yè)務(wù)和組PaaS件將部分承載業(yè)務(wù)流量的服務(wù)節(jié)點(diǎn)部署到演練AZ中,實(shí)際演練的時候會進(jìn)行真實(shí)的斷網(wǎng),業(yè)務(wù)和組件可以在斷網(wǎng)的時候觀測和評估自己的容災(zāi)情況。這種通過真實(shí)機(jī)房、真實(shí)組件集群、真實(shí)的業(yè)務(wù)流量來驗(yàn)證組件和業(yè)務(wù)的實(shí)際容災(zāi)情況,會更加真實(shí)。

  Game Day:此外我們還在評估論證在真實(shí)機(jī)房開展演練的可行性,隨著隔離環(huán)境演練、專區(qū)演練的常態(tài)化開展,各個組件的基礎(chǔ)容災(zāi)能力會越來越強(qiáng),在真實(shí)機(jī)房進(jìn)行常態(tài)化機(jī)房演練的終極目標(biāo)也會隨之達(dá)成。經(jīng)過兩年多的建設(shè),雖然在高可用自動切換、容災(zāi)能力運(yùn)營治理、大規(guī)模故障觀測、故障止損預(yù)案、容災(zāi)恢復(fù)等方面取得了一定的成果。但是還有很多能力短板需要建設(shè)補(bǔ)齊,業(yè)務(wù)新的發(fā)展也帶來了新的需求和挑戰(zhàn)。未來我們會補(bǔ)齊短板、迭代技術(shù)架構(gòu)兩個方向上進(jìn)行持續(xù)的提升。超大規(guī)模逃生能力、止損能力不足:隨著我們自建數(shù)據(jù)中心的落地,我們自建的AZ規(guī)模會更大,這對能力的要求會更高,我們主要通過平臺迭代和演練驗(yàn)證逐步提升能力。跨域?qū)>€故障導(dǎo)致Region級高可用失效:接下來我們會探索單元化方案或者獨(dú)立部署方案,實(shí)現(xiàn)Region級或者更細(xì)粒度的閉環(huán)管理。業(yè)務(wù)出海新挑戰(zhàn):出海會給容災(zāi)架構(gòu)帶來一些新需求和挑戰(zhàn),是采用“長臂管轄”還是獨(dú)立部署,是復(fù)用現(xiàn)有技術(shù)體系還是打造一套全新架構(gòu),這些問題都還需要進(jìn)一步的探索和論證。容災(zāi)效率問題:平臺基礎(chǔ)功能已經(jīng)相對完善,不過容災(zāi)決策以及處理協(xié)同等還需要人工進(jìn)行,效率相對較低,未來會把容災(zāi)管控、應(yīng)急止損等能力逐步向自動化演進(jìn);多環(huán)境演練成本比較高,也要逐步做自動化演練,把核心的演練場景逐步納到長穩(wěn)環(huán)境,通過定時或一定的策略讓它自動去跑故障場景,我們只需要關(guān)注核心指標(biāo)運(yùn)營即可。

  數(shù)據(jù)庫相關(guān)技術(shù)發(fā)展很快,比如Database Mesh、Serverless等新技術(shù)形態(tài)會逐步落地,屆時中間件、高可用、內(nèi)核等會有比較大的變化,新型客戶端HA方案的建設(shè)成熟及新Proxy架構(gòu),存計分離產(chǎn)品的引入都會使容災(zāi)的能力發(fā)生比較大的變化。容災(zāi)能力建設(shè)會隨著這些確定的產(chǎn)品演進(jìn)進(jìn)行迭代。容災(zāi)建設(shè)是一件非常有挑戰(zhàn)的事,也是所有公司業(yè)務(wù)發(fā)展壯大后必須面對的一件事。歡迎大家在文末留言,跟我們一起交流。 5 本文作者 瑞超,來自美團(tuán)基礎(chǔ)研發(fā)平臺-基礎(chǔ)技術(shù)部。

相關(guān)推薦

. 達(dá)夢數(shù)據(jù)庫重啟,達(dá)夢數(shù)據(jù)庫重啟操作指南與注意事項

. 數(shù)據(jù)庫論文參考文獻(xiàn),數(shù)據(jù)庫論文參考文獻(xiàn)綜述

. 硬盤數(shù)據(jù)恢復(fù)建議書,全方位解析與實(shí)用技巧

. 中毒后硬盤數(shù)據(jù)恢復(fù)價格,價格影響因素與預(yù)算建議

. 聯(lián)想硬盤壞了怎么辦,全面解析維修與數(shù)據(jù)恢復(fù)策略

. 六安移動硬盤數(shù)據(jù)恢復(fù),專業(yè)技術(shù),守護(hù)您的數(shù)據(jù)安全

. 硬盤數(shù)據(jù)恢復(fù)拆盤,拆盤操作與數(shù)據(jù)恢復(fù)技術(shù)解析

. 西部數(shù)據(jù)移動硬盤維修中心,專業(yè)維修中心為您保駕護(hù)航

. 常州修移動硬盤,數(shù)據(jù)恢復(fù)無憂

. 深圳數(shù)據(jù)恢復(fù)公司排名,揭秘排名前三的數(shù)據(jù)恢復(fù)公司”

. 希捷硬盤數(shù)據(jù)恢復(fù) 華軍,專業(yè)方法與案例分析

. 怎樣恢復(fù)刪除的硬盤數(shù)據(jù),詳解硬盤刪除數(shù)據(jù)恢復(fù)全攻略

. 硬盤數(shù)據(jù)恢復(fù)圖書,從原理到實(shí)踐的技術(shù)解析

. u盤恢復(fù)數(shù)據(jù)價格,價格影響因素與選擇指南”

. 數(shù)據(jù) 恢復(fù),揭秘數(shù)據(jù)丟失背后的原因與高效解決方案

. 沈河區(qū)硬盤數(shù)據(jù)恢復(fù)中心,專業(yè)服務(wù),守護(hù)您的數(shù)據(jù)安全”

. 太原西數(shù)硬盤數(shù)據(jù)恢復(fù),專業(yè)解決方案與高效恢復(fù)策略

. 硬盤數(shù)據(jù)恢復(fù)從哪學(xué),從原理到實(shí)踐的技術(shù)解析

. 硬盤數(shù)據(jù)恢復(fù)一般多長時間,影響因素與恢復(fù)時長揭秘

. 杭州機(jī)械硬盤數(shù)據(jù)恢復(fù),專業(yè)技術(shù)助力數(shù)據(jù)失而復(fù)得