服務(wù)器通常會(huì)有兩個(gè)電源插槽,兩個(gè)電源意味著更高的可靠性,UPS的介入使得服務(wù)器供電的可靠性又上了一個(gè)臺(tái)階。隨著電源可靠性的不斷提高,也有越來(lái)越多用戶開(kāi)始使用單電源方案以節(jié)省成本。那到底用雙電源還是單電源呢?
電源故障引發(fā)的業(yè)務(wù)風(fēng)險(xiǎn)有哪些?
單點(diǎn)類(lèi)業(yè)務(wù)(開(kāi)發(fā)、測(cè)試和辦公平臺(tái)等):
1、業(yè)務(wù)中斷:業(yè)務(wù)無(wú)法繼續(xù)向用戶提供服務(wù),影響用戶體驗(yàn);
2、數(shù)據(jù)恢復(fù):掉電引發(fā)數(shù)據(jù)丟失,需要數(shù)據(jù)恢復(fù),產(chǎn)生運(yùn)維成本;
集群類(lèi)業(yè)務(wù)(WEB前端、緩存、數(shù)據(jù)庫(kù)等):
掉電引發(fā)數(shù)據(jù)丟失,根據(jù)業(yè)務(wù)的不同分類(lèi)可能需要數(shù)據(jù)恢復(fù)(比如緩存型業(yè)務(wù)就不需要數(shù)據(jù)恢復(fù)),有一定的運(yùn)維成本發(fā)生;
分布式存儲(chǔ)(hadoop、分布式文件系統(tǒng)等):
存儲(chǔ)類(lèi)業(yè)務(wù)遇到單機(jī)斷電掉線都將被作為一個(gè)節(jié)點(diǎn)的故障處理,因此數(shù)據(jù)恢復(fù)可能會(huì)占去大量的時(shí)間(自動(dòng)化數(shù)據(jù)恢復(fù)除外);
通過(guò)數(shù)據(jù)評(píng)估兩種方案的價(jià)值:
假設(shè)服務(wù)器總數(shù)為W萬(wàn)臺(tái),單電源服務(wù)器年故障率為x%,電源僅占到所有故障總數(shù)的y%,那么電源的年故障率應(yīng)該在xy/10000,一年內(nèi)電源故障次數(shù)為:Wxy。可以根據(jù)這個(gè)公式去評(píng)估一個(gè)集群一年內(nèi)的斷電次數(shù):假設(shè)一年內(nèi)允許的斷電次數(shù)為Z,那么只要讓W(xué)xy < Z就可以達(dá)到期望目標(biāo)。
當(dāng)Wxy值遠(yuǎn)大于Z時(shí),在x、y不變的情況下,通常是因?yàn)閃基數(shù)較大引起的。這個(gè)時(shí)候要滿足Wxy < Z就只能通過(guò)雙電去實(shí)現(xiàn):
雙電方案下服務(wù)器年斷電概率為:xxyy/10^8,斷電次數(shù)為:Wxxyy/10000,它是單電方案故障次數(shù)的xy/10000,足夠滿足小于Z的條件了。
總結(jié):在使用單電方案的前提下,如果要滿足Z>Wxy,就要盡量控制整個(gè)集群的服務(wù)器規(guī)模;服務(wù)器基數(shù)較大時(shí),為了避免基數(shù)問(wèn)題帶來(lái)過(guò)多的服務(wù)器斷電,建議使用雙電方案。
如何強(qiáng)化單電方案的可用性:
1、插頭綁線規(guī)范化提高電源插頭穩(wěn)固性,防止服務(wù)器電源因誤碰而掉線。
2、保持良好的機(jī)房散熱條件,防止電源因?yàn)檫^(guò)熱而導(dǎo)致故障;
3、盡量選用標(biāo)號(hào)更高的電源(比如白金電源、黃金電源),提高轉(zhuǎn)換效率減少諧波干擾;