當今社會,我們?nèi)粘I钪卸紩佑|到各種各樣的網(wǎng)絡(luò)服務(wù)和應(yīng)用。遇到問題時,百度或google一下尋找解決辦法;閑暇時候,可以通過微信和朋友聊上幾句。不想上街逛超市,也可以通過網(wǎng)購購買自己心儀的商品。
但最近一段時間里,網(wǎng)絡(luò)應(yīng)用和服務(wù)都頻繁地出現(xiàn)問題——國外蘋果iclould、谷歌、微軟、Amazon等巨頭先后宕機,讓小伙伴都捏了一把汗;國內(nèi)百度、微信也發(fā)生故障,被不少的網(wǎng)友吐槽。一時間內(nèi),宕機和避免宕機成為人們和企業(yè)機構(gòu)的熱門話題。
一、8月宕機的那些日子:
1.Amazon兩次宕機損失近700萬美元
8月可謂是Amazon最為悲劇的一月,在8月19日和8月26日發(fā)生兩次宕機。據(jù)推測兩次宕機致使Amazon損失了約700萬美元。
美國東部時間8月19日下午2點45分開始,有用戶率先發(fā)現(xiàn)了Amazon網(wǎng)站出現(xiàn)宕機,大約在20多分鐘后又恢復(fù)正常。此次宕機讓Amazon損失近200萬美元。
在此期間,消費者無法通過Amazon.com、Amazon移動端以及Amazon.ca等網(wǎng)站進行購物。
用戶登錄Amazon網(wǎng)站時,只能看到一條報錯信息:“哦,我們非常抱歉,我們在滿足你們的需求方面面臨難題。請再給我們機會——點擊你瀏覽器上的返回鍵,再次嘗試請求,或者再從我們的主頁開始。”
此外,禍不單行Amazon北弗吉尼亞數(shù)據(jù)中心在8月26日再一次宕機。據(jù)悉,這次的宕機源于網(wǎng)絡(luò)故障,并持續(xù)從美國時間25日下午12時51持續(xù)直到下午1時42分。截至下午3時23分,AWS報告說,受影響最大的Elastic Compute Cloud服務(wù)已經(jīng)重新啟動和運行。
作為世界最大最著名的云計算服務(wù)供應(yīng)商——AWS,很難數(shù)清楚有多少的用戶因AWS的宕機而受到影響, Instagram 月活躍用戶數(shù)超 1.3 億,Vine 用戶數(shù)超 4000 萬,F(xiàn)lipboard 用戶數(shù)超 7500 萬,租房網(wǎng)站 Airbnb 用戶數(shù)超 400 萬。不考慮對其它影響網(wǎng)站,僅僅這四家網(wǎng)站宕機就會影響了數(shù)億用戶。
據(jù)《普吉特海灣商業(yè)雜志》(Puget Sound Business Journal)估計,若按照亞馬遜的每分鐘平均銷售額11.7882萬美元計算,宕機40分鐘,亞馬遜可能損失了近500萬美元的銷售額。
2.蘋果iClould宕機300萬用戶受影響
美國太平洋時間2013年8月21日21點30分左右,從蘋果的服務(wù)狀態(tài)網(wǎng)頁的信息來看,iMessage、Photo Stream、Documents in the Cloud、Backup and Restore和iPhoto Journals等服務(wù)都處于無法訪問的狀態(tài)。另外有大約17%的iTunes用戶在一個小時時間內(nèi)無法進行購買操作。
服務(wù)狀態(tài)網(wǎng)頁稱,此次宕機事故而受到影響的用戶接近300萬人,不到用戶總量的1%.
蘋果并沒有對周四的宕機給出任何的解釋,而且也沒有證據(jù)表明蘋果的服務(wù)遭到惡意攻擊。據(jù)據(jù)業(yè)內(nèi)人士分析此次蘋果宕機可能是因為軟件錯誤或設(shè)備的功能缺陷導(dǎo)致。
此外,在8月28日上午,蘋果iTunes Store再次宕機近3個半小時,造成20%用戶無法購買媒體內(nèi)容。蘋果系統(tǒng)狀態(tài)網(wǎng)頁顯示,該次宕機事故是從太平洋時間早上6:00開始,一直持續(xù)到上午9:26,影響到了20%的用戶,目前尚不清楚這次宕機原因。
3.谷歌全面宕機,5分鐘全球流量下降40%
美國太平洋時間8月16日下午3點50分到3點55分(北京時間8月17日6點50分到6點55分),谷歌遭遇了宕機。此次宕機影響了了包括谷歌網(wǎng)站首頁、YouTube視頻網(wǎng)站、Google Drive云存儲服務(wù)以及Gmail郵件服務(wù)在內(nèi)的所有谷歌服務(wù)。
在互聯(lián)網(wǎng)領(lǐng)域,恐怕沒有哪家企業(yè)像Google這樣能如此深入而廣泛地影響全球用戶?梢哉f, “Google打個噴嚏,全球互聯(lián)網(wǎng)都要感冒”。市場研究公司GoSquared稱,Google在5分鐘的時間里就讓全球的網(wǎng)絡(luò)流量下降了40%.
按照谷歌公布的今年第二季度營收141億美元的財務(wù)情況來推算,此次宕機事件將對谷歌造成約55萬美元的損失。
目前,谷歌已經(jīng)重新恢復(fù)了所有服務(wù)的正常運行,但仍未出面解釋造成此次宕機事故的具體原因。
但是令人驚奇的是,谷歌在8月17日的宕機作為一個維護問題的負面新聞卻由于谷歌的應(yīng)急機制的成功而轉(zhuǎn)變成正面新聞。谷歌的宕機讓人們見識了什么是集群服務(wù)器,更讓人見識了一個集群服務(wù)器的恢復(fù)僅僅花了11分鐘的時間,這給國內(nèi)外的互聯(lián)網(wǎng)企業(yè)帶來巨大的深思和啟發(fā)。
4.微軟Outlook和SkyDrive云存儲等服務(wù)遭宕機
2013年8月14日21點左右,微軟的郵箱服務(wù)Hotmail、即時通訊服務(wù)Messenger及云存儲服務(wù)SkyDrive等在全球范圍內(nèi)出現(xiàn)了技術(shù)故障。15日1點20分,微軟賬戶、Messenger及日歷已恢復(fù)正常,但Outlook郵箱、社交應(yīng)用People及SkyDrive仍然無法使用,直到美國東部時間8月17日4點30分才基本修復(fù)正常。
由于Outlook.com的此次宕機導(dǎo)致了一些用戶三天未能使用相關(guān)的服務(wù),為此,微軟還發(fā)布聲明,向用戶致歉,解釋了此次宕機的原因以及采取了哪些防范措施來防止未來發(fā)生類似情況。
以下是微軟道歉聲明(節(jié)選):
在此,我們向那些在本周深受Outlook.com宕機影響的用戶致歉。如今我們已經(jīng)恢復(fù)了所有帳戶的服務(wù),用戶可以登錄帳戶,并更改設(shè)置,以便將來這些服務(wù)仍能夠更好的恢復(fù)使用。我們認識到我們肩負的責(zé)任——就是讓使用我們服務(wù)的用戶能夠與他們最為關(guān)注的人士進行交流和分享。我們再次向那些在本周受影響的用戶致歉。
此次事件是由與使用微軟Exchange Activesync的設(shè)備相連接的緩沖貯存區(qū)出現(xiàn)的問題所引起的,……為了恢復(fù)整個電子郵件服務(wù),我們暫時關(guān)閉了通過Exchange ActiveSync進行連接的渠道。這將有助于我們幫助用戶通過網(wǎng)頁方式來恢復(fù)使用Outlook.com,并恢復(fù)SkyDrive的共享功能。
我們已經(jīng)從此宕機事件中汲取了一些教訓(xùn),我們已經(jīng)采取了兩大調(diào)整措施,來加固我們系統(tǒng),以防止未來發(fā)生類似的情況。其一是,增加系統(tǒng)中受影響部門的網(wǎng)絡(luò)帶寬,其二是改變了使用Exchange ActiveSync設(shè)備處理錯誤的方式。我們將繼續(xù)監(jiān)控系統(tǒng),并進行其它必要的調(diào)整,以此保證服務(wù)的穩(wěn)定。
現(xiàn)在,我們已經(jīng)恢復(fù)了服務(wù),因此所有的用戶都應(yīng)當能夠正常使用他們設(shè)備上的所有服務(wù)。我們在此再次向那些受宕機影響的所有用戶致歉,我們也對用戶在我們解決問題過程中體現(xiàn)出的耐心表示感激。
5.百度短暫性不可訪問
2013年8月14日17點左右,百度出現(xiàn)大面積訪問故障,具體表現(xiàn)為無法打開baidu.com首頁,無法訪問服務(wù)器,約15分鐘后故障排除。
目前仍不清楚是什么原因?qū)е掳俣仁醉摕o法訪問。
6.微信再次發(fā)生大面積故障
8月19日晚上10點左右,微信再次發(fā)生大面積故障,出現(xiàn)包括微信公眾平臺無法登陸、用戶無法正常登陸微信和朋友圈無法刷新等狀況。對此,微信團隊稱是因為網(wǎng)絡(luò)硬件出現(xiàn)故障,導(dǎo)致部分用戶無法登錄或信息收發(fā)延遲。目前微信個人賬戶及公共平臺已經(jīng)恢復(fù)正常。
隨后微信騰訊微信團隊做出回應(yīng)稱:由于機房的網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,部分微信用戶的信息收發(fā)和登錄可能會受到影響。目前我們正在緊急搶修中。
凌晨1點52分,微信團隊再次發(fā)消息稱:經(jīng)團隊全力搶修,現(xiàn)在您可以正常登錄和使用微信功能了。此次是由于網(wǎng)絡(luò)硬件出現(xiàn)故障,導(dǎo)致部分用戶昨日晚間無法登錄或信息收發(fā)延遲。
二、如何規(guī)避宕機
宕機的代價是多大?或許無人知曉確切的答案。不過,從谷歌僅僅宕機5分鐘就損失損失近55萬美元,Amazon兩次宕機不到100分鐘內(nèi)損失近700萬美元。而且據(jù)國外媒體報道,自從2007年到2012年,13次著名的云服務(wù)宕機導(dǎo)致了568小時的服務(wù)中斷,造成了超過7170萬美元的經(jīng)濟損失。如此巨大的損失使得企業(yè)和機構(gòu)不斷地尋找避免宕機和減少宕機損失的方法。
ptime Institute副會長Rick Schuknecht表示良好的規(guī)劃可以減少宕機發(fā)生的幾率。從此次Google宕機實踐中我們可以得出避免宕機發(fā)生的3個注意事項:
1.選擇適合自己的服務(wù)器
如今服務(wù)器產(chǎn)品種類繁多,但是企業(yè)選擇服務(wù)器產(chǎn)品不能人云亦云,企業(yè)應(yīng)根據(jù)自身的實際情況選擇合適自己的服務(wù)器產(chǎn)品。
2.要做好避免宕機的準備工作
服務(wù)器每天都在運行,企業(yè)要加強對服務(wù)器運行情況的巡檢、檢修工作,所以企業(yè)要選擇一個有保障的實時監(jiān)控商。此外企業(yè)需準備一個備用的服務(wù)器,這樣就不用擔心服務(wù)器宕機之后所帶來的巨大影響。
3.制定好宕機之后的修復(fù)計劃
既然服務(wù)器出現(xiàn)宕機的可能性隨時存在,為了避免宕機之后手忙腳亂的局面,企業(yè)要做好未雨綢繆的準備。在部署服務(wù)器時,企業(yè)需要邀請相關(guān)IT專家進行討論,分析該企業(yè)可能出現(xiàn)宕機情況,思考宕機情況出現(xiàn)時的解決策略,制定一套宕機后的修復(fù)計劃。