癱瘓的原因有很多種,最常見的是因為服務器流量過高帶來了雪崩效應。還有一個原因是,在問題到來之前,一般公司通常沒有足夠的資源,來支持在測試環境模擬大流量衝擊,來演練發現性能瓶頸,因為需要的機器會很多。
即使峯值流量造成服務器癱瘓,也不意味着公司接下來會據此調整服務器,因為會帶來日常運維的宂餘。由於公司流量增長沒有固定預估規律,公司服務器的設計沒有通用規則。一般會根據歷史峯值流量乘以倍數來預估流量,然後設計架構。
癱瘓後的緊急搶修措施包括根據日誌排查原因或者直接重啟服務器。長期來看,大規模的彈性擴容需要的技術設計,比較考驗技術架構能力,一般小公司設計不好。微博作為一個市值140億的公司,並不算小,但它有沒有像阿里一樣,投入資源去演練,不得而知。