2007-03-04 04:09 2/24 ~ 3/3 情況說明
相信大家很想知道發生了什麼事情,在此慢慢跟大家說明。
這次損壞的設備是 NAS,就是放各位檔案的儲存系統有一座掛點。聽到這邊先別擔心,因為並不是 Disk Array Fail,所以大家的檔案都沒問題,主要是硬體上有個模組壞了,造成儲存系統 Crash。
至於為什麼只是一個模組損壞居然會導致整座系統 Crash,目前我們也正等待原廠的報告。
關於部分使用者 metadata 會亂掉的原因是,NAS 並不是突然掛點,而是在 2/24 當天時好時壞的拖了一天,到了 2/25 凌晨 1:04 才宣告陣亡,所以在那段時間有進行異動的使用者在處理 metadata 上才會出現問題。
整個修復的過程中,NAS 在 2/26 晚上大概 20:40 左右就回復服務了,但一直到 2/28 大概 12:00 左右才全部 reconstruct 完成。
另外,在 2/27 早上經由使用者反應我才發覺到這次 NAS 設備損壞也影響到 metadata 的正確性,因此緊急將系統切換到唯讀的模式,等到 2/28 儲存設備 reconstruct 完成後,再繼續對有問題的 metadata 進行問題發生原因的確認及資料的修復。
使用者的 metadata 大概在 3/3 22:30 左右修復完畢,系統在 3/4 凌晨 1:25 進行臨時停機維護,2:40 左右回復服務,並在 3:20 左右 WebHD 回到正常的操作模式。
-----
補充說明:於 3/5 19:02 左右,所有 Quota 有錯誤的使用者也都已經修正。




