Think threshold

中の人のIYHにいたる顛末と購入レビュー。ときどき自宅システム構築備忘録。

たった6000時間で壊れるとは、弱い奴め。(NASのHDD交換)

夏バテしちゃったの?

 

昨年年末に構築し直したNASに使用していたHDDが1台エラーを吐いていたため、

1年を待たずに交換しました。

今回は作業記録です。

 

 

 

●9月に入って不調HDD発生、とりあえずバックアップ

我が家では毎週月曜に週次のステータスメールをNASからメールするような運用をしていますが、
2019/9に入った頃に、1台のHDDから「offline uncorrectable」のSMARTエラーが検出されているのを発見しました。

増えなければ様子見、ということも一応できるのだが、この手のエラーは一度増加が始まってしまうと加速度的に増加するので、1つでもカウントされたら交換するのが個人的ポリシー。


今回稼働しているHDDはMN05ACA800で、まだ保証期限まで1ヶ月あるため、急いで交換することに。
問題発生時時点での稼働時間は6000時間ほど。軟弱な奴め(ヲイ

後述する交換用HDDの調達と併せ、とりあえずデータが死ぬまでにバックアップを開始します。
今回はまだ全領域使い切っていないこともあり、10ヶ月前にNAのお引越しをした時に利用した
8TBx2でバックアップが行えました。バックアップはLAN経由の別のマシンに繋いだUSB3.0HDDだったため、
1Gbpsがボトルネックとなり丸一日以上かかりました。
10Gbps化したいなやっぱり・・・

 

東芝のHDDはDT系が旧HGST系の工場、MDxxは旧富士通系という噂*1ですが、今回はMD。DT01ACA300は5万時間ノートラブルで動作していただけに、うーんという感じ。

 

 

●交換用HDD調達、バーンイン

リビルドする以上、RAID-Zとはいえ同じ特性で揃えたかったため、同一モデルをチョイス。
連続して故障する可能性も否定できないため、保険をかけて2台購入しました。
到着後、いつもの儀式として全領域リードテスト、ライトテスト、SMARTテストを2セットほど繰り返し、
問題なく完走することを確認してからNASの故障したHDDと交換します。
このとき、通知メールなどからSNを確認し、誤って別のHDDを交換しないように注意しながらエラーが出ているHDDのみを入れ替えます。

NASは自作機でホットスワップ非対応のため一度電源断をして交換。

 


●交換、XigmaNAS(nas4Free)でのリビルド

交換後、NASを起動した後にGUIにアクセスします。
トップ画面でZFSプールのステータスが「DEGRARETED」になっていることを確認し、
Diskの管理画面へ遷移します。(Disks→Management)

f:id:makoro2_0:20200105013333p:plain

※画像は正常に戻った状態あとのスクリーンショットのためONLINE表示に戻っています

 

交換したHDD(今回であれば/dev/ada3)のSNが保存されている値と実際の値が違う旨の警告が表示されているため、/dev/ada3が新しいHDDであることおよびSMARTを有効化し、この設定を確定するため「Save Changes」をクリックし設定を確定します。

(この時点で取り外した/dev/ada3の情報はモデル名ではなく数字の羅列に変化します)

 

その後「Disks→ZFS→Tools」メニューを開き、「Scrub」を実行したあと、

「Replace a Drive」を実行します。

f:id:makoro2_0:20200105013124p:plain

次のページで実行したいZFS Poolを選択後、

f:id:makoro2_0:20200105015956p:plain

更に次の画面で交換前、交換後のHDDを選択します。このとき交換前のHDDは数字の羅列(デバイスIDかなにかだと思われます)で表示されるので注意です。

 

f:id:makoro2_0:20200105020014p:plain

リビルド中は「Disks→ZFS→Pools→Information」より現在の進捗状況(リビルド完了済み容量)、推定残り時間を確認することが可能です。

f:id:makoro2_0:20200105020325p:plain

MN05ACA800 x4でRAID-Zを組んだときのリビルド作業は実測で15時間ほどで完了しました。

 

※なお、作業時にスクリーンショットを取っていた筈なんですが消失してしまい、復旧完了後のGUIを使って説明しているため、一部障害発生時と異なる可能性があります。

コマンド実行ログはなんとか表示できたので参考まで。

2019-09-09.01:14:51 zpool import -d /dev -f -a
2019-09-09.09:11:40 zpool scrub xxxxxxxxxx(ZFS Management名)
2019-09-23.12:03:48 zpool import -d /dev -f -a
2019-09-23.12:20:29 zpool replace xxxxxxxxxx 187908264360xxxxxxx ada3

 

参考:

NAS4FreeでHDD故障・交換 | fefcc.net

【FreeNAS】RAIDZでDisk交換をする - Qiita

Free NAS を搭載したNASのHDDが壊れた!ディスク交換後のボリューム復旧方法について | しょぼんブログ


●エラーが出たHDDは

ひとまず消せるセクタは消すべく0Fillを行ったあと、購入店舗に持ち込みます。

某社でHDDの流出問題が話題になりましたが、こちらはRAIDのうちの1台、このタマだけではデータは復元できません。
今回は秋葉原ツクモで購入したため、ツクモのサポートセンタへ持ち込み。
保証期間内の受付については10分程度で受付票を書いて終わりでした。

通常であれば代理店の在庫から新品交換(代理店より直送)となりますが、
今回は代理店在庫枯渇ということで返金対応となりました。

ひとまず保守部材として予備HDDは1台確保しているため、
もう1台障害が起きた場合に関してもなんとかリビルド可能です。

予備HDDを使い切った場合は新たなHDDのセットを購入し、再度新規でRAIDINGアレイを組むサイクルですね。


●まとめ

全てGUIで完結するため、リビルドも楽チンでいいですね。コンシューマNAS並みに簡単。
こういう所はNAS専用OSとして開発されているだけはあります。

HDD交換対応も店舗内でチェクをするかと思っていたので、受付だけで終わって拍子抜け。

また問題が起こらないよう祈るばかりです。

*1:HGSTブランドはWDに売却されたが、独禁法絡みの関係で一部施設を東芝へ売却している