ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

社内クラウド環境におけるディスク(HDD)の故障率を確認してみました。

はじめに

「Usenix FAST 16」というカンファレンスにおいて「Environmental Conditions and Disk Reliability in Free-cooled Datacenters」という論文が発表されたのはご存じでしょうか。
こちらの論文はフリークーリング方式におけるデータセンターがハードウエアに与える影響を調べた論文です。
内容については省略しますが、この中で特筆すべき項目として、気温の高さや気温変化よりも湿度の高さがディスク故障の最も大きな要因であると述べられています。
弊社の社内クラウド環境においてもあてはまるのか確認してみたというのが本記事の要旨です。

データセンター環境について

まず、弊社のデータセンター環境についてお話します。
弊社では複数の拠点においてデータセンターを所有しており、拠点や建物ごとに設備・環境はさまざまです。
データセンターにおける消費電力を下げるため、設備や冷却方式ではさまざまな方式のものを取り入れ試行錯誤を行っています。
熱がハードウエアに与える影響は非常に大きいことは周知の事実として知られています。
そのため、データセンターでは温度はできるだけ一定に保たれています。
各拠点における気温の推移を図1に示します。

各拠点の温度推移

図1 各拠点における温度推移

温度は各拠点にて多少の変化はあるものの一定の範囲内に収めるように調節を行っています。
温度のぶれ方や湿度の推移は冷却方式によって変わってきます。
次に、各拠点における湿度の推移を図2に示します。

各拠点の湿度推移

図2 各拠点における湿度推移

拠点Aにおいて湿度が大きく変化していることを確認できます。
こちらの拠点では気化熱と外気を利用した冷却を行っています。
そのため、外気の湿度などに影響されやすく、湿度が高くなりやすい傾向になっています。

湿度とディスク故障率について

温度については各拠点同様であり、湿度については変化があることは確認できました。
この状況におけるディスク故障率を確認してみましょう。

計測した期間は約2年で、対象は社内クラウド環境のOpenStackで使っている筐体です。
1つの筐体内に複数のVMが存在し、複数のVMがディスクを共有使用します。
従って、ランダムのRead/Writeが多発しますので、似たようなワークロードに収束します。
その期間に交換したディスク数は約300個程度でした。

各拠点・建物におけるディスクの故障台数・運用台数・故障率を図3に示します。

各拠点の故障率

図3 (左)各拠点における故障台数、(中央)各拠点における運用台数、(右)各拠点における故障率

ここで指す故障率は故障台数が運用台数中に占めている割合を百分率で表したものです。
故障率においては拠点Aが突出していることが確認できます。
また、拠点Cの温度と湿度については現在公表できるものがないので、示せませんがおよそ拠点Bと同様と考えて問題ありません。

これらの故障率は稼動日数やディスクメーカによる偏りの要素に起因する可能性があります。
こちらの要素ではないか確認してみましょう。

まずは、稼動日数における観点から確認してみます。
稼動日数を横軸、故障率を縦軸にしたものを図4に示します。

累計故障台数

図4 拠点ごとの稼働日数と故障率

こちらのグラフより拠点Aの傾向が拠点B,Cと大きく異なることが読み取れます。
加えて、拠点Aのみ突出して多いことが読み取ることができます。

次に、ディスクのメーカに偏りがないかチェックしてみましょう。
各拠点におけるメーカごとの運用台数を表1に示します。

メーカA メーカB メーカC メーカD メーカE
拠点A 400 0 400 461 271
拠点B 3641 2058 691 2033 1233
拠点C 1149 6554 662 832 200

表1 各拠点におけるメーカごとの運用台数

弊社では時期ごとに導入する筐体を性能・コスト・運用などを検討の上、どのメーカを採用するか検討します。
従って、時期や拠点ごとに導入メーカごとの台数に偏りが発生します。
メーカBは拠点Aでは運用されていませんが、それ以外のところでは全ての拠点において5種類のメーカのものが運用されています。
各拠点にてどの程度の台数が運用しているということを確認できたかと思います。
では、これらの分布を念頭に入れた上で各拠点のメーカごとの故障率を確認してみたいと思います。

メーカごとの故障率

図5 各拠点におけるメーカごとの故障率

メーカごとの故障率に違いは見受けられますが、全体の傾向として、拠点Aでは他拠点と比べて全て高い数値になっていることを確認できます。
メーカEにおける拠点Cの数値が高くなっている原因として、約半数が特定の時期に交換されていました。
従って、メーカEにおける拠点Cでは別の要因で高くなっている可能性があります。

まとめ

弊社環境においても湿度とディスクの故障率において相関がある可能性を確認できました。
より確実に検証する方法として拠点Aにおいて湿度を一定に保つと、どうなるかといった点を検証すべきできすが、それは今後の展望とさせてください。
自宅などで大量のディスクを管理している方は、筐体内のエアフローだけでなく、室内全体のエアフローにおいて湿度も考慮して、筐体の配置を考えてみるのも面白いかもしれませんね。

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました

このページの先頭へ