ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

オープンソース化するハードウェア 〜ヤフーがOCPサーバを導入するまで〜

こんにちは。データセンターのサーバを管理しています宮本です。
今回はOpen Compute Project(以下、OCP)の概要とヤフーがOCP仕様のサーバ(以下、OCPサーバ)を導入するまでに至った経緯をお話したいと思います。

オープンソースとハードウェア

オープンソースという言葉はよく耳にしますが、この「みんなで作り上げていく」という考え方はハードウェアの世界にも浸透してきています。
ソフトウェアでオープンというとソースコードの共有にあたりますが、ハードウェアのオープンソースは物理的な仕様の設計書を共有することを意味します。
Facebookが2011年にデータセンターやサーバのオープンソース化を目的としてOpen Compute Project Foundationを発足して以降、Rackspaceなど多くの企業がメンバーシップ登録しており年々広がりを見せています。
昨年はMicrosoft、今年はAppleが参画を表明して話題になりました。
ヤフーでもこのOCPに注目し、数カ月の導入検証を経て、
サーバ費用の削減消費電力の削減設置スペースの削減現地作業時間の削減
につながる技術であると確信し導入を決めました。

多面的に効率を追求したデザイン

サーバ費用の削減
サーバの調達にはODM(Original Designed Manufacturing)ベンダと連携し、パーツ別調達することで費用を抑えることができました。
ODMベンダは私たちが要求するサーバ仕様を製造・供給してくれるため、システムの要件にあったサーバを探すためにも有効です。
一からハードウェアを設計することは簡単ではありませんが、OCPにコミットされたサーバ設計書を元にシステム要件にあった構成にカスタマイズできます。
今回は仮想化基盤を提供する「OpenStack」で使用するためのOCPサーバの選定を行いました。

システム 検討構成
OpenStack Nova ComputeのためのSSD搭載および高性能CPUモデル

消費電力の削減
サーバの電力削減はデータセンターの運用コスト削減につながることはもちろんですが、データセンターの電力キャパシティには限りがあるため、より多くのサーバを投入できるメリットもあります。
通常IAサーバは筐体内部にPSU(Power Supply Unit)を内蔵して電力供給していますが、OCPの仕様ではラックにN+1の冗長電源を備えたパワーシェルフを搭載して、ここから電源バーを通して電力を供給します。
ラック内のサーバの電源がパワーシェルフに集約されることで効率的な電力供給を行うことができます。
電源バーは縦に3本、ラックの背面に配置されています(写真1)。
銅部分にはDC12Vの電流が流れているため、直接触れないよう取り扱いには注意が必要です。

back
写真1 ラック背面

設置スペースの削減
ラックはOCP仕様のOpen Rackが使われます。
従来の19インチラックより幅広な21インチラックで、1Uの高さもやや高くなっており、19インチラックと区別できる1 OU (Open Unit)という単位となっています。
1 U = 1.75インチ
1 OU = 1.89インチ

サーバの外観は縦に長く、今回採用したモデルはシェルフに3台の2 OUサーバを搭載できます(写真2)。

top
写真2 カバーを取り外したサーバ上面

現地作業時間の削減
OCPサーバでは筐体交換や故障パーツ交換などの現地作業をラック前面から行うことができます。
またサーバに電源ケーブルがなく、ラックの電源バーに直接サーバを挿す構造となっているため、ラッキングと同時に電源供給できる状態になります。
そのため、サーバの電源ケーブルやLANケーブルを抜くために後ろに回って対象のサーバを確認する手間とオペレーションミスを減らすことができます。

OCPサーバの構成検討

ヤフーでは数万台の物理サーバを管理していますが、OCPサーバの導入は今回が初めてでした。
OCPサーバは従来のIAサーバとデザイン・仕様が大きく異なります。
そのため今回OCPサーバの検証は基本的なところから見直す必要がありました。
従来のIAサーバ検証は組み立てられた製品があって用意されたサーバを検証しますが、ODM調達によるOCPサーバの検証では組み立ての段階からベンダと一緒に検証するイメージです。
ある構成で問題がでた場合、他の部品に交換したりファームウェアのアップデートを試すなどしてベンダと一緒に構成を組んでいきます。
以下は私たちが実施した主な検証項目です。

  • OSのインストール
  • NWのパフォーマンス
  • ストレージのパフォーマンス
  • Open Rackの取り扱い
  • パワーシェルフの電源冗長

デバッグカード
検証中に使用したデバッグカードの紹介もしたいと思います。
OCPサーバの中にはディスプレイ出力ポートがないものもあります。
このときにサーバの状態を確認するために使用するのがデバッグカードです(写真3)。
LEDでPOSTコードを表示してサーバの状態を簡易的に知らせてくれるものですが、現地でノートパソコンとUSBでつないでシリアルコンソール出力させることもできます。
debug
写真3 デバッグカード

最後に

OCPの概要とOCPサーバの導入によるコスト削減メリットとその実現方法を紹介しました。
ODMによるハードウェア調達は構成の検討、検証から納品の段階まで各関係者と密に連携する必要があります。
ヤフーオリジナルのOCPサーバを各社と相談してカスタマイズしながら構成を作り上げる、みんなでサーバを作り上げるという印象です。
また検証中にOCPを推進しているDC保有企業やベンダなど多くのノウハウを持っている企業と情報交換を行える場は自社のインフラを見直すいい機会になりました。
ヤフーではこれからもOpenStackをはじめとするオープンソースソフトウェアやOCPハードウェアの検証を積極的に行い、世界基準のシステム構築に取り組んでいきます。

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました

このページの先頭へ