Blue GeneIBM
Blue Gene/L1
Blue Gene/LCabinet1

Blue Gene1999[1][2]1Blue Gene/L[3]2Blue Gene/P[4]3Blue Gene/Q[5]Blue GenePowerPC使HPCTOP500Green500HPCC

IBM1997Deep Blue[6]

概要

編集

Blue Gene Blue Gene/L1360TFLOPS35.86TFLOPS1020101PFLOPSBlue Gene/P2010201210PFLOPSBlue Gene/Q

特徴

編集
プロセッサ

Blue Genex86POWERBlue Gene







1調

システム構成

編集

Blue Geneは、システムとしての最小構成となるラックを必要に応じて複数接続することでユーザが求める性能を提供する。そのラックは、1プロセスを実行する最小単位となる計算ノードを複数個搭載しており、各ノードはコンピュータネットワークによって接続されている。

歴史

編集

ローレンス・リバモア研究所のシステム

編集

20041124Top500[7]LINPACKBlue Gene/L70.72TFLOPSCPU32,768

20056Blue Gene/LCPU65,536136.80TFLOPS[8]200510131,072CPU280TFLOPS[9] 20071130Top500CPU212,992478TFLOPS[10]360TFLOPS
 
高エネルギー加速器研究機構に設置されたBlue Gene

日本国内への導入

編集

日本国内では産業技術総合研究所生命情報工学研究センターが4ラックを導入し、2005年6月に発表されたTop500で第8位を記録した[11]。その後ニイウス株式会社で1ラック、2006年には高エネルギー加速器研究機構で10ラックが稼働を開始した。

その他

編集

2009年9月17日、米国家技術賞を受賞した。[12]

Blue Gene/L

編集

計算ノード

編集
 
SoCの構成図

PC

構成

編集

SoC

PowerPC 440 x 2

PowerPC 440[13]2L224MiBL3



Blue Gene

JTAG





512MiBDDR SDRAM

高密度実装

編集

省電力プロセッサを採用した理由は高密度実装を実現するためである。一般的なPCやサーバ、また旧来のスーパーコンピュータが採用する高性能プロセッサの多くは、消費電力とそれに伴う発熱も大きいため、そのようなCPUを筐体に多数詰め込むと排熱が非常に困難になる。かといって筐体内の密度を下げるとケーブルや接続コネクタなどの構成部品が増え、それが信頼性の低下を招く。 Blue Gene/Lでは消費電力あたりの性能が高い組み込み用途向けプロセッサを導入することでその問題を解決した[14]。この設計方針により、Blue Gene/Lはその性能に対し電力消費や設置面積において非常にコンパクトなシステムとなった。Blue Gene/Lの消費電力あたりの性能は112.24MFLOPS/Wであり[15]、地球シミュレータの3.01MFLOPS/Wと比べると、Blue Gene/Lは37倍も電力効率の良いシステムである。

ラック

編集
 
計算カードを多数収容したノードカード

Blue Gene/L25122048CPUI/O1264I/OI/O調

ネットワーク

編集

Blue Gene/L内のノード接続には、その用途に応じて異なる5種類のネットワークが使われている。

三次元トーラスネットワーク

編集
 
2x2x2のトーラスネットワーク

三次元トーラスネットワークは低遅延・広帯域を要求されるノード間の一対一通信に使われ、Blue Geneの通信ネットワークの中でも最も重要な位置を占める。

三次元トーラスネットワークは隣接ノード同士の接続から構成されるため、通信相手によってはその通信データが複数ノードを経由して到達することになる。 よって、トーラスネットワークの帯域を効率的に用いるには、三次元トーラスにおける通信を出来るだけ局所的に抑えるようなアルゴリズムを適用する必要がある。また、通信局所性をBlue Geneの物理的な接続配置にあわせることも重要である。

各計算ノード間の接続は1方向あたり1.4Gbps、遅延は100ナノ秒となる。各ノードは近隣の6ノードとそれぞれ双方向に接続しており、1ノードの合計入出力帯域は16.8Gbpsに達する。ノード数が65,536の場合トーラスは64x32x32となり、最大ホップ数は32+16+16=64ホップ、最大遅延は6.4マイクロ秒となる。

集団通信ネットワーク

編集
 
集団通信ネットワークの構造

集団通信ネットワークは、ある1ノードと複数ノードとの一対多通信やファイル転送に用いられるもので、各ノードと他の1~3ノードとの相互接続による2分木ネットワークによって構成される。発信元から末端までの遅延は最大5マイクロ秒、帯域は2.8Gbpsである。

  • ノード処理結果の収集・集約

現在のスーパーコンピュータ向け並列アプリケーションでは、各ノードの処理結果を集約する操作に多く時間を費やしている。その性質を踏まえ、Blue Geneの集団通信ネットワークには最大・最小値、合計等の整数演算やビット列論理演算による集約機能を備えている。Blue Geneの集団通信ネットワークの遅延は他の一般的なスーパーコンピュータにくらべ1/10から1/100であり、Blue Gene/Lの最大構成時においても効率的な集約処理を実現している。

あるノードから複数のノードにデータをブロードキャストするのに集合通信ネットワークが用いられる。三次元トーラスネットワークでもブロードキャストは可能だが、ネットワークトポロジの面から見て集合通信ネットワークのほうがずっと効率的である。

グローバルバリアネットワーク

編集

並列アプリケーションでは、各プロセスの同期がよく行われる。プロセッサ数とノード数におけるスケーラビリティを確保するためには、同期待ちに伴う遅延を改良する必要がある。グローバルバリアネットワークには、複数ノードの同期をハードウェアによる支援によって高速に行う機構が備えられている。 このバリアネットワークは低遅延という特徴を持ち、65,536ノードの同期に必要な時間は1.5マイクロ秒未満である。

システム管理ネットワーク

編集

計算ノードの初期化や監視・管理・デバッグのためにイーサネットとJTAG等のインタフェースを変換回路を介して接続するネットワークが用意されている。このネットワークを用いて管理用コンピュータから遠隔操作を行う。

I/Oネットワーク

編集

I/Oノードが持つギガビット・イーサネットが接続されるネットワークで、I/Oノード同士の通信と外部のファイルサーバへのアクセスを担う。

計算ノード

Compute Node Kernel(CNK)OSCPU2512MiBOS CNKPOSIXGNU GlibcI/OI/OCNKCNKI/OCNKforkexec

I/O

I/OI/OLinux

I/OControl and I/O Daemon(CIOD)I/OCNKI/OCNKI/O



I/OCore Management and Control System(CMCS)CMCS

Blue Gene/P

編集
 
Blue Gene/Pのノードカード

Blue Gene/P2007626IBMBlue Gene1 PFLOPS3 PFLOPS57Blue Gene/P4PowerPC 450 850MHz1 PFLOPSBlue Gene/P72294,912216884,7363 PFLOPSBlue Gene/P14,096

20071112JUGENE65,536167 TFLOPS[16]

Blue Gene/Q

編集

Blue Gene/Qは、Blue Geneシリーズの最新のスーパーコンピュータの設計で、2011年内に20 PFLOPS達成を目標としたが、2012年に延期された。Blue Gene/Qは、高い電力当り性能を持つ Blue Gene/L や Blue Gene/P の拡張と強化を続けたもので、1684 MFLOPS/Watt を実現した[17][18]

設計

編集

Blue Gene/QPower BQCPowerPC A2Blue Gene/Q 164-Way  64  PowerPC A2 I/O1 GB DDR3 RAM[19][20]

導入

編集

Blue Gene/Qを採用したシステムには以下がある。

プログラミングモデル

編集

Blue Gene/Lのシステム構成は、各計算ノードで独立して実行されるプロセスがネットワークを介して互いにデータを交換するメッセージパッシングモデルを想定した設計となっている。メッセージパッシングにおいてデファクトスタンダードとして利用されるMessage Passing Interface (MPI)をサポートしていることから、MPIを利用して実装された既存のスーパーコンピュータ向け並列アプリケーションの多くは移植するだけでBlue Gene/Lの特徴を生かして実行される。 しかし、ネットワークで述べたように通信の局所性が乏しい、また処理全体の中で通信時間の比率が高いもの、元々並列度が低いアプリケーションについては、より低遅延・広帯域なネットワークを備える他のシステムに比べ低い実行効率しか得られない。Blue Geneは、通信に対する計算の比率が高いアプリケーションほどより有利に実行可能である。

脚注

編集


(一)^ 1 - IBM

(二)^ Blue GeneNNSAIBM - IBM

(三)^  - IBM

(四)^ IBM Blue Gene - IBM

(五)^ IBM 100Blue Gene/Q - IBM

(六)^ IBM Blue Gene - IBMDeep Blue -

(七)^ TOP500.org. November 2004 TOP500 Supercomputing Sites. 20071024

(八)^ TOP500.org. June 2005 TOP500 Supercomputing Sites. 20071024

(九)^ TOP500.org. November 2005 TOP500 Supercomputing Sites. 20071024

(十)^ TOP500.org. November 2007 TOP500 Supercomputing Sites. 20071115

(11)^ TOP500.org. Computational Biology Research Center, AIST. 2007117

(12)^ IBMBlue Gene - ITmedia

(13)^ International Business Machines Corp. PowerPC 440 Embedded Core - IBM Microelectronics. 20071024

(14)^ A. Gara, et. al (2005). Overview of the Blue Gene/L system architecture. IBM Journal of Research and Development 49(2). doi:10.1147/rd.492.0195. http://researchweb.watson.ibm.com/journal/rd/492/gara.html. 

(15)^ Green500.org. The Green500 List. 20071024

(16)^ Supercomputing: Jülich Amongst World Leaders Again

(17)^ Top500 Supercomputing List Reveals Computing Trends

(18)^ IBM Research A Clear Winner in Green 500

(19)^ IBM uncloaks 20 petaflops BlueGene/Q super

(20)^ US commissions beefy IBM supercomputer - IDG News Service

(21)^ Argonne National Laboratory Selects IBM Supercomputer to Advance Research - Based on next generation IBM Blue Gene, the 10 petaflop "Mira" supercomputer will fuel national innovation - IBM

参考文献

編集

外部リンク

編集