最近の話題 2016年6月25日

1.Top500の1位は中国の太湖之光

  2016年6月20日にスパコンのTop500が発表されましたが,1位は中国の神威 太湖之光(Sunway Tianhu Light)というシステムで,LINPACK性能は96PFlopsと,今回2位に下がった天河2号の3倍近い性能です。使われているプロセサはSunway(SW)(神威,申威) 26010というもので,計算コアを256コアと制御コアを4コア集積し,1.45GHzクロックで動作します。そして,演算コアは8Flops/サイクル,制御コアは16Flops/サイクルで,計算にも使えるとのことで,SW26010チップ 1個で3.0624PFlopsの性能となります。これに4チャネルのDDR3 DRAM(各チャネル8GB)を取り付けたものがノードとなります。

  Dongarra先生のレポートでは,4個の64計算コアと1個の制御コアからなるグループ4個がワンチップで,それらをNoC(Network on Chip)で接続すると書かれており,1チップで260コアという記述です。そして,Top500の登録データデータでもそのように書かれています。また,中国語の記事で単芯片と書かれているものもあります。しかし,LBNLのJohn Shalf氏に聞いたら,各チップは64+1コアで,4チップをマルチチップサブストレートに載せていると資料に書いてあると言ってました。現状では,どちらが正しいのか確認できません。

  このチップですが,上海のNational Research Center of Parallel Computer and Engineering and Technologyの開発になるものとのことですが,何ナノメートルテクノロジを使っているのか,Fabはどこかなどは不明です。Top500の授賞式で登壇したHaohuan Fu教授を捕まえてインタビューしたのですが,知らないとのことでした。それもシラを切っているという感じではなく,本当に知らないようでした。展示ブースの担当者も,我々はユーザだからハードは知らないということで,私の質問には,何も答えられませんでした。半導体の話はともかく,メモリ階層がどうなっているかというのは,ソフト開発者にも重要な関心事だと思うのですが,それも知らないというので,天を仰いでしまいました。

  Dongarra先生のレポートでは,SW26010のコアはOut-of-Orderとなっているのですが,ちょっと信じがたいところもあるので,Press & Speaker roomで,”Jack?"と声を掛けて聞いてみました。彼のPCの中の中国関係のドキュメントを全部サーチしてくれたのですが,Out-of-Orderという文字列はこのレポートからしか見つからず,どこからOut-of-Orderが出てきたのか分からないということで,調べてみるということになりました。計算コアがOut-of-Orderというのは信じがたいのですが,制御コアはL1$,L2$を持つ普通のプロセサで,こちらはOut-of-Orderというのはあり得ると思います。

  メモリ階層ですが,命令側は12KBのL1$がありますが,データ側は64KBのスクラッチパッドメモリ(GPUのシェアードメモリのようなもの)があるだけで,後は,8GBのDDR3だけです。John Shalf氏は多分,MMUもないDSPのような作りではないかと言っていましたが,これは推測です。このような,ソフトを作るのが大変そうな構造で,3件のGordon Bell候補の論文が書けるアプリを作ったというのは驚くべきことで,Thomas Sterling教授は,いたく感心して,米国もこういう軽い造りを見直すべきと言っていました。

  SW26010は構造が簡単なこともあり,6.051GFlops/Wと高い性能/電力を達成し,Green500でも3位となりました。1位は菖蒲,2位は皐月ですが,1位の菖蒲でも6.774GFlps/Wで,12%の違いです。PEZY-SCはパッケージのノイズを減らして電源電圧を下げられるようにしたPEZY-SCnpを開発して,電力/性能比を10~15%改善しており,これをやっておいて良かったというのがPEZYの齊藤社長の弁です。

  太湖之光は,この計算ノードを8台,1枚の大きなボードに搭載し,キャビネットに,このボードを32枚収容しています。さらに,4個のキャビネットを1台の筐体に収容し,40筐体でシステムを構成しています。ノード数は8×32×4×40=40,960ノードとなります。総コア数は,10,649,600で,1000万コアを超えています。

  筐体は水冷です。Dongarra先生は,冷却に4MWくらい使っていると言っていました。

2.IntelがKnights Landingを正式発表

  2016年6月20日にIntelは,独フランクフルトで開催中のISC 2016の中で,次世代Xeon PhiのKnights Landing(KNL)を正式発表しました。2016年6月22日のPC Watch2016年6月21日のHPC Wireが発表についての記事を載せています。

  最上位モデルは72コア搭載ですが,72コア,1.5GHzの7290,68コア,1.4GHzの7250,64コア,1.3GHzの7210と7230の4品種が発表されました。7210はメモリの転送速度などが下がっている廉価版です。OmniPathのインタフェースを内蔵する7290はTDP 245Wで,その他は215Wです。なお,7290の出荷は9月,その他は,即時供給可能となっています。お値段は順に,$6254,$4876,$3710,$2438となっています。

  今回のISC 2016で正式発表されたのですが,展示場では各社のブースにKNLが見られ,過去にも色々な折に技術的な発表が行われており,新味はなく,Intelのブースも盛り上がっている感じではありませんでした。この点は,SC会場の近所のホテルに会場を取り,記者を招集して発表したKNCの時とは大違いです。

  KNLがこれまでのアクセラレータと大きく異なるのは,Xeon と基本的には命令互換で,ホストとしてOSを動かすことができるという点です。アクセラレータの場合は,ホストノード間でデータの転送を行い,その後,ホ ストメモリからアクセラレータメモリにデータを転送するということが必要になります。これに対してKNLの場合は,後者のデータ転送が不要になります。こ れは性能の点でも,プログラミングの容易さという点でも大きなメリットです。

  KNLのコアはSilvermont系のコアとなり,KNCに比べると大幅に性能が上がっているのですが,大型のXeon CPUのレベルには及びません。また,割り込み処理などもできるのですが,OSを走らせる1コアだけしか使わない機能のためだけに,72コア全部に多数のトランジスタをつぎ込むのももったいないわけで,一部のユーザから,割り込み処理などが遅いという声が上がっているようです。

  一般的な科学技術計算では,16コアのHaswell×2のプラットフォームよりもKNL×1の方が性能が高いものが多く,その点ではコストパフォーマンスは良いようです。

3.UC Davisが1000コアプロセサKilocoreを発表

  2016年6月22日のEE Timesが,VLSIシンポジウムにおける,UC Davisの1000コアプロセサの発表を報じています。UC DavisのBevan Baas教授のグループが開発したもので,世界初の1000コアプロセサと称していますが,PEZYnPEZY-SCは2年位前から1024コアでした。

  このKilocoreプロセサはIBMの32nmのPD-SOI CMOSプロセスで作られ,621M Trとのことです。1.1Vの電源電圧で1.78GHzで動作し,1000コアですから1.78Tops/sとなります。電源電圧を0.84Vに落として1GHzクロックとした場合は13.1Wとのことです。0.56Vの時に電力効率は最大になり,5.8pJ/Opとなります。

  コア間の通信はCircuit switchedとPacket switchedの両方があり,Wormhole routingをやっていると書かれています。ネットワークのトポロジは2次元メッシュとホストプロセサ用の通信路があり,各ノードのルーターは5ポートとなっています。各ルーターのスループットは45.5Gbpsで,1.1V電源の場合の通信速度は9.1Gbpsとなっています。また,0.9V動作では,スループットは27.1Gbpsm電力は3.36mW,0.67Vでは8.1Gbpsと429uWとなっています。

4.Michael Slater氏が死去

  2016年6月20日のEE Timesが,Michael Slater氏が癌で亡くなったと報じています。Slater氏はMicroprocessor Reportを発行し,Microprocessor Forumを主催したことで知られています。Microprocessor Reportを初めてみたときに,これだけ詳細にプロセサの中身を解説する出版物があるのかと驚いたことを思い出します。値段はかなり高かったと思いますが,それでも購読する価値があると思いました。

  また,Microprocessor Forumは年に1回の開催の,IEEEなどの学会の主催でなく,Slater氏のMicroDesign resourcesの主催する学会でした。参加費は$3000程度であったと記憶しており,IEEEなどの学会と比べると5倍くらい高かったのですが,最盛期には1000人以上の参加者が集まったと思います。

  90年代は,マイクロプロセサを開発する会社の多く,スーパスカラやOut-of-Order,投機実行など新しい技術もどんどん出てきた時代でしたが,2000年頃になると,プロセサを開発する会社が減り,Microprocessor Forumの参加者も減って行き,Microprocessor Reportの発行は続いていましたが,購読数は減って行ったのではないかと思います。このような状況で,Microprocessor Forumは行われなくなり,新しいプロセサなどの発表はHot Chipsで行われるという風に変わって行きました。

  Microprocessor Reportの編集長であった,Linley Gwennap氏はLinley Groupという会社を立ち上げ,対象を通信用プロセサなどに変えて,レポートの発行やフォーラムの開催という同じビジネスモデルを受け継いでいます。

  Slater氏は,レポートやフォーラムの技術的な内容に,非常に高いスタンダードを維持し,プロセサ業界の発展に大きな寄与をしたと思います。筆者の執筆スタイルもMicroprocessor Reportの影響を少なからず受けていると思っています。

  Slater氏の冥福をお祈りいたします。


inserted by FC2 system