20150725

最近の話題 2015年7月25日

１．クライスラーの車がハック可能なことが判明

　　2015年7月24日のThe RegisterがFiat Chryslerの車がハック可能なことが判明し，140万台にパッチの適用が必要と報じています。クライスラーのuConnectというシステムが，IPアドレスさえ分かれば認証なしに誰でも車に接続できる状態になっていて，Charlie Miller氏とChris Valasek氏というセキュリティーの専門家が車のエンジンやブレーキのコントロール，エンタテイメントなどのシステムなどに侵入できることを証明しました。

　　この2人の専門家は，この無線システムの欠陥を7か月前に通報し，クライスラーも修正のパッチをサービスパックに入れていたのですが，広く広報されることが無かったので，2人は自分の車を使い，公道で遠隔操作ができることを示して，マスコミが取り上げることになったものです。

　　修正パッチの適用は，USBに入れて車に差し込む必要があるとのことで，ダウンロードして自分で適用することもできるそうですが，大部分の人はディーラーなどに車を持ち込んで適用してもらうことになりそうです。

　　犯人の車の追跡中にパトカーのエンジンコントロールシステムをハックされては敵いませんから，全米の警察はこのような欠陥を非常に気にしているとのことです。

　　車に接続しても，ECUに侵入するのは容易ではないとのことですが，2人の専門家は，それが可能であることを示し，現実の危険があることを示しました。携帯電話で，家の冷暖房を入れたり，風呂を沸かしたりする機能は便利ではありますが，もっと簡単にハックされてしまう危険があるのではないでしょうか？

２．ISC15でIntelがKnights Landingのマイクロアーキを発表

　　ISC15でのWorkshopでのKnights LandingのIntelのチーフアーキテクトのSodani氏の発表を4回の連載でマイナビが報じています。

　　Knght Landing(KNL)のコアはAtomのSilvermontコアであるが，多くのアーキテクチャ的な改善が加えられています。目を惹くのは，KNLはXeon CPUとは命令互換となるが，現在のKinght Corner（現在のXeon Phi)とはバイナリ非互換でリコンパイルが必要という点です。

　　KNLは2コアと1MBの共有L2$，そして，2次元のメッシュインタコネクトを構成するハブで構成されます。このユニットを，多分，6×6で並べて72ノードのチップを作っていると推測されます。チップに搭載されるノード数は72ですが，初期には歩留まりを改善するため，多少の不良コアを外して製品化できる仕様になることもあり得ます。

　　コアは，AVX512のベクトルユニットを2個持ち，64bitの倍精度浮動小数点の積和演算を16個並列に実行できます。これが72コアですから，最大，1サイクルに2×16×72=2304演算を実行できます。これで3+Flopsですから，クロックは1.3+GHzと計算されます。

　　また，MCDRAMという3D積層のメモリを使うことが明らかになりました。多分4枚のDRAMチップと1枚のロジックチップを積層したものと思われます。1個が2GBでこれを8個使って16GBの高バンド幅メモリを構成しているのですが，Sodani氏は400GB/sと言っており，1個のバンド幅はHBMの半分程度になっています。

　　AMDやNVIDIAのGPUと違うのは，DDRメモリが接続できる点で6チャネルのメモリインタフェースを持ち，最大384GBのDDRメモリを接続できます。プロセサがOSをブートして走らせることができることと合わせて，データをPCIe経由で送らなくても良いのは有利です。

　　MCDRAMはDDRのメインメモリとは別アドレスのメモリとして使うのと，メインメモリのキャッシュとして使うことが出来ます。16GB全部を使う以外に，4GBあるいは8GBだけをキャッシュとして使い，残りは独立メモリとして使うことも可能です。このキャッシュですが，DDRを直接アクセスするよりも遅く，通常のキャッシュのようにアクセス時間を短縮する効果はなく，アクセス頻度が高いときにメモリバンド幅を増強する装置として働きます。

　　発表後にSodani氏にキャッシュラインサイズを聞いたら，64Bとのことでした。コア側のキャッシュとラインサイズが一致しており，扱いやすいということがありますが，AVX512では一度に1ラインを使ってしまうので，まとめてDDRを読み書きするバッファ的な効果は得られません。もっとも6チャネルという半端なDDRインタフェースですから，大きな単位をまとめたアクセスはやり難いと思われます。

　　また，キャッシュラインサイズが小さいのでタグの量は膨大で，ロジックチップには入らないと思われますので，積層したDRAMチップにタグアレイが入っていると思われます。

３．富士通が水冷のIntelサーバを発表

　　2015年7月13日にフランクフルトのISC会場で，富士通がPRIERGYサーバの水冷版のCool-Centralという製品を発表しました。しかし，水冷のPRIMERGY CX400 M1サーバは5月の富士通フォーラムでは参考出展されたのですが，ドイツのFujitsu Technology Solution GmbHの製品らしく，国内では，まだ，発売されていないようです。

　　ラック1本にXeon 160個とDIMM 1280枚を収容でき，30kWの発熱を冷却できるとしています。そして，PUEを1.06に下げることができ，冷却コストを最大50%削減できるとのことです。また，　排水の温度は60℃とのことで，排熱を給湯や暖房に利用できると書かれています。

　　基本的な水冷テクノロジはASETEK社から供給を受けています。ISC15で展示されていましたが，基本的にはCPUに水冷コールドヘッドが付けられ，ラック内のCDUにプラスチックのパイプでつながっているという構造です。サーバモジュールは2種類あり，2個のCPU用の丸いヘッドが付いているものと，CPUは1個で，大きな黒い四角い箱にもパイプが繋がっているものがあり，こちらはXeon Phiかも知れません。DIMMは水冷されておらず，この部分は空冷のようです。

４．Student Cluster Competition

　　ISC15でのStudent Cluster Competitionの結果を，2015年7月23日のマイナビが報じています。Student Cluster Competition（SCC)は，6人でチームを作り，そのチームで3kW以下の消費電力のクラスタサーバを作り，それでHPLと4種の科学技術計算アプリの実行性能を競う競技です。チームのメンバーは大学生，または高校生で，大学を卒業した大学院生などはメンバーに入れません。

　　各サーバのCPUやアクセラレータとして何を何個使うか，冷却は空冷か水冷を使うかなどで性能と消費電力が違ってきます。そして作ったクラスタに合わせたチューニングで実行性能が変わります。科学技術計算アプリはオープンソースで，3種のアプリは事前に公表されるので，それらは事前に勉強して置きます。しかし，入力データは競技の開始時に配付されます。入力データでアプリの動きが変わるので，最高の性能を出すにはアプリの動きを理解している必要があります。そして，第4のアプリはサプライズで，事前の公表がなく，競技の開始時にアプリが配布されるので，競技中に処理内容を理解してチューニングを行う必要があります。

　　アプリを理解していることも重要なので，チームメンバはOpenMPやMPIを使うアプリの並列化などに強い計算科学や計算機科学の学生だけではなく，課題アプリによって，分子動力学とか流体解析とかに強い他の学科の学生を加えたりします。

　　今年は11チームが参加し，HPLでの最高性能賞は，10.78TFlopsを達成したインドのJamia Millia Islamia Universityが獲得しました。CoolIT社の液冷を使って冷却電力を減らして，その分をGPUやプロセサにつぎ込んだのが功を奏したようです。

　　4種のアプリの性能を含めた総合スコアで優勝したのは，中国の精華大学です。そして，総合2位は，前回のISCでの優勝者の南アフリカのスパコンセンターCHPCのチームです。3位は中国の中国科学技術大学のチームでした。

　　もう一つ，主催者側のエキスパートが各チームのブースを回って，色々な質問をして，その対応の良しあしを評価するUsers Favoritという賞があり，これは米国のパデュー大と姉妹校のコロンビアのEAFIT大の連合チームが受賞しました。

　　米国ではSCCで活動した実績が評価されて大学に職を得たり，スポンサー企業などに就職したりとキャリア形成にも役立っているとのことですが，日本の学生さんは就活に忙しいのか，日本からのSCCへの参加はありません。まあ，米国でもStanford，Caltech，UCB，UCLAなどの西海岸の名門も参加していないので，一概に良し悪しは言えませんが。

５．Quantum Computerへの道は長そう

　　ISC15で，Quantum Computerのセッションがありました。この様子を2015年7月22日のThe Platformが報じています。興味のある方は，こちらを読んでください。

　　私もこのセッションには出たのですが，登壇した3人の専門家の意見も一致せず，良く分かりませんでした。分かったのは，量子ゲートを使って計算をモデル化して実用的な問題を解こうとすると，10⁹オーダーの Qubitが必要で，それでも計算時間が数時間から数日のオーダーで必要ということです。トップを走るD-Waveが，やっと1000Qubitですから，Qubitを100万倍にするには時間が掛かります。更に，現在は秒のレベルの時間しかエンタングルメントを維持できないのを数日まで伸ばすのも大変です。

　　エラー訂正のために大量のQubitが付けられるのですが，これを読み出して訂正を行うためには数Tbit/sの処理が必要となり，超大型のスパコンが必要になるとのことで，実用的な量子コンピュータの実現への道は長そうです。

　　D-Waveのマシンは量子ゲートを使うのではなく，量子アニーリングという原理でエネルギーが最小になる状態を見つけるもので，計算原理が異なります。また，配送経路の最適化のような問題では，実用的には本当の全体的な最小値（配送時間最小とか燃費最小）の状態を見つけられなくても，それに近いローカルな極小値が見つかれば十分というケースが多いので，多少，間違った答えでも役に立ちます。また，計算結果の読み出しも確率的なので，同じ計算を100回とか1000回とか行って，各ビットの出現確率を見て答えを判定するので，エンタングルメントが切れてエラーが発生しても，その確率が低ければ，出現確率の低い結果は排除されてしまいます。ということで，D-Waveのアプローチはうまい使い方ではないかと思います。