20150221

最近の話題 2015年2月21日

１．PEZYがExaScalar 1.5の開発とPEZY-SCのロードマップを発表

　　昨年11月のGreen500で2位となったKEKの睡蓮ですが，このシステムはExaScalar 1と呼ぶハードウェアで構成されています。これに続くExascaler 1.5の開発について，2015年2月20日に大阪で開催されたPC Cluster Consortiumのワークショップで，PEZYの齊藤社長が発表を行いました。

　　Exascaler 1.5（以下，ES1.5と略称）では，睡蓮の結果と経験をベースにPEZY-SCの性能，電力の最適化，DDR4を採用した低消費電力のモジュールの開発，PEZY-SC間のPCIE経由の通信機能の追加，ExaScalar 1の4倍の実装密度の実現を行うそうです。PEZY-SCチップに基本的な変更はありませんが，前回はEngineering Sampleであり，TSMCから入手できたのはかなり遅めのチップであったのですが，それを本来のターゲットにあわせた量産チップを使い，電力，性能が最適になる動作条件にチューニングするとのことです。また，前回はDDR4の入手難からDDR3を使ったのですが，ES1.5ではDDR4を使います。そして，実装を改善して，ES1と同程度のサイズの液浸槽に，64個のXeonと256個のPEZY-SC，更にInfiniBandの36ポートスイッチ2台を収容するとのことです。

　　この液浸槽1台で，ピーク400TFlopsとなり，LINPACKで250TFlops以上を目指します。これで，睡蓮と同じ4液浸槽でLINPACK 1PFlops超えという目標です。液浸槽4台で，体積は通常のラック一本分とのことで，ラックあたり1PFlopsです。

　　スケジュールも驚異的で，今年6月の設置を目指し，これまでよりも1か月遅くなったISC15で発表される次回のTop500，Green500に間に合わせる計画です。

　　また，齊藤社長は，次世代のPEZY-SC2についても触れ，14-16nm FinFETプロセスを使い，4096コアを搭載し1GHzクロックで動作させると発表しました。また，独自開発の3D実装のDRAMを使い，4TB/sのバンド幅を実現する計画です。PEZY社のグループにはUltraMemoryという会社があり，4umと薄く研磨した高密度TSV用DRAMチップの開発を発表しているし，慶応の黒田先生のコイルを使った電磁誘導の信号伝送を使うDRAMの開発も行っています。SC2では，これらの技術を使ったDRAMを用いると思われます。そして，PEZY-SC2ワンチップで8.2TFlops，消費電力100Wを目指しています。

　更に，齊藤社長は，10nmプロセスを使うSC3，7nmプロセスを使うSC4の開発を行う計画を発表しました。また，スパコンでは重要度が高いインタコネクトのボトルネックを解消する技術を開発する新会社を設立する予定とのことです。

２．AMDがHPC向けのAPUの開発について発表

　　2015年2月20日に大阪で開催されたPC Cluster Consortiumのワークショップにおいて，AMDの林氏が講演の中で，AMDがハイエンドのGPUを集積するHPC向けのAPUの開発すると発表しました。現在のAPUは，デスクトップ向けの最高性能のものでも消費電力が100W程度で，200Wを超えるハイエンドのGPUは集積できません。これに対して，ハイエンドのGPUを集積した，200～300Wの消費電力のHPC向けのAPUを開発するとのことです。

　現在のHawaii GPUの次世代のGPUを2016年に出し，これを集積するハイエンドAPUを2017年に出す計画です。このAPUにはFirePro級のハイエンドGPUと次世代Opteronのサーバ用高性能CPUを集積します。

　引き続き，2018年にはその次の世代のGPU，2019年にはそれを集積するハイエンドAPUを開発する計画で，2019年のAPUはマルチTFlopsの性能を持つとのことです。

３．AMDは32コア，64スレッドのARMとx86プロセサを製品化する計画

　　2015年2月20日に大阪で開催されたPC Cluster Consortiumのワークショップにおいて，AMDの林氏が，講演の中で，AMDは2016年にはCortex-A57の何倍もの性能を持つARM v8アーキテクチャのK12コアを独自開発し，サーバ用プロセサとして製品化するという計画を発表しました。

　　このK12と同世代のx86プロセサとはピン互換となるとのことです。また，これらのプロセサは32コアを集積し，これまでAMDでは採用していなかったマルチスレッドをサポートするとのことで，64スレッドを並列実行するプロセサとなるとのことです。

４．MicrosoftとGoogleが画像認識で人間を超える成績を実現

　　2015年2月18日のEE Timesが，ImageNet Large Scale Visual Recognition Challengeで，人間の成績を超えるシステムをMicrosoftとGoogleが実現と報じています。

　　昨年のChallengeでは，トレーニング用に456,567イメージ，検証用に20,120イメージが提供され，テスト用の55,502イメージを認識するという問題で，200クラス(男の子，犬，椅子など）の対象が含まれています。今年の問題は，まだ，ImageNetのサイトには公表されていませんが，クラス数やテスト用のイメージ数は増えると予想されます。

　　EE Timesの記事にはどのような問題かは書かれていませんが（多分，2014年の問題と思われます），人間の認識の最良の成績は誤認識が5.1%であったのに対して，Microsoftは4.94%の誤認識のシステムを開発したと発表しました。その5日後に，Googleは4.90%の誤認識のシステムを発表しており，熾烈な競争が繰り広げられています。

　　2015年の成績発表は12月17日で，それまでにより認識率の高いシステムが出てくる可能性は十分にあります。

　　このような好成績のシステムは，人間の脳の神経細胞の繋がりを模したシステムをDeep Learningで教育するという手法を用いています。

　　ほんの20年くらい前には，コンピュータが人間のように画像を認識することは不可能と考えられていたのと比べると大きな進歩で，人間より正確に画像をみて，それが何であるかを認識するシステムが出現しつつあります。既に，MicrosoftはBingの画像検索にこの認識技術を取り入れているそうです。

５．Qualcommが4種の64bit ARMコアを使うスマホSoCを発表

　　2015年2月18日のThe Registerが，Qualcomm のSnapdragon 620，618，425，415の4種のSoCの発表を報じています。Qualcommは32bitアーキのSnapdragon400，600，800の世代では自社開発のKraitコアを使っていましたが，64bitアーキになった410，610，810の世代ではARMのCortex-A57と A53コアに切り替えました。今回の4品種では600番台の2種には，ARMとしては，現状では最高性能のCortex-A72を採用しています。

　Snapdragon 620は1.8GHzのA72を4コア，それに1.2GHzのA53　4コアを組み合わせたbig.LITTLE構成となっています。メモリは933MHzのLPDDR3を2チャネルサポートしています。

　それにQualcommのHeagon V56 DSP，Adreno GPU（モデル番号不詳），そしてX8 LTEなどのIPを組み合わせたSoCです。4Kビデオを30fpsでキャプチャし，2560×1600ディスプレイを駆動でき，LTE FDD， LTE TDD， WCDMA (DC-HSPA+，DC-HSUPA)，CDMA1x，EV-DO，TD-SCDMA，GSM/EDGEの8種の通信をサポートしています。

　Snapdragon 618はA72を2コアに減らしたモデルです。425と415はA72コアは使わず，425は1.7GHzのA53を8コア，415は1.4GHzのA53を8コアとなっています。また400系列のモデルではGPUがAdreno 405となり，415ではX8ではなくX5 LTEとなっています。