20201219

最近の話題 2020年12月19日

1．IntelのXeーLP GPU

　　2020年12月12日のEE TimesがIntelのXe GPUについて纏まった記事を掲載しています。そして，これまではXe-LPアーキテクチャのローエンドGPUしか発表されていなかったのですが，IntelのGPUの責任者のRaja Koduri氏のインタビューで聞いたと思われる情報が書かれています。この点で，面白い記事で，興味のある読者は元になったEE Timesの記事をご覧になって下さい。ただし，

　　これまで，IntelはディスクリートGPUに関しては，あまり真面目ではなく，2級プロダクトとして扱っており，それがNVIDIAやAMDの先行を許したわけですが，今回のXeについては全力で取り組んでいる感じで，Intelが本気というのが理解されればついてくる会社は相当多くなる可能性があります。

　　まず，Xe-LPですが，前世代のHD Graphicsに比べるとシェーダエンジンの演算器数が1.5倍に増えています。その結果，1サイクルにFP16 では1536演算できます。また，48テクセル/クロック，24ピクセル/クロックのラスタエンジンを持ち，メモリ系は新たにL1データキャッシュを加え，16MBのL3キャッシュ，エンドーエンドの圧縮を持っています。そして，新しいリングバスはバンド幅が倍増しています。

　　大きなアーキテクチャ上の改善は8wideのFP/INT ALUと2wideの拡張演算ALUを備えた点です。メインの演算ループではFPが連続するとしてもループ回数のチェックなど整数の演算が入るようなケースは多く，拡張演算ALUのようなサブの演算パイプを持たせて並列に実行できるようにするのは最近の傾向です。

　　この構成で，Tiger Lakeの内蔵GPUが1.35GHzのクロックで動くとFP32で~2.1TFlopsの演算性能となります。これは前世代のIris+ G7 GPUが1.12TFlopsであったのと比べるとほぼ2倍になっています。

　　そして，IntelはこのXe-LPチップをディクリートGPUとして商用化しました。このチップはIris Xe Maxisという名称です。組み込み用の場合に比べて消費電力を上げられるので，クロックを1650MHzで動作させ，2.46TFlopsの性能に引き上げています。メモリは4GBのLPDDR4Xで，128bitバスがまるまる使えるので，68GB/sのバンド幅となっています。

　　結果として，NVIDIAやAMDのローエンドのGPUボード程度の性能となっています。

　　Intelはストリーミングゲーミング市場向けに4個の，このGPUを搭載したリファレンスボードを開発しました。ストリーミングゲーミングには低レーテンシで，性能がばらつかないなどの要件があり，仮想GPUにチューニングしたソフトウェアスタックが必要ですが，Intelはそれを開発し，サーバサイドで描画を行うストリーミング環境への対応も開発しました。ということで，中国のTensentなどが，このGPUボードに興味を示しているとのことです。

　　ゲームの負荷にもよりますが，このGPU 1個で20のゲームインスタンスをサポートでき，4個搭載のボードを使えば80ユーザをサポートできます。このボードを2枚サーバに搭載すれば184Wの消費電力で，160ゲームインスタンスをサポートできるとのことです。

２．Intelの上位Xe GPUはどうなる

　　2020年12月12日のEE Timesに掲載されたIntelのXe GPUについての記事の後半のXe-HP，Xe-HPG，Xe-HPCの部分の紹介です。

　　Xe-HPはIPCが上がるとのことで，命令処理のフロントエンドが改良されている可能性があります。また，科学技術計算用のFP64，AI計算用のBF16，畳み込み用のDP4Aや行列乗算のXMX命令などがサポートされるのでEUの改良が必要です。

　　そして，データセンタ用GPUとするため，EUの個数を100倍に増やす必要があり，命令処理性能やバスバンド幅を10倍にする必要があったとのことです。Intelは，まだ，公表していませんがXe-HPでは4桁のEUXs数になるとのことです。クロックも2.0～2.5GHzに上がると見ています。

　　Xe-HPではEMIBをHBM使ってHBMメモリを接続するものも作られるそうです。

　　Xe-HPは各種の性能のチップが要求されるので，1，2，4タイルの製品が計画されているとのことです。

　　Xe-HPのチップは既に出来ていてラボでテストが行われているそうです。そして，40TFlopsのFP32性能が出ているとのことです。しかし，この性能はNVIDIAのA100やAMDのMI100と同程度です。

　　Xe-LPはIntelの10nmプロセスで作られるのですが，Xe-HPは社外のファブに外注しているとのことです。このチップを搭載したボードは一部の顧客に提供されているとのことです。

　　Xe-HPGチップはゲーマーの期待するRay Tracingをサポートしています。このためにはEUに変更が必要になると考えられます。

　　Xe-HPGはXe-HPのグラフィックス強化版のようですが，何が大きな改良点か良く分かりません。もしかすると，Xe-HPはIntelの10nm SuperFinプロセスに対してXe-HPGは社外プロセスなので，両者の出来を天秤にかけているのかも知れません。

　　Ponte Vecchioと呼ばれるハイエンドのXe-HPCはエクサスパコン向けのハイエンドGPUですが，その中身についていは殆ど公表されていませんが，ベースタイル，コンピュートタイル，RAMBO CACHEタイル，Xeリンクタイルの4チップになるとのことです。そしてベースタイルとRAMBO CACHEタイルはIntelの10nmプロセスですが，Compute タイルはIntel製と外注の両方，Xe Link I/Oタイルは外注だそうです。

３．SambaNobaがデータセンタAIシステムを発表

　　2020年12月14日のEE Timesが，ステルスモードで活動していたSambaNovaがAIベンチマークのレコードを破る製品を発表したと報じています。SambaNovaは2017年に設立され，3回のラウンドで$456Mの資金を集めています。

　　そのSambaNovaがCardinal SN10というReconfigurable Dataflow Unit（RDU)というチップを開発し，8個のチップを纏めたSN10-8を単位として,1/4ラック，1/2ラック，フルラック，複数ラックという構成のDataScaleというデータセンタ用の製品です。

　　SambaNovaの64RDUのシステムは，BERT－Largeの学習で28,800Sample/sのスループットを達成したとのことです。また100Bパラメータの自然言語処理（NLP)モデルが12TBのメモリを持つ8RDUのシステムで学習ができるが，GPUを使う場合は最新最高のGPUでも412個を必要としたそうです。

　　また，DLRMを使うリコメンデーションでは8632 Samples/sという世界記録を作りました。これは8チップのシステムでの結果であるとのことです。

　　さらに，SambaNovaのシステムでは，大きなモデルを格納することができるので学習結果の精度が高いとのことです。また，画像入力の場合は大きなイメージをダウンサンプルして入力する場合が多いのですが，SambaNovaのシステムならピクセルの多い，元のデータを使う事ができ，これも精度の向上に貢献しているとのことです。

　　DLRMのリコメンデーションなどでは，僅かの精度の違いがビジネス的な価値の違いになり得るそうです。

　　SambaNovaはサーバラックのシステム販売だけでなく，月単位の料金で貸し出すというビジネスも行うとのことです。これは，Dataflow-as-a-serviceと呼んでいます。また，最低1万ドル/月で，自社のデータセンタで，NLP用，High res computer vision用，recomender用のシステムが使えるというサービスも提供します。

　　SambaNovaのシステムは，すでに，Argonne，Lawrence Livermore，Los Alamos国立研究所に納入されています。

４．Microsoftがサーバ用とPC用のarmチップを開発か？

　　2020年12月18日のThe Registerが，Microsoftがarmからライセンスを受け，データセンタ用チップとPC用のプロセサチップを開発すると報じています。

　　業界トップのAmazonはarmのNeoverseベースでGraviton 2を開発しており，コストパフォーマンスを40%改善したと言っています。自社でもAWSと同じことはできると考えても不思議ではありません。

　　また，SurfaceのCPUを置き換えるarmアーキテクチャのCPUを開発するという話も有るようですが，サーバ用CPUの開発に比べると実現性は低いようです。