最近の話題 2019年11月16日

1.Crayが富士通のA64FXベースのスパコンを開発,販売

  2019年11月12日のHPC Wireが,Crayと富士通が提携して,富士通のA64FXチップを使うarmスパコンを開発,販売すると報じています。米国のOak Ridge国立研究所やLos Alamos国立研究所,ニューヨークのStony Brook大,英国のBristol大もこのarmスパコンを購入するとのことです。

  また,富士通はA64FX CPUを使うPRIMEHPC FX1000とPRIMEHPC FX700というスパコンを発売すると報じています。日本国内では,FX1000は最小構成が64ノード,FX700の最小構成は2ノートとなっています。しかし,国外では,FX1000は192ノードから,FX700は128ノードからとなっています。

  このHPC Wireの記事では,メモリはHBM2を使うと書かれていますが,インタコネクトは何を使うかは書かれていません。PCIe経由でCrayのSlingshotインタコネクトを使うことも,原理的にはできると思いますが,バンド幅などの点で,A64FXに内蔵された富士通のToFuDインタコネクトを使う方がベターと思われます。

  とすると,Crayが販売するarmスパコンのハードウェアは富士通製で,ソフトウェアのツール類はCrayのものを移植したものになると見られます。

  A64FXを使うCrayのCS500スパコンが出荷されるのは,2020年の3月とのことです。

  オオカミと名付けられたStony Brook大のスパコンは$5Mで,NSFの資金で設置されるとのことです。また,Los Alamosの研究者は,Los Alamosの扱う問題は,疎で,不規則な問題で,マルチフィジックス,マルチスケール,高解像度で長時間の計算を必要とするもので,このような処理に適したスパコンは殆どなく,このCray-Fujitsuのスパコンの性能を評価したいと述べています。また,Bristol大は,Isambard 2をこのCray-Fujitsuアーキテクチャで実現したいと考えているとのことです。

2.MicrosoftがAzureクラウドでGraphcoreのAIアクセラレータの提供を開始

  2019年11月14日のEE Timesが,MicrosoftがAzureクラウドでGraphcoreのColossus IPUの提供を開始したと報じています。大手のクラウドサービスでは初のAIアクセラレータの提供です。

  Colossus IPUを2個搭載したC2カードを7枚使うシステムで,PyTorchで書いたBERTモデルを使うと,BEERTの学習が56時間でできたとのことです。この学習時間は(多分)8個のV100 GPUをPyTorchで使った場合とほぼ同じですが,消費電力は20%少ないとのことです。

  BERTのInferenceでは,C2カード1枚とNVIDIAのV100 GPU 1個のシステムの比較で,IPUの方は30%レーテンシが短く,スループットは3倍大きいという結果を示しています。

  そして,最新のモデルであるRESNEXT-101のInferenceの性能に関しては,TDP 300WのC2カード1枚とTDP 300WのGPUを比較しており,最低のレーテンシの状態で43倍のスループットが得られ,最大のスループットの状態ではIPUはGPUに比べて3.4倍のスループットで1/18のレーテンシと大幅な差をつけています。

  また,金融市場のMarkov Chain Monte Carloベースのモデルでは,4.5分で学習ができたが,GPUを使うと2時間以上かかったとのことです。そして,Reinforcement Learningの場合もGPUの10倍程度の性能が得られているとのことです。

  GraphcoreのColossus IPUが,V100 GPUの数倍程度の性能では,NVIDIAの次世代GPUには負けてしまう恐れがありますが,数十倍の性能があれば優位性を保てると思われます。

3.Blaizeが2020/2QにGraph Streaming Processorの量産開始と発表

  2019年11月12日のEE Timesが,Blaize(旧名 ThinCI)がGraph Streaming Processor(GSP)の量産を2020年2Qに開始すると発表したと報じています。ThinCIは日本電装と関係が深く,自動車用のAIのグラフ処理を高速化するGSPというプロセサを開発しています。そして,DimlerやMagmaともパートナーとなっているとのことです。

  これらの会社からの合計$87Mの資金を集めており,現在はカリフォルニア,インド,英国に設計チームがあり,総員325人の規模だそうです。

  GSPはグラフ処理を行うプロセサで,グラフがチップに納まっていれば,外部メモリにアクセスすることなくグラフを辿って処理を進めていけるので,低速の外部メモリチップへのアクセスが減り,高速,低電力の処理ができるというのがウリです。

  今回の報道では,ハイレベルのブロックダイヤが示されていますが,具体的にどのようにグラフを処理し,どの程度効率が上がるのかなどは良く分かりません。

  しかし,Blaizeは,2018年の中頃にGSPチップをテープアウトし,このチップを実装したボックスを使用して,16のプロジェクトが1年に亘って行われているとのことです。BlaizeがPicassoと呼ぶソフトウェア開発プラットフォームを作っており,グラフコンパイラやグラフランタイムが含まれているとのことです。また,Netdeployというニューラルネットの最適化を行うツールも作っています。

  同じようなコンセプトのグラフ処理を行うWave Computingはあ調子が良くなさそうですが,Blaizeは手堅く開発を進めているようで,初期の開発フェーズを抜け出てきているようです。

4.Gyrfalconが4番目のAIアクセラレータ製品を発表

  2019年11月15日のEE Timesが,同社として4番目の製品となるLightspeeur 5801というAIアクセラレータを発表したと報じています。Lightspeeur 5801はProcessing in Memory型のアーキテクチャで,224mWの消費電力で2.8TOPSの計算性能を持っています。

  Lightspeeur 5801は448×448ピクセルの画像認識を行うことができ,これは従来の製品である2801の4倍のサイズだそうです。

  アクセラレータは,パラメタメモリとALUメモリ,そして,ALUとデータフローコントロールを纏めたAPiM(AI Processing in Memory)と呼ぶ計算ノードのアレイで作られています。5801は,28,000個のノードと10MBのオンチップメモリを持ち,一般的なモデルをこのメモリに収容して計算を行うことができます。

  このチップはCNNの処理に最適化された造りになっていますが,オーディオデータをRGBイメージに変換して,自然言語処理にも使えるとのことすす。

  Lightspeeur 5801は,既にLGの中級スマホのQ70に搭載されているそうです。

5.InphiとSynopsysがeSiliconを分割買収

  2019年11月12日のEE Timesが,InphiとSynopsysがeSiliconを分割買収すると報じています。

  eSiliconは2000年に創立されたFinFETを使う複雑なASIC用のIPや,先進的な2.5Dパッケージングを,HPCやAI,5G用の機器に提供してきた企業です。

  一方,Inphiは,自社のDSP,transimpedance amp,Silicon PhotonicsなどのIPに,eSiliconのIPを加えて,アプローチできる分野を増やし,同時にイタリア,ルーマニア,ベトナム,スペインなどにデザインセンターを置くエンジニアを確保し,2020年には$80-$120Mの売り上げ増を目標にしています。

  Inphiは現金とeSiliconの負債の肩代わりで,合計$216Mを支払います。

  これが大部分の取引ですが,SynopsysがeSiliconのメモリIPを買収するという取引が付いています。Synopsysは自社のDesignWareという組み込みメモリのIPに,eSilicnのTCAMやマルチポートメモリIPを加え,さらに,High-Bandwidth Interface(HBI)インタフェースIPを加えることになります。

  これに対してSysnopsysの支払いがどうなるのかは明らかにされていません。なお,eSiliconは現在はベトナムに本拠地を置いており,ベトナム当局の買収承認が得られる必要があります。

6.TencentがAMDのRomeを使う自社開発サーバを使用と発表

  2019年11月13日のHPC Wireが,中国の大手のクラウドプロバイダであるTencentが,自社のGlobal Digitan Ecosystem Conference 2019において,AMDのRomeを使うサーバを自社開発し,クラウドで使うと発表したと報じています。

  先週にはMicrosoftがAzureクラウドでRome CPUを使うと発表しており,AMDは2つのクラウドプロバイダを獲得したことになります。また,AmazonやGoogleもAMD CPUをサポートすると発表しており,AMDは勢いをつけています。

  Tencentは最新のRome CPUの採用で性能が35%改善したとのことです。個人の使用では35%の改善は若干動作が速くなった程度ですが,100万台のクラウドの性能が35%上がれば,35万台のサーバ削減でき,消費電力や空調の費用なども比例して減らせるので,大変な経済効果です。

7.IntelのXe GPU Ponte Veccio

  2019年11月14日のThe Inquirerが,IntelのディスクリートXe GPUはPonte Veccioというコードネームだと報じています。Ponte Veccioはイタリアのフィレンッエにある石造りの橋の名前から取ったのだそうです。

  Ponte Veccioは7nmプロセスで作られますが,Auroraスパコンに搭載するのが主目的で,非常に高いキャッシュメモリバンド幅と高いメモリバンド幅を持ち,大量のメモリアクセスを高速で実行することが狙いだそうです。そのため,ゲーミングなどのコンシューマ向けの展開は考えられていないそうです。

  Auroraは2021年の完成予定ですから,来年(2020年)にはPonte Veccioが姿を現し,それに対してNVIDIAやAMDがHPC/AI向けの新ハイエンドGPUを発表するという年になるのではないかと期待されます。

  また,IntelはOneAPIを標榜しており,CPUとGPUのAPIを合わせるといっており,どのような形になるのか待ち遠しいところです。

inserted by FC2 system