最近の話題 2016年7月23日

1.ソフトバンクが3兆3000億円でARMを買収  

  2016年7月18日にソフトバンクは,ARM Holdingsを3兆3000億円で買収すると発表しました。現在のARMの経営陣も,英国政府も賛成しているようなので,買収は問題なく進むと思われます。

  3兆3000億円はソフトバンクの買収額としては最大で,,スプリントの買収の2倍近い巨額です。この金額は,先週のARMの株価の40%あまりのプレミアムを付けた金額で,一般的に言えば高めでしょうが,破格に高いという訳でもありません。身売りしなければならない理由のないARMをどうしても買いたいというなら,この程度のプレミアムは仕方がないのではないでしょうか。

 ARMの2015年の税引き後の利益は578億円で,買収額の1.75%で,それほど高い利回りではありません。また,ソフトバンクのビジネスとARMのビジネスの間にあまりシナジーがあるとも思えません。3.3兆円もの資金をここに投じるのが良いのかは難しいところですが,孫さんの会社ですから,孫さんの直感で決めたのでしょうね。発表では,IoTの重要性が高まることを理由に挙げていますが,ARMはIPを供給する会社で,IoTをけん引する会社ではありません。伸びるには伸びるとしても,それほど重要性が高まるかどうかは分かりません。

 長期的な観点からの布石ということでしょうが,今後ARMが何をやって行くかが重要と思います。長期戦略には孫社長も関与するとのことです。

 ソフトバンクはYahooやアリババなどへの投資では大儲けをしていますが,Kingston Technologyの買収では損失を出して売却していますし,スプリントもパッとしません。

2.麻生副総理・財務大臣が理研の菖蒲と皐月を視察

  理研のホームページに2016年7月13日に,麻生副総理・財務大臣が,Green500で1位となったShoubuと2位のSatsukiを視察という記事が載っています。

  視察したというだけの記事ですが,アベノミクスのエンジンをふかすための大型補正予算などが検討されている時期での財務大臣の視察ですから,PEZY/ExaScalerのスパコン開発に補正予算が付くことも考えられます。

3.ASMLのEUV露光装置は実用に近づく

  先週の話題で,TSMCが2020年の5nm世代からEUVを使うという話題を紹介しましたが,2016年7月22日のEE Timesが,ASMLのEUVの進捗を報じています。

  それによると,ASMLは直前の4半期に4台のEUV露光機を受注し,来年には12台の受注を見込んでいるとのことです。1台100億円に近いマシンですから,相当な売り上げになります。そして事実上,独占で競争相手のいないマーケットです。

  125Wafer/Hrのスループットを実現するには250W光源が必要なのですが,現在は125Wの光源しか使えず,85Wafer/Hrのスループットです。しかし,4週間の動作でアップ率は80%を超えているとのことで,実用域に近づいています。また,最近,210Wの光源をデモしています。

  何nmなのか前提が不明ですが,記事に載っている図で は,ArF液浸では54回の露光が必要なのに対して,1D設計の場合は9回のEUV露光と21回のArF液浸露光で済み,プロセスの複雑度は29%減少 し,歩留まりが7%向上する。2D設計の場合は,9回のEUV露光と19回のArF液浸露光で,プロセス複雑度は32%減り,歩留まりは9%向上すると書 かれています。

4.Wave ComputingがAI処理チップを発表

  2016年7月21日のEE Timesが,Wave ComputingというスタートアップのAI処理用チップについて報じています。Wave Computingは,これまで6年間ステルスモード活動して来ましたが,開発中のDataflow Processing Unit(DPU)がテープアウトに近づいたので,発表に踏み切ったものです。なお,技術的な詳細は,9月に行われるLinley Processor Conferenceで発表するとのことです。

 DPUの特徴は,ニューラルネットの接続そのままにコンポーネントなる回路を接続し,データフロー的にデータを流して計算する点にあります。このようなアーキテクチャであるので,GoogleのTensor FlowやMicrosoftのCNTKとも相性が良いと述べています。

 GoogleのTPUはInference専用ですが,WaveのDPUはLearningにも高い性能を持っているとのことですが,どうやってバックプロパゲーションをやるのかは明らかではありません。コンポーネント間の接続が双方向にデータを流せるのでしょうか?

 基本的なコンポーネントは8bitデータを処理するのですが,複数のコンポーネントを繋いで,より多様なデータタイプを扱えるとのことです。DPUは16nmプロセスで製造され,16000個のProcessing Elementを集積しており,数GHzで動作するとのことです。

 DPUはメモリとして,MicronのHybrid Memory Cube Gen2とDDR4 DRAMを使って高いメモリバンド幅と大容量を実現しています。

 そして,NVIDIAのDGX-1(3Uで8個のP100 GPU)で23時間かかるニューラルネットのトレーニングをWaveの1Uボックスは4時間で実行出来,3Uのボックスなら1時間程度で実行できるとのことです。

 感じとしては,LUTの替わりに8bitのPEをコンポーネントとしたFPGAのような構造で,ニューラルネットのネットワークトポロジをそのままマッピングしているように思われます。

 DPUの一般販売は2017年の予定です。

5.BeSangのSuper 3D NAND

  2016年7月18日のEE Timesが,ビットコストを1/10に下げ,GBあたり2セントになるというBeSang社のBePlatと呼ぶSuper 3D NANDの記事を載せています。

  Samsungや東芝の3D NANDは48層とか,多数のNAND記憶セルを垂直に積んでいますが,プレナー型のNANDセルと比べると10倍程度の面積となっています。それに加えて,コントロール回路の面積,タングステンの分離スリット,各層のゲートへの配線のために,チップの端を階段状にエッチして各層を露出する必要があります。48層あると,このテーパーが30umとか40umを必要とします。これらがチップ面積の60%を占め,セルを作れる面積40%しかないことも3D NANDのビット密度が低い原因となっています。

   これに対して,BeSangが提案するBePlatではベースシリコンの表面にロジック回路を作り,その上に1層のNAND層を3層作るという構造に なっています。NAND層のセルは,3D NANDと同じようなサラウンドゲートのセルですが,多層にセルを積まないので微細化ができ,コントロールロジックに面積をとられないので,3D NANDに比べると50倍の密度にセルを作れるとのことです。この層を3層積むと,48層の3D NANDの3倍のセル密度が達成できます。

  3D NANDのように48層もの積層や,階段状のエッチなど手間のかかるプロセスは必要ないので,Fabのコストは1/10,マスク5枚の加工でできるので製造期間も1/10となるので,ビットコストを1/10に下げられるとのことです。1層のセルが載っている基板をどうやって作るのか,3枚のセル基板をどの ように繋ぐのか,接続には基板を貫通するビアが必要と考えられますが,それによる面積増加は無視できる程度かなど疑問はありますが,面白いアプローチで す。

6.MITのSwarmプロセサ

  2017年7月21日のHPC Wireが,SwarmというMITのプロセサについて報じています。

  マルチコアを使う並列処理のプログラミングが難しいのは,プログラマがどのように並列実行するかを考え,それが正しく動くように同期命令を適切に入れる必要があるからです。この問題を解決するためにMITのSwarmアーキテクチャでは,処理を分割した個々のタスクに守らなければならない実行順序を指示するTime Stampを付けます。同じタイムスタンプのタスクが複数あっても良く,それらの中では,どの順序で実行されてもOKと見なされます。

  プログラマの仕事はここまでで,Swarmプロセサは,実行順を気にせず投機的にタスクをマルチコアを使って実行させて行きます。そして,タイムスタンプの順になっていないタスクがあると,その実行をキャンセルします。これで,少なくともプログラマが意図したタスクの実行順序は守られます。

  そして,実行順が厳密に規定されていない部分では,投機的な実行が成功して,プログラマが意図していなかった並列実行が行われます。64コアのSwarmプロセサで実行した場合,グラフの解析やデータベースのベンチマークなどでは,これらのアルゴリズムをシーケンシャルに実行する場合に比べて43倍から117倍の性能向上が得られたとのことです。そして,洗練されたソフトウェアベースに並列アルゴリズムを使った場合と比較しても3倍から18倍の性能とのことです。

  投機的実行と,それが失敗した場合の巻き戻しを行うためにタスクを管理するタスクユニットと各レベルのキャッシュに追加のビットなどが必要になりますが,心配するほど大量のハードウェアではないとのことです。詳しいことを知りたい方はMITの論文を見て下さい。



inserted by FC2 system