お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか
特集記事一覧
注目のレビュー
注目のムービー

メディアパートナー

印刷2017/06/27 00:00

ニュース

ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

新型CPU IPコアについて説明するNandan Nayampally氏(Vice President,General Manager,Compute Product Group,ARM)
画像集 No.002のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか
 2017529ARMCPU IPCortex-A75Cortex-A55GPU IPMali-G72
 Mali-G72西Cortex-A75Cortex-A55ARMCPU IP稿

画像集 No.026のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか


Cortex-A75Cortex-A72CPU IP


 Cortex-A75
 Cortex-A75SoCSystem-on-a-ChipCPU IPCortex-A72Cortex-A73

 Cortex-A723SuperscalarCPUCortex-A7321W2WCortex-A72
 Cortex-A73ECCError Correcting Code

 Cortex-A75Cortex-A723使

Cortex-A75の特徴(※ARMのプレス向け資料より引用,以下同)。モバイル向けにはCortex-A73と同等の効率性を実現,というのがARMの謳い文句だ。同時に,Cortex-A72を採用していたようなサーバー製品でも利用できる性能と機能も実現しているとのことである
画像集 No.003のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 ARMは,Cortex-A75とCortex-A73の性能比較も公表している。それによると,純粋なALU(論理演算ユニット)やFPU(浮動小数点演算ユニット)の性能では22〜33%,メモリアクセスのスループットでは16%向上しているという。

ARMによるCortex-A75とCortex-A73の性能比較を示したグラフ。「Octane 2.0」は,Googleの提供するJavaScriptエンジンのベンチマークである
画像集 No.004のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 一方,消費電力あたりの性能では,コアの消費電力を750mWや1W,2Wまで絞ったときにCortex-A73比で20〜30%高い性能を発揮できるため,モバイル向けのハイエンドSoCとしても最適というのがARMの主張だ。

モバイル用途で重要な消費電力あたりの性能を比較したグラフ。同一の製造プロセスを利用した場合の例で,消費電力が750mWと1W,2Wの場合,Cortex-A75はCortex-A73よりも1.2〜1.3倍高性能であるという。動作クロックもCortex-A75のほうが上げやすいとのことだ
画像集 No.005のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 ARMCortex-A75Cortex-A55SoCCortex-A538SoCCortex-A55×8SoCCPU1020Cortex-A55×7Cortex-A75×1134142

 ARMCPUCortex-A53Cortex-A732.1Cortex-A751.34Cortex-A551.1Cortex-A75Cortex-A55

Cortex-A53×8を基準に,Cortex-A73×4+Cortex-A53×4,Cortex-A55×8,Cortex-A75+Cortex-A55×7のエリアサイズと性能向上率の違いを示したグラフ
画像集 No.006のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか


サーバー用途を考慮した新機能を多数実装


 ARMが,Cortex-A75に盛り込んだ新機能には,下のスライドに示す6種類がある。

ARMが公開したCortex-A75の新機能を示したスライド
画像集 No.007のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 ARMARMv8.2-ACortex-A55



(一)Dot product and half-precision float
 Convolutional Neural NetworkCNN
 dot Product8bithalf-precision floatFP16


(二)Virtualized Host ExtensionsVHE
 OSType-2Type-1


(三)Cache stashing and atomic operations
 Cache stashingCPUCNN使
 使CPU
 Atomicatomic operations

 Cortex-A75Cortex-A55Cache stashingFreescale SemiconductorNXP Semiconductors NXPe500PowerPC
 NXPPowerPCCortex-AQorIQ LayerscapeFreescale


(四)Cache clean to persistence
 NVDIMMNon-Volatile Dual In-line Memory Module使DRAM


(五)Server class RAS
 RASReliabilityAvailabilityServiceability
 ECC
 CPUCortex-A75


(六)CPU Activity monitoring
 CPU



Cortex-A75


 Cortex-A75

 ARMCortex-A75Out of Order3-wayCortex-A72

Cortex-A75のブロック図と特徴。Cortex-A73のブロック図と見比べても,基本的なユニットそのものに変化はない
画像集 No.008のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 Cortex-A7313Cortex-A754341Macro Fusion
 Instructions Per Clock IPCTranslation Lookaside BufferTLBTLB

フロントエンド部分の特徴を示したスライド
画像集 No.009のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 また,分岐予測をミスした場合のペナルティを緩和すべく,分岐命令の移動先アドレスを保存しておき,直近の分岐を高速に呼び出す「micro-BTAC」(micro Branch Target Address Cache)を追加したとのことである。

分岐予測機構の改良を説明したスライド
画像集 No.010のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 バックエンドの実行段は,実行ユニットを強化したCortex-A73の構造を引き継いでいる。そのため,実行ユニットが,

  • ALU(算術論理演算ユニット)×2,
  • ロード/ストア(Load/Store)
  • NEON(SIMD演算機能)/FPU
  • 分岐

という5つだったCortex-A72と比べて,Cortex-A75では,

  • ALU×2,
  • ロード/ストア×2
  • NEON/FPU×2
  • 分岐

の7つとなっている。NEONやロード/ストアのユニットが2つに増えたのは,Cortex-A73〜A75が,データ処理のスループットを上げることを重視したことの表れと言えようか。

実行段の改良点を示したスライド。Cortex-A73と大きくは変わっていない
画像集 No.011のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 SIMD演算ユニットのNEONは,いま述べたとおり,FP16とInt 8のサポートが追加された。

NEON/FPUの改良点を示したスライド。このほかに,MAC(Multiply and ACcumulate,乗加算)のスループットが向上しているようだ
画像集 No.012のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 
 Read after Writex86CPUIntelCoreCortex-A75

L1キャッシュ関連の改良点を示したスライド
画像集 No.013のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 L2256KB512KBbig.LITTLEbig.LITTLE
 bigCPULITTLECPUDynamIQ technologyDynamIQL2
 Prefetcher

L2キャッシュ関連の改良点を示したスライド
画像集 No.014のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 RASL1L2ECCTLB
 Data PoisoningError Injection

RAS関連の機能強化を示したスライド
画像集 No.015のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか


Cortex-A55:DynamIQ対応のミドルクラスCPU IPコア


 Cortex-A55は,Cortex-A75とbig.LITTLE構成を構成するCPU IPコアとして,ARMv8.2-Aをサポートし,またRASなどの機能も同等のものを備えつつ,Cortex-A53比で最大2倍の性能と最大15%程度となる消費電力あたりの性能向上を目指したCPU IPコアだという。

Cortex-A55の概要を示したスライド。これよりも下位のローエンド市場向けCPU IPコアには,「Cortex-A35」「Cortex-A32」が存在する
画像集 No.016のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 ちなみに,「最大2倍の性能向上」というのはメインメモリ帯域幅の話で,アプリケーション性能は現行世代比で約20%の性能向上を果たすとのことである。同一の製造プロセス技術を用いて同一クロックに仕上げた場合,消費電力あたりの性能はCortex-A53と比べて約15%の向上になるという。

同じ動作クロックで,Cortex-A55とCortex-A53の性能を比較したグラフ。整数演算(SPECINT2006)では18%,浮動小数点演算(SPECFP2006)では38%の性能向上を果たしたとのことだ。後者は主に,NEONの性能改善が寄与していると思われる
画像集 No.017のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

同一の製造プロセス技術および動作クロックで,消費電力あたりの性能を比較したグラフ。Cortex-A53と比べてCortex-A55だと消費電力は約3%増大してしまっているものの,性能は18%向上したので,消費電力あたりの性能では約15%高いという理屈だ
画像集 No.018のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 Cortex-A55
 Cortex-A53In Order2-way8

Cortex-A53(上側)とCortex-A55(下側)のブロック図(※クリックすると全体を表示します)。Cortex-A55は,パイプラインの最後にL2キャッシュが組み込まれているが,ARMはこれをパイプライン段数には含めていないようだ
画像集 No.019のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 L1キャッシュそのものも,Cortex-A53と変わっていないが,キャッシュヒットミス時のリカバーが速くなったとのこと。L2キャッシュがL1キャッシュと同速で動いているためだろう。

L1キャッシュ周りの改良点を示したスライド。L1キャッシュのTLB(L1 TLB)は,複数のページサイズを扱えるようになったとのこと
画像集 No.020のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 分岐予測機構には,新たにニューラルネット――パーセプトロンベースだろう――を採用し,さらにCortex-A75と同じく0サイクルの分岐予測も実装しているという。

分岐予測機構の改良点。ループ終了の予測機構も実装したそうだ
画像集 No.021のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 一方の実行ユニットだが,パイプライン構造のところで紹介した「ロードパイプとストアパイプの分離」と,もう1つ,ALU命令における遅延の1サイクル削減がポイントになっている。これにより,ロードとストアが同時に行えるようになり,これがメモリアクセスで最大2倍という性能差につながっている。
 また,連続しないアドレスを指定してのL1キャッシュアクセスでも,2サイクルの遅延縮小が可能になったというから,ロード機構の最適化が進んでいるのだろう。

パイプライン構造の改良点を示したスライド
画像集 No.022のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 またNEON/FPUは,Cortex-A75と同じくFP16のサポートが加わったほか,FPUにおける「FMA」(Fused Multiply-Add)命令の遅延削減も実現しているとのことだ。

NEON/FPUの改良点を示したスライド。一番下にある「Radix 16」とは,除算を高速化する技法の1つで,x86プロセッサならPenryn世代のCore 2で実装済み
画像集 No.023のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 L164KBL3
 L2256KBCortex-A75512KBCPU IP

L1キャッシュの改良点を示したスライド
画像集 No.024のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

L2キャッシュの改良点を示したスライド。Cache stashing用の領域は,このL2キャッシュ内に置かれる
画像集 No.025のサムネイル画像 / ARMの次世代CPU「Cortex-A75」「Cortex-A55」は,現行CPUといったい何が違うのか

 Cortex-A75Cortex-A55
 ARMCompute Product GroupNandan Nayampally16nm28nm1016nmCPUIPPOPProcessor Optimization Pack
 

ARM Web

 
  • 関連タイトル:

    Cortex-A

  • この記事のURL:
4Gamer.net最新情報
プラットフォーム別新着記事
総合新着記事
企画記事
スペシャルコンテンツ
注目記事ランキング
集計:07月24日〜07月25日