LLVM

LLVM
作者	Vikram Adve, Chris Lattner
開発元	LLVM Developer Group
初版	2003年 (21年前)
最新版	18.1.7 - 2024年6月5日 (25時間前)
リポジトリ	github.com/llvm/llvm-project;
プログラミング; 言語	C++
プラットフォーム	クロスプラットフォーム
種別	コンパイラ基盤
ライセンス	イリノイ大学/NCSAオープンソースライセンス; LLVM例外付きApache License 2.0 (バージョン9.0.0以降)
公式サイト	llvm.org
	テンプレートを表示

LLVM︵エルエルヴィーエム、またはエルエルブイエム︶とは、コンパイル時、リンク時、実行時などあらゆる時点でプログラムを最適化するよう設計された、任意のプログラミング言語に対応可能なコンパイラ基盤である。当初は、LLVMの名称の由来は、Low Level Virtual Machine (低水準仮想機械) の略であるとしていたが^[3]、現在は、何の頭文字でもないとしている^[4]。

概要[編集]

LLVMは、プラットフォームに依存しない中間表現であるLLVM-IRを生成し、LLVM-IRを特定のマシンの機械語などに変換する。LLVM-IRの段階で、言語やプラットフォームとは独立した最適化を行う。この方法によってLLVMは言語からもアーキテクチャからも独立しており、それぞれに特化した、プログラミング言語固有のモジュールと、マシン向けコード生成部を用意することにより様々な言語アーキテクチャーに対応する。LLVMは積極的にプロシージャ間最適化を行うとともに、静的コンパイラとしてもJITコンパイラとしても使え、開発の様々な段階で使える多数の部品を持っている︵JavaバイトコードとCILフロントエンド、Pythonフロントエンド、グラフ彩色式のレジスタ割り付けモジュール、など︶。JITコンパイラの場合、実行時に不要な静的分岐を最適化する機能があり、これはプログラムが様々な実行時オプションを持っている場合、強力な最適化手法︵部分評価︶となる。このため、Mac OS X v10.5ではこれを使ってハードウェア機能がない場合にOpenGLパイプラインを実現している。 LLVM自体はC++で書かれており、イリノイ大学でVikram AdveとChris Lattnerにより2000年に開発が開始されたものである。ライセンス条件はイリノイ大学/NCSAオープンソースライセンス^[5]であり、これはBSDライセンスによく似たOSI認証ライセンスである。バージョン9.0.0からはライセンスがLLVM例外付きApache License 2.0に変更された^[2]。

LLVM IR及びビットコード[編集]

LLVMは言語から独立した命令セットと型システムを持つ。命令の多くは3番地コード形式に似ている。各命令はまた静的単一代入形でもあり、変数︵型付きレジスタ︶は一回代入されるとその後は変更されない。このため、変数間の依存関係の解析が単純化される。型変換は、どういう形式であっても明示的に cast 命令を使って行われる。LLVMの持つ基本型はいくつかの固定長の整数型であり、派生型としてポインタ、配列︵任意のデータ型を格納可能な配列︶、ベクトル︵整数、浮動小数、ポインタのみ格納可能な配列︶、構造体、関数の5つがある。具体的な言語で構築される型は、LLVM上ではこれらの型を組み合わせて表現される。例えば、C++におけるクラスは、構造体と関数と関数へのポインタの配列を組み合わせて表現される。

MLIR[編集]

「:en:MLIR (software)」も参照

MLIR (Multi-Level IR) は特定用途に向けて LLVM IR を拡張するための方言を作る試みである。MLIRではLLVM IR自体も﹁llvm﹂方言となっている^[6]。また一部のアーキテクチャ固有のSIMD/SIMT︵英語版︶命令も方言となっており、これには例えばx86アーキテクチャのための﹁x86vector﹂方言や﹁amx﹂方言、ARMアーキテクチャのための﹁arm_neon﹂方言や﹁arm_sve﹂方言、NVIDIA GPUアーキテクチャ (PTX) のための﹁nvvm﹂方言、AMD GPUアーキテクチャのための﹁rocdl﹂方言などが存在する^[7]^[8]。その他のMLIRの方言には例えばOpenMPのための﹁omp﹂方言^[9]、OpenACCのための﹁acc﹂方言^[10]、CUDAやOpenCLなどのための﹁gpu﹂方言^[11]、VulkanやOpenCLに使われる中間言語SPIR-V︵英語版︶のためのSPIR-V方言^[12]が存在する。また高度なベクトル/行列操作などの機械学習のために使われる様々な方言も存在する︵TOSA方言、vector方言、Linalg方言、affine方言など︶。外部定義の方言も存在し、そのうちの一つ、GoogleのTensorFlowプロジェクトによるMHLO方言[1]はTensorFlowだけでなくGoogle JAX︵英語版︶^[13]やTorch-MLIR^[14]など広く使われるようになった。その後、Googleは他のビッグ・テック企業と共にOpenXLAプロジェクトを立ち上げ^[15]、そのOpenXLAはTensorFlowから独立したものとしてStableHLO方言の開発を開始した^[16]。また、PyTorch 2.0のTorchDynamoの標準バックエンド﹁TorchInductor﹂で使われてるOpenAI Triton^[17]は2.0でバックエンドをMLIRへと移行し^[1^8]、そこで独自のTriton方言およびTritonGPU方言を使用している^[19]。

フロントエンド[編集]

dragonegg[編集]

LLVMは、もともと既存のGCCスタック用のものより積極的な最適化を行う高性能のシステムとして開発され、GCCフロントエンドがLLVMと動作するように修正された。現在では、GCC 4.6から派生したフロントエンド︵dragonegg︶を用いてC言語、C++、FORTRAN、Adaをサポートし、Objective-C、Objective-C++、Goがおおむね動くとしている。

Clang[編集]

詳細は「Clang」を参照

しかし、LLVMへの興味が広がるにつれ、まったく新しいフロントエンドを多数のプログラミング言語向けに開発しようという動きが出てきた。もっとも注目されているのはC、C++、Objective-C、Objective-C++をサポートする新しいコンパイラClangである。主にAppleのサポートを受け、ClangはGCCシステムのC/C++/Objective-C/Objective-C++コンパイラを統合開発環境と統合できマルチスレッドをサポートした現代的なシステムで置き換えることを目指している^[20]。GCCでのObjective-C/Objective-C++の開発は衰退気味で、アップルが施した変更は別個にメンテナンスされている。アップルにとっては、自社でコンパイラを開発することにより、第一のObjective-C/Objective-C++実装であり続けながら、LLVMがすでに達成している統合開発環境への統合やその他の現代的な機能への対応といった問題を解決することができる。

Flang[編集]

Flangは LLVM Project の FORTRAN コンパイラである。旧来の Flang は NVIDIA の nvfortran︵元The Portland Group社のpgfortran︶の派生であったが、f18プロジェクトとして開発された次世代 Flang は C++17 や MLIR などの新しい技術を採用している^[21]。

Torch-MLIR[編集]

Torch-MLIR は機械学習に使われる PyTorch 向けのコンパイラとなっている。元々はnpcompであり^[22]、NumPyのコンパイラであった。

Polygeist[編集]

Polygeistは旧来の LLVM IR の代わりに MLIR を用いた実験的なC/C++コンパイラである。MLIR を用いることによって多面体最適化が可能となっている^[23]。C/C++からCUDAへのコンパイルも可能となっている。

標準C++ライブラリ[編集]

GNUはlibstdc++という標準C++ライブラリを開発しているが、LLVMも独自のlibc++という標準C++ライブラリを開発している。

参照[編集]

(一)^ "LLVM 18.1.7"; 閲覧日: 2024年6月5日; 出版日: 2024年6月5日. (二)^ ^a ^b“LICENSE.TXT”. llvm.org. 2019年9月24日閲覧。 (三)^ “The LLVM Compiler Infrastructure Project”. 2004年5月3日時点のオリジナルよりアーカイブ。2019年1月16日閲覧。 (四)^ “The LLVM Compiler Infrastructure Project”. llvm.org. 2019年1月16日閲覧。 (五)^ The University of Illinois/NCSA Open Source License (NCSA) - Open Source Initiative (六)^ 'llvm' Dialect LLVM Project (七)^ Composable and Modular Code Generation in MLIR p.6-7 Google 2022年 (八)^ IRDL: An IR Definition Language for SSA Compilers p.206 Mathieu Fehrら 2022年 (九)^ 'omp' Dialect LLVM Project (十)^ 'acc' Dialect LLVM Project (11)^ 'gpu' Dialect LLVM Project (12)^ SPIR-V Dialect LLVM Project (13)^ Change log - jaxlib 0.1.76 (Jan 27, 2022) Google (14)^ Torch-MLIR p.21 Sean Silva、Anush Elangovan 2021年 (15)^ Google reveals what’s next for Cloud AI VentureBeat 2022年10月11日 (16)^ Open source collaborations and key partnerships to help accelerate AI innovation Google 2022年10月12日 (17)^ PyTorch 2.0 PyTorch Foundation (18)^ Triton - Changelog OpenAI (19)^ Towards Agile Development of Efficient Deep Learning Operators p.41 Keren Zhou & Philippe Tillet (20)^ New LLVM C Front-end (Steve Naroff) (21)^ OpenMP in Flang : An Intro ARM 2022年 (22)^ Torch-MLIR p.2 Sean Silva、Anush Elangovan 2021年 (23)^ William S. Mosesら﹃Polygeist: Raising C to Polyhedral MLIR﹄ IEEE 2021年

外部リンク[編集]

公式ウェブサイト
LLVM: A Compilation Framework for Lifelong Program Analysis & Transformation — by Chris Lattner and Vikram Adve.
LLVM Language Reference Manual — LLVMの中間表現の解説
LLVM/GCC Integration Proposal — LLVMをGCCに導入することについての議論

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[1

[19]

[20]

[21]

[22]

[23]