﹁Llama.cpp﹂で﹁Llama 2﹂を試したので、まとめました。 ・macOS 13.4.1 ・Windows11前回 1. Llama.cpp﹁Llama.cpp﹂はC言語で記述されたLLMのランタイムです。﹁Llama.cpp﹂の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC
![Llama.cpp で Llama 2 を試す|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/0ae9812663c411c96e1e025c5bedbdb487955646/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F111175494%2Frectangle_large_type_2_c659c33bbc6b30e77121d4dc22fbc312.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)