コンテンツにスキップ

バイト対符号化

出典: フリー百科事典『ウィキペディア(Wikipedia)』

: Byte Pair EncodingBPE

符号化の原理

[編集]

出現頻度が高い2バイトを使われていない1バイトに置き換えていくことを繰り返して圧縮する。

ABCDCDABCDCDE 出現頻度の高い CD のペアを使われていない Z に、次に頻度の高い AB のペアを Y に置き換える
YZZYZZE 出現頻度の高い YZ(ZZ でも構わない)のペアを使われていない X に置き換える
XZXZE 出現頻度の高い XZ のペアを使われていない W に置き換える
WWE WW のペアはひとつしか出てこないのでここで終わり

実際には、これに符号の対応表を付加してからファイルに出力する。