Unicode正規化

テキスト正規化処理の一つ
Unicode > Unicode正規化

Unicode: Unicode normalization: collation[1]

合成と分解

編集

Unicoden ~  ñ 

UnicodeUnicode21: Canonical1: Compatibility CharacterUnicodeUnicode

正規化形式

編集

Unicode標準附属書UAX#15では正規化に関して4種類の正規化形式を定義している。

正規化形式の一覧
名称(英語) 日本語名称 説明
NFD
Normalization Form Canonical Decomposition
正規化形式D 文字は正準等価性によって分解される。
NFC
Normalization Form Canonical Composition
正規化形式C 文字は正準等価性によって分解され、再度合成される。結果として文字の並びが変換前と変わることもありうる。
NFKD
Normalization Form Compatibility Decomposition
正規化形式KD 文字は互換等価性によって分解される。
NFKC
Normalization Form Compatibility Composition
正規化形式KC 文字は互換等価性によって分解され、正準等価性によって再度合成される。


各種OSでの採用状況

編集
  • macOSのファイルシステムHFS+ではNFDの変種が用いられる(U+2000〜U+2FFF、U+F900〜U+FAFF、U+2F800〜U+2FAFFは分解されない)。

用語の日本語訳

編集

ここでは日本語表記を原則として Unicode Terminology English - Japanese にならっている。ただし、Combining Character Sequenceの公式日本語訳である「結合文字の並び」は日本語として誤解を与える可能性があるので、そのためあえて「結合文字列」と表記している。

脚注

編集
  1. ^ Unicodeの照合仕様は、正規化形式仕様とは別に、Unicode Technical Standard #10 "Unicode Collation Algorithm" で定義される。

関連項目

編集

外部リンク

編集