出典: フリー百科事典『ウィキペディア(Wikipedia)』
| この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "日本語文字列照合順番" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2016年7月) |
日本語文字列照合順番︵にほんごもじれつしょうごうじゅんばん︶は、日本語の文字列のソート順を示し、日本のJIS規格のJIS X 4061で定められている。一般には辞書順︵じしょじゅん︶、五十音順︵ごじゅうおんじゅん︶やあいうえお順と呼ばれることが多い。
日本語の国語辞典などの多くの辞書類や各種書物の索引において、この規格で決められた順序で並べ替えが行われる。一般には日本語での読みについて濁点や半濁点を無視し、小書き仮名を清音文字︵濁点などが付かない文字︶に変更し長音符は前の文字の母音にして並べた後、同一の並び順になる場合は小書き文字→清音文字→濁点のある文字→半濁点のある文字の順に並べる。
仮名での並べ替え[編集]
通常辞書で扱われるよみがなに変更してから並べ替える場合について記載する。
(一)一般に辞書などで並べ替える時は、漢字などがある場合は該当の文字の読み仮名に変更し、その後で並べ替えを行う。辞書ではアルファベットで表記される文字列も全て読み仮名に変更する。
(二)仮名に対し、次のように置き換える
●﹁ぁ﹂﹁ゃ﹂﹁っ﹂などの小書き文字はその基底文字である﹁あ﹂﹁や﹂﹁つ﹂などに置き換える。
●﹁が﹂﹁ば﹂などの濁点付き文字はその基底文字である﹁か﹂﹁は﹂などに置き換える。
●﹁ぱ﹂﹁ぴ﹂などの半濁点付き文字はその基底文字である﹁は﹂﹁ひ﹂などに置き換える。
●片仮名で表される文字は平仮名に変更する。
●﹁ゝ﹂﹁ゞ﹂﹁ヽ﹂﹁ヾ﹂は﹁ゝ﹂に置き換える。
(三)長音符﹁ー﹂を次のルールで置き換える。
●前の文字が﹁あ﹂﹁か﹂﹁さ﹂﹁た﹂﹁な﹂﹁は﹂﹁ま﹂﹁や﹂﹁ら﹂﹁わ﹂→﹁あ﹂
●前の文字が﹁い﹂﹁き﹂﹁し﹂﹁ち﹂﹁に﹂﹁ひ﹂﹁み﹂﹁り﹂﹁ゐ﹂→﹁い﹂
●前の文字が﹁う﹂﹁く﹂﹁す﹂﹁つ﹂﹁ぬ﹂﹁ふ﹂﹁む﹂﹁ゆ﹂﹁る﹂→﹁う﹂
●前の文字が﹁え﹂﹁け﹂﹁せ﹂﹁て﹂﹁ね﹂﹁へ﹂﹁め﹂﹁れ﹂﹁ゑ﹂→﹁え﹂
●前の文字が﹁お﹂﹁こ﹂﹁そ﹂﹁と﹂﹁の﹂﹁ほ﹂﹁も﹂﹁よ﹂﹁ろ﹂﹁を﹂→﹁お﹂
●前の文字が﹁ん﹂→﹁ん﹂[1]
●前の文字が上記以外→置き換えない
(四)繰り返し記号の﹁ゝ﹂を次のルールで置き換える。
●直前の文字があり、上記変換後も繰り返し記号あるいは長音符以外の場合は直前の文字に置き換える。
●直前の文字がない場合は置き換えない。
(五)上記置き換えて出来た文字列に付いて、文字列の先頭より次の順序で比較して先にあるものが先になるように並べ替える。
●﹁あ﹂﹁い﹂﹁う﹂﹁え﹂﹁お﹂﹁か﹂﹁き﹂﹁く﹂﹁け﹂﹁こ﹂﹁さ﹂﹁し﹂﹁す﹂﹁せ﹂﹁そ﹂﹁た﹂﹁ち﹂﹁つ﹂﹁て﹂﹁と﹂﹁な﹂﹁に﹂﹁ぬ﹂﹁ね﹂﹁の﹂﹁は﹂﹁ひ﹂﹁ふ﹂﹁へ﹂﹁ほ﹂﹁ま﹂﹁み﹂﹁む﹂﹁め﹂﹁も﹂﹁や﹂﹁ゆ﹂﹁よ﹂﹁ら﹂﹁り﹂﹁る﹂﹁れ﹂﹁ろ﹂﹁わ﹂﹁ゐ﹂﹁ゑ﹂﹁を﹂﹁ん﹂﹁ゝ﹂﹁ー﹂
(六)上記で文字列の並べ替えを行った後、一致する順位となる文字列は、次のルールで並べる。
(一)清音文字→濁点付き文字→半濁点付き文字
(二)長音符→小書き文字→繰り返し記号→通常文字[2]
(三)平仮名→片仮名
読み仮名は一般に決まるものであるが、読みが別に示されていない場合は機械的に正しい読みを判断することは困難であることが多い。その場合は1つの漢字に対し1つの読みを定義しその読みの順序で並べる代表読み照合を用いるか、その漢字の代表読みの先頭文字だけで判断する簡易代表読み照合を用いる。
汎用的に扱う場合[編集]
仮名に変換せずに並べ替える場合について記載する。
(一)文字クラスで下記順序に並べ替える。
(一)スペース︵スペースと和字間隔︶
(二)記述記号︵句点や疑問符、ダッシュ (記号)など︶
(三)括弧記号︵括弧や引用符︶
(四)学術記号︵演算記号などの数学記号と雄記号雌記号︶
(五)一般記号︵丸印や矢印、アンパサンドなど︶
(六)単位記号︵円記号やパーセント記号など︶
(七)アラビア数字︵0〜9︶
(八)欧字記号︵ギリシャ文字とキリル文字︶
(九)ラテンアルファベット︵アルファベット及びマクロンかサーカムフレックス付きアルファベット︶
(十)仮名︵#仮名での並べ替え参照︶
(11)漢字︵﹁〃﹂﹁仝﹂﹁々﹂﹁〆﹂﹁〇﹂及び漢字︶
(12)下駄記号︵下駄記号︶
(二)同一クラスも文字は各クラスごとの規定に従い並べ替え順を決める。
規定以外の文字を使用する場合は上記クラスのいずれかに含めるか、新たなクラスを作成して並べ替え順を決める。ただし、下駄記号より後ろのクラスを作成しては行けないなどの規定が存在する。
●Wikipediaでは上記実装が出来ないため、仮想的に項目名の基底文字のみの文字列を個々の記事に定義して並べ替えを行っている。
関連項目[編集]
●ソート
(一)^ ﹁んー﹂の文字は一般の発音通り﹁んん﹂になる
(二)^ 上記で先に並べその後で行うため、仮にJIS X 0213にある小書き片仮名﹁プ﹂ にあてはめた場合は﹁ブ﹂の後で、﹁プ﹂の前に並ぶ。