外字
青空文庫の入力は、普通のパソコンで広く使える、JIS X 0208 と JIS X 0201 の文字を使って行います。
ただし、JIS X 0201 の、﹁半角カタカナ﹂は用いません。
Windows や Macintosh が独自に拡張した、いわゆる﹁機種依存文字﹂も使いません。
第1第2水準にない漢字や、アクセント符号の付いたラテン・アルファベット、ひらがなの﹁こ﹂を一筆でくずしたような繰り返し記号︵二の字点︶、感嘆符や疑問符二つを1文字分のスペースに組み合わせた記号などは、使える文字の中にありません。
底本にこれらがあったら、以下に示す外字注記で、どんな文字であるかを表現してください。
第1第2水準にない漢字
第1第2水準にない漢字のうち、JIS X 0213 に規定された第3第4水準にあるものは、次のように注記してください。
※記入例の下に、テキスト版をスクリプトで変換して得た、XHTML 版のタグを示します。
※﹇#﹁てへん+劣﹂、第3水準1-84-77﹈
<img src="../../../gaiji/1-84/1
-84-77.png" alt="※(﹁てへん+劣﹂、第3水準
1-84-77)" class="gaiji" />
※鍵括弧の中で、文字の組み立てを示します。﹁第3水準1-84-77﹂にあたる部分は、JIS X 0213 で規定されたコード番号︵面区点番号︶です。
JIS X 0213にはないけれど、Unicodeにあるものは、次の書式で注記してください。
その際、﹁ページ数-行数﹂は、半角記号の﹁-﹂の前後を挟んで、半角のアラビア数字で、﹁135-7﹂のように書いてください。
※﹇#﹁口+世﹂、U+546D、ページ数-行数﹈
※<span class="notes">﹇#﹁口+世﹂、U+
546D、ページ数-行数﹈</span>
※﹁U+546D﹂にあたる部分は、Unicodeのコード番号です。
Unicodeにもないものは、次の書式で注記してください。
※﹇#﹁土へん+竒﹂、ページ数-行数﹈
※<span class="notes">﹇#﹁土へん+竒﹂、
ページ数-行数﹈</span>
二段組みでは、﹁ページ数-上-行数﹂のように、﹁上﹂﹁下﹂を用いて書いてください。
三段組みでは、﹁ページ数-中-行数﹂のように、﹁上﹂﹁中﹂﹁下﹂を用いて書いてください。
四段組以上の場合は、﹁ページ数-四-行数﹂のように、﹁一﹂﹁二﹂﹁三﹂﹁四﹂を用いて書いてください。
字体の説明や、第3第4水準の面区点番号を含む書式は、﹁外字注記辞書﹂にリストアップされています。
﹁てへん+劣﹂や﹁口+世﹂といった字体の説明は、いろいろな書き方ができる場合がありますが、﹁外字注記辞書﹂で検索し、当該箇所をコピーして、入力ファイルにそのままペーストしてください。
特殊な仮名や記号など
使える文字の中にない、特殊な仮名や記号は、高い確率で JIS X 0213 に入っています。
底本にこれらが用いられている際は、原則として、0213 で使われている名前︵日本語通用名称︶と面区点番号を組み合わせて、次のように注記してください。
※﹇#二の字点、1-2-22﹈
<img src="../../../gaiji/1-02/1
-02-22.png" alt="※(二の字点、1-2-22)
" class="gaiji" />
名前と面区点番号を含む、特殊な仮名や記号などの書式も、﹁外字注記辞書﹂にリストアップされています。
﹁外字注記辞書﹂で検索し、コピー&ペーストで入力してください。
ただし、ひらがなの﹁く﹂を縦にのばしたような繰り返し記号︵くの字点︶だけは、﹁〳〵﹂で入力してください。
濁点付きのくの字点は、﹁〴〵﹂と書いてください。
ギリシア語は、JIS X 0208 にありますが、ファイナルシグマ︵︶は欠けています。
ファイナルシグマは、次のように外字注記してください。
※﹇#ギリシア小文字ファイナルSIGMA、1-6-57﹈
<img src="../../../gaiji/1-06/1
-06-57.png" alt="※(ギリシア小文字ファイナル
SIGMA、1-6-57)" class="gaiji" />
なお、﹁~水準﹂という呼び名は漢字に限られます。漢字以外の面区点番号を注記するときは、﹁~水準﹂は入れず、﹁面-区-点﹂だけを書きます。
アクセント符号付きのラテン・アルファベット
アクサンテギュ、アキュートアクセント︵´︶、アクサングラーブ、グレーブアクセント︵`︶、アクサンシルコンフレックス、サーカムフレックスアクセント︵^︶、ウムラウト、ダイエレシス︵¨︶などの、アクセント符号の付いたラテン・アルファベットは、使える文字の中にはありません。
これらには特に、※﹇#…﹈という外字注記の書式は用いず、﹁アクセント分解﹂と名付けられた手法で表記します。
アクセント分解の概要は、﹁アクセント付き文字の変換表﹂にまとめられています。
ここに掲載された﹁アクセント変換表﹂を用いて、アクセント符号付きの文字の注記法を確認します。
﹁raffine﹂という語の﹁e﹂にアクサンテギュ︵´︶が付いている場合は、﹁変換表﹂でeの小文字をあたります。
﹁233﹂の﹁アキュートアクセント付きE小文字﹂の欄に、表記法﹁e'﹂が示してあります。
これを用いて、問題の語は﹁raffine'﹂と書きます。
アクセント分解を用いる際には、対象となる範囲を﹁︹ ︺﹂で特定します。
繁雑な日本の ︹e'tiquette︺ も、
繁雑な日本の <img src="../../../gaiji
/1-09/1-09-63.png" alt="※(アキュート
アクセント付きE小文字)" class="gaiji" />t
iquette も、
工作員マニュアルは、かな、漢字、記号︵句読点と括弧をのぞく︶とアルファベットの境を、半角あけるよう定めています。
アクセント分解の範囲を特定するための﹁︹ ︺﹂は、アルファベットの一部と位置づけます。
よって、かな、漢字、記号︵句読点と括弧をのぞく︶との境は、上の例のように半角あけてください。
句読点とアルファベットの境は、半角あけません。
よって、次の例では、読点の後にはあきを入れず、ひらがなの﹁の﹂とのあいだのみ半角あけます。
いささか、︹e'tranger︺ の感があった。
いささか、<img src="../../../gaiji/1
-09/1-09-63.png" alt="※(アキュートアク
セント付きE小文字)" class="gaiji" />tra
nger の感があった。
﹁︹﹂が行頭に来るときには、その前に半角あきは入れません。
Son coeur est un luth suspendu;
︹Sito^t qu'on le touche il re'sonne.︺
﹁彼が心は懸︽か︾かれる琵琶︽びわ︾にして、
触るればたちまち鳴りひびく﹂
Son coeur est un luth suspendu;
<br />
Sit<img src="../../../gaiji/1-0
9/1-09-74.png" alt="※(サーカムフレックス
アクセント付きO小文字)" class="gaiji" />t
q<img src="../../../gaiji/1-09
/1-09-79.png" alt="※(アキュートアクセント
付きU小文字)" class="gaiji" />on le
touche il r<img src="../../../g
aiji/1-09/1-09-63.png" alt="※(ア
キュートアクセント付きE小文字)" class="gaiji"
/>sonne.<br />
﹁彼が心は<ruby><rb>懸</rb><rp>︵</rp>
<rt>か</rt><rp>︶</rp></ruby>かれる<
ruby><rb>琵琶</rb><rp>︵</rp><rt>び
わ</rt><rp>︶</rp></ruby>にして、<br
/>
触るればたちまち鳴りひびく﹂<br />
アクセント分解で用いる﹁︹ ︺﹂は、上の例のように、必ず行ごとに、始めと終わりを完結させます。
文を構成する単語にアクセント分解を用いる際は、当該の単語ではなく、文全体を﹁︹ ︺﹂でくくってください。
︹La pense'e doit remplir toute l'existence.︺
La pens<img src="../../../gaiji
/1-09/1-09-63.png" alt="※(アキュート
アクセント付きE小文字)" class="gaiji" />e
doit remplir toute l'existence.
複数の文からなる段落の一部に、アクセント分解が使われている場合は、段落全体を﹁︹ ︺﹂でくくってください。
アクセント分解は、対象となる言語の基礎的知識を備えた﹁人﹂に対して、﹁読みやすさ﹂を提供するための工夫です。
青空文庫ではこれを、外字を画像化して置き換える際の﹁コード﹂としても利用しますが、﹁言語に対する知識﹂をもたない機械に処理を委ねると、特定のケースで問題が生じます。
外字の画像置き換えが正しく行われないと予想される場合には、範囲を特定するための﹁︹ ︺﹂を、以下のように、対象となる文字だけに限定して用いてください。
jusqu'︹a`︺
jusqu'<img src="../../../gaiji/
1-09/1-09-54.png" alt="※(グレーブアク
セント付きA小文字)" class="gaiji" />
presqu'︹i^le︺
presqu'<img src="../../../gaiji
/1-09/1-09-68.png" alt="※(サーカムフ
レックスアクセント付きI小文字)" class="gaiji"
/>le
'Je me suis ︹blesse'e︺', dit-elle.
'Je me suis bless<img src="../..
/../gaiji/1-09/1-09-63.png" alt
="※(アキュートアクセント付きE小文字)" class="g
aiji" />e', dit-elle.
'bless︹e'︺e'
'bless<img src="../../../gaiji/
1-09/1-09-63.png" alt="※(アキュートア
クセント付きE小文字)" class="gaiji" />e'
このように対処しなければ、例中の﹁u'﹂は、﹁アキュートアクセント付きU小文字﹂に、下二つの例の二つ目の﹁e'﹂は﹁アキュートアクセント付きE小文字﹂に、期待に反して変換されます。
アクセント分解の範囲指定に用いる﹁︹ ︺﹂は、底本で、一般の括弧記号として用いられていることがあります。
一般の括弧として用いられている﹁︹ ︺﹂は、次のように、そのまま入力してかまいません。
* ﹃思想﹄八〇号﹁空間概念の分析﹂︹本全集第一巻所収︺参照。
ただし、﹁︹ ︺﹂で囲まれた範囲内に、アクセント符合付きのラテン・アルファベットがあって、﹁︹二十歳の ︹E'tude︺︺﹂のように、入れ子で書かざるを得ない場合に限っては、括弧として用いている外側のものを、﹁﹇ ﹈﹂などに置き換えて、次のように入力してください。
﹇二十歳の ︹E'tude︺﹈
﹇二十歳の <img src="../../../gaiji/
1-09/1-09-32.png" alt="※(アキュートア
クセント付きE)" class="gaiji" />tude﹈
置き換えを行った際は、ファイル末に﹁※底本の﹁︹︺﹂を﹁﹇﹈﹂に置き換えました。﹂のように注記してください。