[B! Unicode] kazuomabuoのブックマーク

絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama

UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

kazuomabuo 2017/11/13

リンク

Unicode（東アジア） - CyberLibrarian

Unicodeの字種の表です。下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の各文字は、ユニコード・コンソーシアムが提供しているUnihanデータベースの該当文字へリンクしてあります。文字コード表中の文字は、環境によっては正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。字源的には同じだが字形の異なる中国語、日本語、朝鮮語、ベトナム語の漢字に同じコードを与えて統合した漢字です。 CJK統合漢字、拡張Aと拡張Bには、JIS X 0213の漢字が含まれています。拡張Bには、多数の重複字の存在が指摘されています。拡張Fには、文字情報基盤整備事業が提案した漢字︵1,645字︶、大蔵経テキストデータベース研究会が提案した漢字︵2,884字︶も含まれています。拡張Gには、大蔵経テキストデータベー

kazuomabuo 2015/03/15

Unicode

リンク

Unicodeで「漢字」の正規表現 – ものかの

改訂‥2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。改訂‥2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS︵CP932︶の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の﹁𠮟﹂が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

kazuomabuo 2015/03/14

Unicode

リンク

preg_match でひらがなかどうかをチェックする

Unicode コンソーシアムの表によればU+3040～U+309F の範囲がひらがなとされている。ひらがなを直接パターンとして使うこともできるが、日本語のフォントが入っていない環境でも見る場合を考えると、Unicode 文字プロパティで集合として定義されている Hiragana、コードポイント、バイナリ表現などを使うほうがよいだろう。ちなみにカタカナをあらわす Katakana や漢字をあらわす Han は利用できなかった。 $s = 'ぁゝゞゟ'; var_dump( (bool) preg_match('/\A[ぁ-ゖゝ-ゟ]+\z/u', $s), (bool) preg_match('/\A\p{Hiragana}+\z/u', $s), (bool) preg_match('/\A[\x{3041}-\x{3096}\x{309D}-\x{309F}]+\z/u', $s),

kazuomabuo 2015/03/09

リンク

文字コードについて

文字コード、標準化について文字コードについての実用的な説明です。文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表（JIS制御コード） JIS X 0201 の文字コード表（JISローマ字：ASCII、JISカナ） JIS X 0201 の文字コード一覧（Unicode対応） JIS X 0208 の文字コード表（JIS漢字：第1・第2水準） JIS X 0208 の文字コード一覧（Unicode対応） JIS X 0213 の文字コード表（JIS漢字：第1・第2・第3・第4水準）［UTF-8テキスト版］ Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧［U

kazuomabuo 2015/02/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Unicodeに関するkazuomabuoのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス