タグ

Unicodeに関するkazuomabuoのブックマーク (5)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • Unicode(東アジア) - CyberLibrarian


    Unicode UnihanPDF  CJKABJIS X 0213 B F1,6452,884 G
  • Unicodeで「漢字」の正規表現 – ものかの


    2017/07/22 Unicode 10.0 2023/03/21 U+30000InDesign Unicode Unicode [-] JIS X 0208UnicodeWindowsJISCP932JIS X 021334𠮟 Unicode
    Unicodeで「漢字」の正規表現 – ものかの
  • preg_match でひらがなかどうかをチェックする

    Unicode コンソーシアムの表によればU+3040~U+309F の範囲がひらがなとされている。ひらがなを直接パターンとして使うこともできるが、日語のフォントが入っていない環境でも見る場合を考えると、Unicode 文字プロパティで集合として定義されている Hiragana、コードポイント、バイナリ表現などを使うほうがよいだろう。ちなみにカタカナをあらわす Katakana や漢字をあらわす Han は利用できなかった。 $s = 'ぁゝゞゟ'; var_dump( (bool) preg_match('/\A[ぁ-ゖゝ-ゟ]+\z/u', $s), (bool) preg_match('/\A\p{Hiragana}+\z/u', $s), (bool) preg_match('/\A[\x{3041}-\x{3096}\x{309D}-\x{309F}]+\z/u', $s),

    preg_match でひらがなかどうかをチェックする
  • 文字コードについて

    文字コード、標準化について 文字コードについての実用的な説明です。 文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表(JIS制御コード) JIS X 0201 の文字コード表(JISローマ字:ASCII、JISカナ) JIS X 0201 の文字コード一覧(Unicode対応) JIS X 0208 の文字コード表(JIS漢字:第1・第2水準) JIS X 0208 の文字コード一覧(Unicode対応) JIS X 0213 の文字コード表(JIS漢字:第1・第2・第3・第4水準) [UTF-8テキスト版] Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧 [U

  • 1