![ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/2ef2e099e1bb6fe904b92faa28789b0b83a5cf79/height=288;version=1;width=512/http%3A%2F%2Fdeveloper.cybozu.co.jp%2Fakky%2Fwp-content%2Fuploads%2F2018%2F04%2Fzero-width-characters-encoded-user-name-600x568-1.png)
UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
MySQL 5.5.11 unicode_ci で同一視される文字 Unicode 002000A02000200120022003200420052006200720082009200A202F205F3000 Character Unicode 0021FE57FF01 Character !﹗! Unicode 0022FF02 Character "" Unicode 0023FE5FFF03 Character #﹟# Unicode 0024FE69FF04 Character $﹩$ Unicode 0025FE6AFF05 Character %﹪% Unicode 0026FE60FF06 Character &﹠& Unicode 0027FF07 Character '' Unicode 0028207D208DFE35FE59FF08 Character (⁽₍︵﹙
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く