タグ

unicodeに関するpy0nのブックマーク (32)

  • メールアドレスのバリデーション崩壊のお知らせ、もしくは、全てが UTF-8 になる, 「エンジニアのためのイベント映像活用方法」の第2回が gihyo.jp に掲載されました - 雑文発散(2013-01-24)


     []  UTF-8  JANOG31  (JANOG25)Web 使 RFC  IETF85 DNS,  UTF-8   <@>  Display-name, (), SubjectUTF-8 (MIME) 
    メールアドレスのバリデーション崩壊のお知らせ、もしくは、全てが UTF-8 になる, 「エンジニアのためのイベント映像活用方法」の第2回が gihyo.jp に掲載されました - 雑文発散(2013-01-24)
    py0n
    py0n 2013/01/24
    企業からのメールが開けられなくなる。
  • 日本語文字コード

    フォームメール(mb_send_mail)php ジェネレーター オープンフォトライブラリー自由に画像を登録・紹介できます 文字コード(日語漢字コード表) 日語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、 ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。 その解決に少しでもお役に立てれば幸いです 文字コード表(実体) シフトJISコード表 Shift-JIS による一覧表 EUCコード表 EUC-JP による一覧表 JISコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

    py0n
    py0n 2012/05/07
    各種文字コード表。
  • 文字コードについて

    文字コード、標準化について 文字コードについての実用的な説明です。 文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表(JIS制御コード) JIS X 0201 の文字コード表(JISローマ字:ASCII、JISカナ) JIS X 0201 の文字コード一覧(Unicode対応) JIS X 0208 の文字コード表(JIS漢字:第1・第2水準) JIS X 0208 の文字コード一覧(Unicode対応) JIS X 0213 の文字コード表(JIS漢字:第1・第2・第3・第4水準) [UTF-8テキスト版] Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧 [U

    py0n
    py0n 2012/05/07
    各種文字コード表。
  • [Perl] CGI.pm の charset('utf-8') - cyberlib.enterbrainz.com

    [Perl] CGI.pmのデフォルト文字コードはISO-8859-1。 そこでcharsetメソッドで文字コード指定するが charset('utf-8') は注意。 例1) #!/usr/bin/perl use strict; use warnings; use CGI qw(-nosticky); my $cgi = new CGI; $cgi->charset('utf-8'); my $str = $cgi->param('str') || ''; $str = $cgi->escapeHTML($str); print $cgi->header, $cgi->start_html(-title=>'test',-lang=>'ja-JP'), $cgi->h1($str),    #[error] Wide characte

    py0n
    py0n 2012/02/27
    これに嵌つて泣いた。
  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

    py0n
    py0n 2010/07/27
    Unicode正規化について解説してゐる。
  • perl - で全角半角変換をモダンに行う : 404 Blog Not Found

    2009年06月06日01:15 カテゴリLightweight Languages perl - で全角半角変換をモダンに行う 今ならLingua::JA::Regular::Unicodeが第一選択肢ですが、こういう方法もあるということで。 Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 CORE Moduleのみを使うという縛りをかけています。 #!/usr/bin/perl use 5.008001; use strict; use warnings; use utf8; us

    perl - で全角半角変換をモダンに行う : 404 Blog Not Found
    py0n
    py0n 2010/04/08
    なんか凄い。
  • 絵文字が開いてしまった「パンドラの箱」第6回--Google・Apple提案とそのシナリオ


    WG 2 200942111NB254WG 2 1002 WG 2Ad-Hoc Committee on Emoji EncodingEmoji2UTCGoogle
    絵文字が開いてしまった「パンドラの箱」第6回--Google・Apple提案とそのシナリオ
    py0n
    py0n 2010/01/29
    絵文字は意味を表す文字(表意文字)だから漢字の一部、と主張すれば日本の絵文字はそのまま入つたのかな?。
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
    py0n
    py0n 2010/01/29
    RFC2279で最大6バイトだったのが、RFC3629で最大4バイトに減らされたけど、また伸びるのかな?。
  • 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係


    --Google 2 UnicodeGoogleAppleGoogle12Unicode-ML 便使
    絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
    py0n
    py0n 2009/08/13
    絵文字(emoji)と漫画の関係を面白く解説してゐる。
  • 絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

    普通では考えられない優遇策--「Google提案」を振り返る 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

    絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”
  • 絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

    前回までを振り返る--Unicodeコンソーシアムの影響力 前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。 また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC(Unicode Technical Committee/Unicode技術委員会)で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

    絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
  • 絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味


    NTT UnicodeGoogleUnicode Google NTTGoogle稿
    絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味
    py0n
    py0n 2009/08/13
    Unicodeの裏側(といふ訳でもないか)について解説してゐる。
  • perl - Encode 中級 : 404 Blog Not Found


    2008050804:00 Lightweight Languages perl - Encode   404 Blog Not Found:perl - Encode   UnicodeASCII--: - CNET Japan UnicodeASCIIWorld Wide WebGoogleMark Davis  bloglivedoor blogEUC-JPUnicode
    perl - Encode 中級 : 404 Blog Not Found
    py0n
    py0n 2009/06/10
    実体参照に変換する機能があるとは知らなかった。
  • perlのUTF8フラグの扱い方がやっとわかってきたので、まとめ。 - あそことは別のはらっぱ


    2*1EUC-JPUTF-8 EUC-JPUTF-8 Jcode.pmEncode.pm(使) use strict   EUCJPMSCP932 decodeencode 1
    perlのUTF8フラグの扱い方がやっとわかってきたので、まとめ。 - あそことは別のはらっぱ
    py0n
    py0n 2009/05/15
    丸文字などをEUC-JP -> 内部コード -> EUC-JPでおかしくならない方法。
  • M17N | M17N Online

  • 404 Blog Not Found:perl - Encode 入門


    2008040901:00 Lightweight Languages perl - Encode  OSCONYAPC 404 Blog Not Found  Perl  utf8  - TokuLog    decode  flagged utf8  encode EUC-JPKogai DanEUC-JP decode() then encode(
    404 Blog Not Found:perl - Encode 入門
    py0n
    py0n 2009/03/29
    use utf8した際に気をつけておくべき事柄。
  • 第7回■文字エンコーディングが生み出すぜい弱性を知る


     212 1UTF-8 1UTF-8UTF-81使
    第7回■文字エンコーディングが生み出すぜい弱性を知る
    py0n
    py0n 2009/03/04
    文字コードの変換による脆弱性を解説してゐる。
  • 第6回■異なる文字集合への変換がぜい弱性につながる

    文字集合自体は抽象的な「文字の集まり」に過ぎないので単独で問題になることはないが,異なる文字集合に変換する際には問題が発生する場合がある。文字集合が異なるということは,対応する文字が1対1対応していないので,変換先の文字集合で対応する文字がないケースや,多対1の対応が発生する可能性がある。 図1に,Unicodeからマイクロソフト標準キャラクタセットに変換する場合を例示した。マイクロソフト標準キャラクタセットには「骶」(尾てい骨の“てい”)や,ハングルなどはない。また,バックスラッシュ「\」(U+005C)と円記号「\」(U+00A5)がともにJIS X 0201の「\」(0x5C)に変換される場合について示している。 「漢」のように1対1対応している文字は問題ない。ハングルや「骶」のように対応するコードポイントがない場合はエラーになるか文字化けする。インターネットで「尾 骨 びていこつ」

    第6回■異なる文字集合への変換がぜい弱性につながる
    py0n
    py0n 2009/03/04
    文字コードの変換は脆弱性に繋がるらしい。
  • 第5回■注目される文字コードのセキュリティ問題


    5Web1Web 200810Black Hat Japan 2008  Web
    第5回■注目される文字コードのセキュリティ問題
    py0n
    py0n 2009/03/04
    文字コード・エンコーディングを解説してゐる。
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道


    Unicode  8使RBB NAVI920調 20081127Google使Unicode3 使
    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
    py0n
    py0n 2009/03/02
    あれほど多くの種類の絵文字を使いこなす民族が日本人以外にゐるのかな。Googleのくたびれ儲けに終わったりして。