Androidのテキスト処理を担当しているのなさんと、UnicodeやUnicode絵文字、テキスト処理の複雑さ、文字トリビアなどについて話をしました。出演者: のな (@ttuusskk)、Rui Ueyama (@rui314) https://turingcomplete.fm/12 ハッシュタグは#tcfmです。 TCFMはサポーターの投げ銭によって収益を上げています。このコンテンツに課金してもいいよという方はぜひクリエイター支援サイトPatreonから登録してご協力ください。 イントロ (0:00) 自分の読めない言語のテキスト処理は大変 (1:28) MMDDYYYYとDDMMYYYYの違いによる国際化バグ (3:07) Left-to-right言語とright-to-left言語 (5:23) アラビア語と英語のハイフネーション (6:15) 日本語の禁則処理 (7:19)
Each code page is represented by a code page identifier, for example, 1252, and is handled by the Unicode and character set API functions. For a list of supported code page identifiers, see Code Page Identifiers. The "Code Pages" reference on the Microsoft Go Global Developer Center gives full descriptions of many code pages. Windows code pages, commonly called "ANSI code pages", are code pages fo
Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicode Consortiumは3月9日(米国時間)、「The Unicode Blog: Unicode 10.0 Beta Review」において、次のバージョンのUnicode 10.0で実施される変更点や新しく追加される機能などについて伝えた。Unicode 10.0ではいくつかの変更が行われることになっており、Unicode Line Breaking Algorithmn、Unicode Text Segmentation、Unicode Identifier an
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く