[B! unicode] skypenguinsのブックマーク

skypenguins id:skypenguins

unicodeに関するskypenguinsのブックマーク (25)

絵文字を支える技術について｜nona
はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。軽く自己紹介をさせていただくと、普段はGoogleでAndroidのTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事は絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵
skypenguins 2023/12/04
絵文字

emoji

android

文字コード

unicode
リンク
「もらったEXEなんて開かねえよｗ」なんて人も絶対に騙される偽装ファイル名に思わず戦慄／見た目はテキストファイルなのに……ダブルクリックするとヤられる【やじうまの杜】
skypenguins 2022/02/17
セキュリティ

unicode

Windows
リンク
PDFをコピペするとなぜ“文字化け”が起きてしまうのか　変換テーブル“ToUnicode CMap”が原因だった
NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が﹁PDFのコピペが文字化けするのはなぜか？〜CID/GIDと原ノ味フォント〜﹂をテーマに話します。まずは文字化けが起こってしまう原因について。原ノ味フォントの作成者細田真道氏︵以下、細田︶‥細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。簡単に自己紹介をします。楽譜を作成するプログラム﹁LilyPond﹂のコミッターと、GNUの公式文書フォーマット﹁Texinfo﹂のコミッターをしています。あとで話しますが、﹁原ノ味フォント﹂を作っていて、すごく似たような名前で﹁原ノ町﹂という
skypenguins 2022/01/30
文字コード

unicode

フォント
リンク
Attacking Natural Language Processing Systems With Adversarial Examples
skypenguins 2021/12/20
NLP

自然言語処理

unicode

文字コード
リンク
Diacritical Marks in Unicode
skypenguins 2021/12/07
発音区別符号の謎に迫り、装飾文字として遊ぶ

unicode
リンク
Hey, AI software developers, you are taking Unicode into account, right ... right?
skypenguins 2021/08/12
Unicodeは魔境やな

unicode

文字コード

機械学習

AI
リンク
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！｜ハイクラス転職・求人情報サイト AMBI（アンビ）
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。文字コードとは？ Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み
skypenguins 2020/05/14
Unicodeは魔界への入り口…つまりUnicodeを知ることは魔界大冒険なのだ😇

unicode

文字コード
リンク
ぼくたちのかんがえたさいきょうのi18n国家
本記事は下記のtweetから始まるスレッドに触発され、@qnighyや@na4zagin3からアイディアを拝借して書いた。 i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、 — Masaki Hara (@qnighy) 2018年8月6日皆さんのおかげで最強のi18n国家が建設されつつある。一瞬で滅びそう — Masaki Hara (@qnighy) 2018年8月6日長い前置きソフトウェアのi18nは難しい。自文化では当たり前と思っていてハードコードしてしまった仮定が崩れて、大幅な再設計を余儀なくされるからだ。気づいて再設計できればまだ良
skypenguins 2018/08/07
unicode

文化

i18n

文字

言語
リンク
長くて覚えやすくて複雑なパスワードとemojiの話
すみだセキュリティ勉強会2018その1での発表資料です。 http://ozuma.sakura.ne.jp/sumida/2018/03/22/38/
skypenguins 2018/05/01
セキュリティ

文字コード

unicode
リンク
モヤイ像の絵文字の話
https://turingcomplete.fm/12 を聞いていて、モヤイ像について昔ちょっと調べたのを思い出したので掘り起こしてみる。 Unicodeに収録された絵文字のなかに﹁モヤイ像﹂というものがある。これ、モアイ像ではなくて “Japanese stone statue like Moai on Easter Island”、つまり﹁イースター島にあるモアイ像みたいな日本の石像﹂として定義されている。ちなみにモアイ像の絵文字というものはないのであった。マジで？　マジで。モヤイ像というのは東京の渋谷駅のランドマークになっているアレであって︵細かく言うと色々あるのだがそれについては後述︶、イースター島のモアイ像とは似せたようなかんじであってもまあ違う。髪もあるし。上述リンクの図像もまさに渋谷のモヤイ像のような見た目になっている。どうしてこんなことになっているのだろうか？いっぽう
skypenguins 2018/04/16
🗿

絵文字

emoji

文字コード

unicode
リンク
家族👨‍👩‍👦‍👦はreplaceされてしまうのか？あるいはZWJの話😂 - Qiita
こんにちは、@todokrです。これは絵文字 / Emoji Advent Calendar 2016 3日目の記事です。さっそくですがクイズです。以下のJavaScriptのコードの実行結果はどうなるでしょうか？︵すぐお試しいただけるようgistにコードをアップしてみました) ... ... ... 結果はこちらです。なんと！ママが入れ替わってしまいました！﹁家族﹂の1文字に対してreplace したのに何故でしょうか？﹁なんだこの文字は!?﹂に遭遇したらやることはただひとつ、そう16進ダンプでバイナリを見ることです。1まずはプレーンな﹁家族﹂の絵文字から見てみましょうこのようなテキストファイルを用意します。odコマンドでダンプした結果が以下です。エンコーディングはUTF-16なので2バイトずつで0xD83Dと0xDC6Aですね先頭バイトの0xD83Dが上位サロゲート
skypenguins 2018/04/12
文字コード

unicode

emoji

絵文字
リンク
絵文字を支える技術の紹介 - Qiita
絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。Ruiさんの記事を見て、﹁EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜﹂思って書いてみました。なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。またQiita初めてなので読みにくい部分等がありましてもご容赦ください。サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました
skypenguins 2018/04/12
unicode

emoji

絵文字

文字コード
リンク
ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ
とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字﹁ゼロ幅文字(Zero-Width characters)﹂を使って流出させたユーザーを特定した、という話が出ていました。数年前の話、Tom　さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。ユーザーを特定する情報を、見えない文字に変換して埋め込むログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字
skypenguins 2018/04/09
セキュリティ

ウェブ

文字コード

unicode
リンク
[PDF] ISO/IEC JTC 1/SC 2 Coded character sets Secretariat:JISC (Japan)
skypenguins 2018/02/24
予約済み

文字コード

元号

Unicode
リンク
文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。文字コードとは何か？文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。以上！と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。文字コードの構成要素文字コードの世界は以下の2つの要素で構成されている。この違いを意識しておかないと混乱を招くだろう。︵1︶．文字集合 – 表現したい文字の範囲︵”あ”、”い”・・・といった文字の集合体︶︵2︶．符号化方式 – 文字集合を構成する個々の文
skypenguins 2018/01/17
unicode

UTF-8

文字コード
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
skypenguins 2017/11/13
文字コード

unicode

emoji

絵文字
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
skypenguins 2017/03/13
unicode

文字コード

フォント
リンク
新・OS X ハッキング!(169) Terminal上で「ダ」や「パ」が付くファイルを検索できない理由と対策 | マイナビニュース
コラムのお題を考えるとき、内容が重複しないよう連載第1回からの見出しをざっとチェックしているのだが、なぜこれほど重要なことを取りあげてこなかったか、と反省することも少なくない。今回は、濁点(゛)や半濁点(゜)が付く文字を含むファイル/フォルダ名をTerminal上で扱うときの問題と対策、というかなり昔から存在するテーマについて考えてみたい。﹁ダ﹂や﹁パ﹂を含むファイルを検索できない理由まず、具体事例から説明しよう。カレントディレクトリに﹁オランダ﹂と﹁パナマ﹂、﹁ニホン﹂という名前のPNGファイルがあるとして、以下に示す図のとおりfindコマンドでファイル検索したとする。そのとき、ヒットするのは﹁ニホン﹂だけ。lsコマンドを実行すると確かに存在するし、綴りに誤りがあるわけでもなく、ただ濁点・半濁点を使うカナ(日本語IMEで入力)を検索語としただけなのに、ヒットしないのだ。この問題は、
skypenguins 2016/08/26
Mac

unicode

macos

文字コード
リンク
Expired
Expired：掲載期限切れですこの記事は，産経デジタルとの契約の掲載期限（6ヶ月間）を過ぎましたので本サーバから削除しました。このページは20秒後にITmedia ニューストップページに自動的に切り替わります。
skypenguins 2016/06/29
アップル

unicode

絵文字

iPhone

emoji
リンク
日本の文字とUnicode - 第３回　ひらがな・カタカナとUnicode - 大修館書店　WEB国語教室
現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第3回は、ひらがな・カタカナとUnicodeの関係です。 UnicodeのU+3041～U+3096には、ひらがなが収録されています(コード表参照)。 UnicodeのU+30A1～U+30FAには、カタカナが収録されています(コード表参照)。ひらがなとカタカナは、Unicode上での順序が、ほぼ同じになるように収録されています。たとえば、ひらがなのU+305F～U
skypenguins 2016/02/14
unicode

文字コード

日本語

文字

変体仮名
リンク
1 2 次のページ