並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 429件

新着順 人気順

unicodeの検索結果81 - 120 件 / 429件

  • GitHub - trueroad/tr-NTTtech05: NTT Tech Conference #5 Presentation 「PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~」関連資料

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

      GitHub - trueroad/tr-NTTtech05: NTT Tech Conference #5 Presentation 「PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~」関連資料
    • 君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita


      import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Python'٢٠٢٢-٠٦'4++2 4   Python  \d Unicode (str) :  Unicode 10  (Unicode  [Nd])  [0-9] 
        君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita
      • 「絶対アップデートしたくない」…iOS 14.2の「とある仕様」にユーザーが強烈な拒否反応【やじうまWatch】

          「絶対アップデートしたくない」…iOS 14.2の「とある仕様」にユーザーが強烈な拒否反応【やじうまWatch】
        • 「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字


          HTML使  ①©  ©   UTF-8  Shift_JIS ©   WindowsMac OS[1] Unicode  UTF-8  HTML
            「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字
          • 😺←この絵文字、iPhoneだとかわいくないから注意して!

            おじさんがよく使ってるけど、かわいくないから!! 特にAndroidユーザは注意! Androidの猫は可愛いけど、iPhoneは可愛くないよ! 比較 ↓ https://yaytext.com/emoji/grinning-cat/ Appleの猫は可愛くないんだよ! やめようね!

              😺←この絵文字、iPhoneだとかわいくないから注意して!
            • Webアプリケーション設計の第一歩は
ディレクトリの整理から / Encraft 1

              2023/3/24、Encraft #1 フロントエンド×設計にて発表した資料です。

                Webアプリケーション設計の第一歩は
ディレクトリの整理から / Encraft 1
              • JavaScript: 文字数を正確にカウントするには? - Qiita

                この投稿ではJavaScriptで文字数をできるだけ正確にカウントする方法について取り上げます。 文字数とは? 要件で「文字数を表示してほしい」「○文字以上はバリデーションエラーにしたい」と文字数を考慮しないとならないことがあります。 そもそも文字数とは何でしょうか。 たとえば、アルファベットの「A」は1文字と数えられそうです。 次の絵文字は、何文字になるでしょうか? この絵文字はiOSであれば14.5の環境では、UI上では上のように1文字のように表示されます。しかし、それ以前のバージョンでは、同じ文字列データでも😵💫のように2文字で表示されます。なお、この絵文字は3つのコードポイントU+1F635 U+200D U+1F4ABからなります。この絵文字の「文字数」はいったい何文字として扱ったらよいのでしょうか。 以上のように、ひとことで文字数と言ってもデータと見た目と環境の3つのややこ

                  JavaScript: 文字数を正確にカウントするには? - Qiita
                • 中国人を悩ませるレアな名字の文字コード問題

                  印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。 中国の面積は日本の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

                    中国人を悩ませるレアな名字の文字コード問題
                  • おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary

                    2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom

                      おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary
                    • Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*

                      Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackで&#xE000;タイトルをハイライト&#xE001;する" /> <meta property="og:description" content="Slackで&#xE000;説明&#xE001;も&#xE000;好きな部分をハイライト&#xE001;する" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。 ちなみに printf "\ue000寿司\ue001が光ったら成功"

                        Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*
                      • JavaScript における文字コードの初歩 - 30歳からのプログラミング

                        この記事では、 JavaScript で文字コードを扱う際に知っておくべき概念である Code Point や Code Unit、サロゲートペア、といったものについて説明していく。 また、具体的にそれらの概念を使ってどのようにコードを書いていくのかについても扱う。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 Code Point (符号位置) プログラムで文字を表現する方法は複数あるが、 JavaScript では Unicode という方法を採用している。 Unicode ではあらゆる文字に対して一意の値を割り振ることを目的としており、この値のことを Code Point (符号位置)という。 Code Point は 16 進数の非負整数で、文章中で表記するときは接頭辞としてU+をつける。 例えばAという文字の

                          JavaScript における文字コードの初歩 - 30歳からのプログラミング
                        • MySQLのutf8mb4と戦った話 - Uzabase for Engineers


                          NewsPicks  2023/03/30 NewsPicks DBmigration    utf8mb4調 migration 調     NewsPicksBugSnag BugSnag org.springframework.orm.hibernate4.HibernateJdbcExcepti
                            MySQLのutf8mb4と戦った話 - Uzabase for Engineers
                          • 誰でも簡単⁉️👀 絵文字ができるまで😃👍

                            現在の私たちが何気なく使っている絵文字たち(😀🥺💦💕🏠💻🌊😈🐱💢…)って、実は誰でも提案📝📮することができて、「この絵文字はワシが作った👴」と言えるチャンス💪があることをご存知ですか❓🤔 このスライド📄では、普段あまり知ることのないUnicode Emoji😀(絵文字の代表格)の仕様策定の流れ💨や、Emojiを提案する方法🙆‍♀️を簡単にご紹介👩‍🏫します! ✅ Zennに本スライド以外の内容(📊通過率・🗑️Emoijのボツ案など)を含めて載せてます↓ https://zenn.dev/cybozu_frontend/articles/how_to_propose_a_new_emoji ※本資料は、2023年6月30日にサイボウズで開催された社内イベント「フロントエンドデー」における登壇資料に一部編集を加えたものです。 ※ここに掲載の内容は2

                              誰でも簡単⁉️👀 絵文字ができるまで😃👍
                            • Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始

                              米Googleは2月12日(現地時間)、Android向けキーボードアプリ「Gboard」の新機能「Emoji Kitchen」を発表した。2つの絵文字をミックスしてカスタマイズした絵文字を使える。同日からすべてのGboardユーザー向けにロールアウトしていく。 Gboardをメインのキーボードに設定し、Gmail、Googleのメッセージ、メッセンジャー、Snapchat、Telegram、WhatsAppなどのアプリでの入力で絵文字を選ぶと使える(本稿執筆現在、筆者のGboardではまだできない)。 自分で新しい絵文字を作れるわけではないようだ。公式ブログには、「絵文字をタップすると、Googleのデザイナーが特別に手作りしたステッカーが(候補として)多数表示される」とある。 関連記事 「Unicode Emoji 13.0」決定──タピオカドリンクも遅まきながら登場 Unicode

                                Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
                              • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita


                                 2023 awk  Unicode (UTF-8)  CSV  🎉🎉🎉 awk Excel  CSV   awk (One True Awk, nawk)  Unicode  Brian Kernighan  Brian Kernighan  awk  awk Alfred AhoPeter WeinbergerBrian Kernighan KRCAWK
                                  awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
                                • 行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」

                                  草 @kusa39_39 (´゚д゚`)!!! ってことは、『今夜の晩御飯はあなたの大好きなカレーだよ♪』が『今夜の晩御飯はあなたの大好きなカレーだよ💩』になるのか……(´・ω・`) あーぁ(´゚д゚`) twitter.com/310ich/status/… 2021-05-28 02:51:14

                                    行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」
                                  • 未だ現役なPerl5.8 & MySQL4.0とどう戦うか? ライブドアブログが生んだカオスとレガシーからの脱却


                                    Perl5.8  MySQL4.0  Inside of Blog 15 #2/2 20191120212LINELINE DEVELOPER DAY 20191EngineeringLINE2ProductionWebUI/UXInside of Blog; 15LINE B
                                      未だ現役なPerl5.8 & MySQL4.0とどう戦うか? ライブドアブログが生んだカオスとレガシーからの脱却
                                    • 島根1区〝かめいあきこ〟問題に終止符 渦中の同名「亀井彰子」氏が出現し陰謀論一蹴!(東スポWeb) - Yahoo!ニュース


                                      16430   17756 315
                                        島根1区〝かめいあきこ〟問題に終止符 渦中の同名「亀井彰子」氏が出現し陰謀論一蹴!(東スポWeb) - Yahoo!ニュース
                                      • 海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に


                                          EMOJI 使     💢 稿Tatsunoshin@tatsunoshin_ofc 💢  💢   
                                          海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に
                                        • UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside


                                           Web() Ruby on RailsAWS UTF-8RailsShift_JISAPI   UTF-8RailsShift_JIS Shift_JISAPIPOST  Rails Shift_JIS使 Shift_JISPOST : Shift_JISPOST
                                            UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
                                          • ヤフコメ欄で天心vs亀田のどちらが強いか揉めてお互い会いに行ったら殴り付けて逮捕された41歳無職男

                                            NHK@首都圏 @nhk_shutoken 品川区旗の台の路上で40代の男性に殴る蹴るの暴行を加えてけがをさせたとして、41歳の男逮捕。「ヤフーニュース」に掲載された格闘技のニュースコメント欄で、面識のない被害者の男性と意見が対立して実際に会うことになり、初めて会ったその場で暴行したという。 www3.nhk.or.jp/shutoken-news/… 2019-07-23 12:02:57

                                              ヤフコメ欄で天心vs亀田のどちらが強いか揉めてお互い会いに行ったら殴り付けて逮捕された41歳無職男
                                            • PDF に謎の漢字が含まれるとき

                                              gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた? この文字は 康煕部首 (Kangxi Radicals) というもので、部首としての文字である MS ゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすい どこから来たのか? これらは(フォントに

                                                PDF に謎の漢字が含まれるとき
                                              • A Field Guide to Japanese Mojibake

                                                When you open a document with an encoding different than the one it was created with, it's not possible to display the original text, and instead a garbled mess of corrupted characters are printed out. These are called "mojibake" in Japanese, and the word has also been borrowed into English. While mojibake aren't readable by humans, it turns out that different kinds of mojibake have different visu

                                                  A Field Guide to Japanese Mojibake
                                                • マルチバイト文字とURL | 技術者ブログ | 三井物産セキュアディレクション株式会社

                                                  MBSDでWebアプリケーションスキャナの開発をしている寺田です。 前記事では正規表現でのURLのチェックについて書きました。今回はその続きでマルチバイト文字を使った攻撃について書きたいと思います。 前提条件 本記事で想定するのは、ブラウザからパラメータとして渡されて来るURLを、リダイレクトやリンク等のURLとして使うケースです。その中でも、以下のようにサブドメイン部分(★の部分)を可変にする状況を主に想定します。 https://★.example.jp/… 攻撃の目標は、異なるドメイン(evil)のURLを与えてチェックをすり抜けることです。前回の記事にも書きましたが、この状況は(半角英数等のサブドメインしか受け入れないような場合を除き)「/」「?」「#」「\」のいずれかをサブドメインに入れることで攻略できることが大半です。 今回はこれらの記号が全て使用できないように対策されているこ

                                                    マルチバイト文字とURL | 技術者ブログ | 三井物産セキュアディレクション株式会社

                                                  •   https://t.co/G5flEPxAo9
                                                      🚭ด้้้้็็็็็้้้้้็็็็็้้้้้้้้🔞龴⟿ﬨ֞ꆸ௵冫ם෴. ﷼ ℳ✧ ۞ on Twitter: "見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。 女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9"
                                                    • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

                                                      まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

                                                        ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
                                                      • 有名人の名前について知っていることを語る会


                                                          46    TwitterIDtokyo26     N
                                                          有名人の名前について知っていることを語る会
                                                        • View Source

                                                          · About · Changelog URL: Fetched 1.23 KB in 0.346985 seconds Don’t wrap lines · Tidy markup <!doctype html> <html> <head> <title>Example Domain</title> <meta charset="utf-8" /> <meta http-equiv="Content-type" content="text/html; charset=utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1" /> <style type="text/css"> body { background-color: #f0f0f2; margin: 0; padding: 0; f

                                                          • Windows上でユニコードを「見る」方法

                                                            Windowsでは、文字コードに「ユニコード」を使う。Windowsに搭載されているフォントはさまざまあるが、ユニコード文字を表示できるように、多数の文字の形が組み込まれている。 今回は、Windowsでユニコードを“見る”方法について解説する。なお、WindowsではUTF-16LEエンコードをUnicodeと表記する。ここでは、エンコードと混同されないために、文字仕様のUnicodeは「ユニコード」とカナ書きすることにする。 GUIアプリでユニコードを使う ユニコード文字は多数ある。それぞれの文字に割り当てられた文字コードをユニコードでは「コードポイント」と呼ぶ。コードポイントは、「U+」の後ろに16進数4桁または6桁で指定するのが正式な表記方法だ。たとえば、「漢」は「U+6F22」となる。ユニコード関連の文書やもちろん、インターネット内のウェブページでも同様の表記をすることが多い。

                                                              Windows上でユニコードを「見る」方法
                                                            • iTerm2 で `cat /dev/urandom` すると印刷ダイアログが出ることがある - mizdra's blog

                                                              皆さんは /dev/urandom と呼ばれるUnixデバイスをご存知でしょうか. /dev/urandom は一言でいうと擬似乱数を出力する疑似デバイスで, catすると以下のようにランダムなバイト列を逐次的に出力してくれます. 出力するバイトの値域に特に制限は無いため, ターミナルに印字不可能な文字が表示されたりします. 良い具合にバイト列が揃うと漢字が流れてきたり, 異国の文字が流れてきたりと眺めているだけでも結構面白いです. 皆さんも是非お試し下さい. 私は絵文字が流れてきたのを見て大喜びしてました. ところでこの cat /dev/urandom ですが, iTerm2でひたすら動かしていると稀に印刷ダイアログが開くことがあります. 印刷するともれなく異国の文字たちがお出迎えしてくれます 実は cat /dev/urandom しなくても echo コマンドで簡単に再現できます.

                                                                iTerm2 で `cat /dev/urandom` すると印刷ダイアログが出ることがある - mizdra's blog
                                                              • Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】

                                                                  Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】
                                                                • macOS 13.3 VenturaではNFC/NFD問題が再発し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意を。

                                                                  macOS 13.3 VenturaではNFD/NFC問題が復活し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意してください。詳細は以下から。 Appleは2017年に開催したWWDC17において、同年末にリリースされるmacOS 10.13 High Sierraでは同社が開発する新しいファイルフォーマット「APFS」を正式導入すると発表しましたが、Macよりも先行してAPFSが採用されたiPhone (iOS 13.3から)では初期段階でUnicodeの正規化形式(NFD/NFC)問題により、アプリがファイルにアクセスできない不具合が確認されていました。 表題の件、Acrobat Reader for mobileをiOS 10.3でご利用のお客様において、以下の現象が発生しております。 既知の問題: ファイル名に下記の文字を使用した場

                                                                    macOS 13.3 VenturaではNFC/NFD問題が再発し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意を。
                                                                  • 漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社

                                                                    きっかけ 以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。 「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは ⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica

                                                                      漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社
                                                                    • 「その日本語、ちょっと違うよ」中国語フォントとの違いを見せる海外開発者向けページ 「例が秀逸」と話題 - ITmedia NEWS

                                                                      「日本語で繁体字や簡体字(のフォント)を使うと、日本語ネイティブには奇妙に見える。aとαどころではなく、英語をキリル文字など形の似た字を交えて書くくらい変だ」──海外開発者に向け、日本語の文章で中国語のフォントを使ってしまうことをこのように注意喚起した英語のWebページが「例が秀逸」「全ての開発関係者が目を通してほしい」と話題を集めている。 日本語を繁体字や簡体字のフォントで書く違和感を英文で例えた文章。「It would be looking something like this」をキリル文字などアルファベットに似た言語を交えて書いている(Needleさんが公開しているページから引用) Webページではフォントの違いがもたらす違和感に加え、繁体字、簡体字、日本語フォントの違いを図説。「刃」の字を使ってそれぞれの違いを説明している他、フォントの間違いを確認する方法やその原因、解決方法など

                                                                        「その日本語、ちょっと違うよ」中国語フォントとの違いを見せる海外開発者向けページ 「例が秀逸」と話題 - ITmedia NEWS
                                                                      • ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた

                                                                        「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ

                                                                          ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
                                                                        • Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中

                                                                          大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指して策定されており、「溶解する顔」や「妊娠中の人」といった個性的な絵文字も数多く登録されています。そんなUnicodeに登録されている正体不明の記号「⍼」について、ブリティッシュコロンビア大学でソフトウェアについて学んでいるジョナサン・チャン氏がまとめています。 U+237C ⍼ RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW · Jonathan Chan https://ionathan.ch/2022/04/09/angzarr.html 「⍼」は数学記号用のフォントなどに含まれている記号です。例えば、数式・化学式用フォント「Cambria Math」に含まれる「⍼」を拡大してみるとこんな感じ。カギカッコのような直角と稲妻形の矢印が組み合わさった日常生活では全く目にすることのない

                                                                            Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中
                                                                          • \と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース プログラミング言語サポートページ

                                                                            バックスラッシュ\を入力する時に円記号¥に文字化けが起きる理由 プログラムのソースプログラムは(LaTeXのソースファイルやWebページのHTMLファイル等と同様に)テキストファイル(教科書ではテキスト形式と呼ばれています。プレーンテキスト(plain text)とも呼ばれることがあります)というファイル形式で書かれます。このテキストファイルはどのようなOSでも必ずサポートされている最も基本的なファイル形式であり、実体は1バイトを単位として文字コードで表現されたデータが先頭から順に並んでいるだけのファイルです。 その文字コードは歴史的にはさまざまなものがありましたが、次第にアメリカで定められたASCIIコードが主流になり、世界中で使われるようになりました。これが国際的な規格になったものがISO/IEC 646です。これらは7ビットの文字コードなので2の7乗つまり128種類の文字が表現でき、

                                                                              \と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース プログラミング言語サポートページ
                                                                            • ユニコード15.1に採用された漢字構成記述文字記号|Qvarie


                                                                              59/1215.1CJK-I4CJK1𝚄+𝟹𝟷𝙴𝙵 
                                                                                ユニコード15.1に採用された漢字構成記述文字記号|Qvarie
                                                                              • Twitterで「機種依存文字 Unicode」と検索するとなぜか自殺を制止されるロジックが判明【やじうまWatch】

                                                                                  Twitterで「機種依存文字 Unicode」と検索するとなぜか自殺を制止されるロジックが判明【やじうまWatch】
                                                                                • 非公式 PHP 8.1のmbstringアップグレードガイド - てきとうなさいと。べぇたばん


                                                                                  PHP 8.1 PHP 8.1mbstring PHP 2022mbstring  Major overhaul of mbstring PHP 8.1Major overhaul of mbstringmbstringRFC(Request For Comments)ChangelogmbstringPHP
                                                                                    非公式 PHP 8.1のmbstringアップグレードガイド - てきとうなさいと。べぇたばん