並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 426件

新着順 人気順

unicodeの検索結果1 - 40 件 / 426件

  • UTF-8 の BOM について - 将棋プログラミング


    1 UTF-8 BOM (Byte Order Mark)  Unicode BOM  ja.wikipedia.org OSUTF-8 BOM 調2OS BOM 2.1 Windows 10, Visual Studio, C++, _wfopen (_tfopen), // Visual Studio 2005   FILE *fp = _wfopen(name, _ L"w, ccs=UTF-8"); if (fp == NULL) { //  } fwprintf_s(fp, L"ABC123\n"); fclose
    • 「慶応」も「コンクリート」も漢字1文字で ~Unicode標準に新しいブロックが提案中/手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字【やじうまの杜】

        「慶応」も「コンクリート」も漢字1文字で ~Unicode標準に新しいブロックが提案中/手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字【やじうまの杜】
      • Windowsコードページの謎|kzn

        日本語が本格的に使えるようになりだした頃、そのコードはJISコードを巧妙に細工してモード切替を不要にしたシフトJISと呼ばれるものが使われました。当時は英語のみが使える環境でプログラムが作られることが殆どだったので、これを移植して日本語を扱えるようにすれば充分だということだったのです。 文字コード 最初に使われたのはCP/M-86という説もありますが、一般的に使われるようになったのはMS-DOS(PC-DOS)が最初です。これはWindowsにも引き継がれ、Macintoshも日本主導で日本語化が行われたという経緯もありシフトJISが使われました。 さてシフトJISの問題は米国標準であるASCIIに対する拡張であって、それ以外の国のローカルコードのことを考えていないことです。例えば英国では一部の記号がポンド記号に置き換わっているコードが使われていましたし、他のヨーロッパ諸国の言語でもいろい

          Windowsコードページの謎|kzn
        • ¥を巡る不都合な真実 - モディファイド・シフトJISという化石|kzn

          パソコンの世界で漢字を含む日本語を扱えるようにするために、処理が煩雑になるJISコードをそのまま扱うのではなく、文字コードセットの切り替え処理が不要になるシフトJISというコードが発明されました。 このコードがどのような経緯でMS-DOSなどで採用されたのかは、あまり詳しくわからないのですが、この文字コードは規格ではなくあくまで実装に過ぎなかったので、メーカー独自の判断で構わないと思われていたようです。 MULTI16 - 遂に三菱電機もパソコンを出した この文字コードが身近に使われるようになったのは、MS-DOSが日本語に対応した1983年にリリースされた「日本語MS-DOS Ver2.x」からだと思います。この段階で階層化ディレクトリもサポートされ、CP/Mから継承したコマンドオプションは”/”で始まるというルールが仇となりパスの区切り文字がUNIXなどで使われていた”/”の代わりに”

            ¥を巡る不都合な真実 - モディファイド・シフトJISという化石|kzn
          • おっさんが使いがちなネコの絵文字、どの環境でもかわいいとは限らないんだぞ/「はてな匿名ダイアリー」の注意喚起記事がちょっと話題に【やじうまの杜】

              おっさんが使いがちなネコの絵文字、どの環境でもかわいいとは限らないんだぞ/「はてな匿名ダイアリー」の注意喚起記事がちょっと話題に【やじうまの杜】
            • List of Emoji

              Emojis are small picture-like symbols that can add context and emotion to written text. They are about the same size as a letter that can be typed, but unlike alphanumeric characters, they are usually depicted in color, and their meaning is often open to interpretation. The word emoji comes from combining the Japanese words for picture and character. The first emoji characters, introduced in the 9

              • 😺 Grinning cat emoji

                This grinning cat emoji has alert feline instincts with its eyes wide open. This kitty’s proud smile says, “please let me eat the rest of that tuna” and is the perfect face for cat lovers who want an alternative to the plain grinning face emoji. Use this emoji as a greeting for your crazy cat lady friends. Copy

                  😺 Grinning cat emoji
                • 😺←この絵文字、iPhoneだとかわいくないから注意して!

                  おじさんがよく使ってるけど、かわいくないから!! 特にAndroidユーザは注意! Androidの猫は可愛いけど、iPhoneは可愛くないよ! 比較 ↓ https://yaytext.com/emoji/grinning-cat/ Appleの猫は可愛くないんだよ! やめようね!

                    😺←この絵文字、iPhoneだとかわいくないから注意して!
                  • 変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース

                      変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース
                    • Goの標準のutf8.RuneStart関数がエレガントすぎる

                      先日以下の記事を書きました。 ここでUTF-8の最初の文字かどうかの判定を以下の自作した関数で実装していました。 const ( t1 = 0b00000000 tx = 0b10000000 t2 = 0b00000110 t3 = 0b00001110 t4 = 0b00011110 ) func isUTF8LeadByte(tmp byte) bool { if tmp&tx == t1 { return true } tmp >>= 3 if tmp == t4 { return true } tmp >>= 1 if tmp == t3 { return true } tmp >>= 1 if tmp == t2 { return true } return false }

                        Goの標準のutf8.RuneStart関数がエレガントすぎる
                      • Windows上でユニコードを「見る」方法

                        Windowsでは、文字コードに「ユニコード」を使う。Windowsに搭載されているフォントはさまざまあるが、ユニコード文字を表示できるように、多数の文字の形が組み込まれている。 今回は、Windowsでユニコードを“見る”方法について解説する。なお、WindowsではUTF-16LEエンコードをUnicodeと表記する。ここでは、エンコードと混同されないために、文字仕様のUnicodeは「ユニコード」とカナ書きすることにする。 GUIアプリでユニコードを使う ユニコード文字は多数ある。それぞれの文字に割り当てられた文字コードをユニコードでは「コードポイント」と呼ぶ。コードポイントは、「U+」の後ろに16進数4桁または6桁で指定するのが正式な表記方法だ。たとえば、「漢」は「U+6F22」となる。ユニコード関連の文書やもちろん、インターネット内のウェブページでも同様の表記をすることが多い。

                          Windows上でユニコードを「見る」方法
                        • Decoding UTF8 with Parallel Extract

                          Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                          • ショートカットと端末 - SmartHR Tech Blog

                            SmartHR でプロダクトエンジニアをしている tmtms です。読み方がわからない(自分でもわからない)ので社内では tommy と名乗ってます。 2月に開催された社内LT大会第3回で「ショートカットと端末」というネタで発表したのですが、とても5分に収まる量ではなかったのでここにしたためておきます。 キーバインド macOSのテキスト編集のショートカットとEmacsとbashのキーバインドを比較するとこんな感じです。 control macOS Emacs bash A 行頭に移動 行頭に移動 行頭に移動 B 左に移動 左に移動 左に移動 C - prefix 中断 D 右文字削除 右文字削除 右文字削除/入力終了 E 行末に移動 行末に移動 行末に移動 F 右に移動 右に移動 右に移動 G - 中断 中断 H 左文字削除 ヘルプ 左文字削除 I - タブ タブ J - 改行 改行 K

                              ショートカットと端末 - SmartHR Tech Blog
                            • 文字数のカウントはどれが正解なのか?

                              A. ユースケース次第でどう実装すべきかは変わる。Intl.Segmenter が万能というわけでもない。 (クソ最悪な小バズをかましてしまったので、贖罪も兼ねて記事を書きました) 「文字数を数える」のは難しい 「文字数を数える」実装は意外と難しいです。というのも、アルファベットや数字だけなら str.length でも正しく数えられますが、絵文字や異体字などが入った文字列は見た目どおりに数えられません。

                                文字数のカウントはどれが正解なのか?
                              • Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー

                                  Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー
                                • エチオピアでモチモチした文字が発見されて「X」(Twitter)でちょっと話題に/「オフチョベットしたテフをマブガッドしてリットにする様子」の元ネタもこの言語【やじうまの杜】

                                    エチオピアでモチモチした文字が発見されて「X」(Twitter)でちょっと話題に/「オフチョベットしたテフをマブガッドしてリットにする様子」の元ネタもこの言語【やじうまの杜】
                                  • 私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog

                                    本記事は 【Advent Calendar 2023】 17日目の記事です。 🎄 16日目 ▶▶ 本記事 ▶▶ 18日目 🎅 こんにちは。 2年目の草野です。年末が近づいてきましたね。 今回はAdvent Calendarの執筆に参加ということで、2023年の業務の中で印象深かったUnicodeについて少しお話したいと思います。 そもそもUnicodeとは サロゲートペア文字 突然ですが…… 異体字セレクタとの出会い 異体字セレクタって? 全く同じ意味を持つ文字、異体字 異体字セレクタの誕生 具体例 結局私の名字はどう書くの? おわりに そもそもUnicodeとは みなさんご存じの通り、Unicodeは文字を表すための国際的な標準規格の1つです。 一般的には [U+91CE] のように、16進数で表記されます。 常用文字は [U+0000] ~ [U+FFFF] の16進数4文字=2バ

                                      私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog
                                    • UTF-8のバリデーションとモノイドと半群

                                      この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                                        UTF-8のバリデーションとモノイドと半群
                                      • 受検票(受験票)が文字化け、印刷できない 神奈川出願

                                        「出願システム」トラブルまとめ https://kanagaku.com/toraburu 広告 Twitter「受検票が印刷できない」 文字化けの様子 神奈川県の受験サイトでの受験票印刷、iPadとスマホから印刷しようとしたら文字化けしてしまった。 PCから無事印刷できたから良かったけど、ちょっと焦ったよね pic.twitter.com/LcDbrGdRYj — ころ (@koronosuke01) February 9, 2024 https://web.archive.org/web/20240209035717/https://pbs.twimg.com/media/GF2xYdBagAA0NOG?format=jpg https://megalodon.jp/2024-0209-1257-08/https://pbs.twimg.com:443/media/GF2xYdBagA

                                          受検票(受験票)が文字化け、印刷できない 神奈川出願
                                        • Intl.Segmenterはどうやって単語分割しているのか

                                          Intl.Segmenter についておさらい JavaScript には Intl と呼ばれる国際化 API があり、日時や数値のフォーマットを始めとする国際化に便利な機能が揃っています。Intl.Segmenter はこの Intl の一機能で、文字・単語・文章単位での文字列分割を可能にします。 文字単位での分割では複数のコードユニットやコードポイントを持った文字を考慮し、正確に見た目上の1文字(書記素)で分割できるので、絵文字を含んだ文字数のカウントなどに便利です。 const segmenter = new Intl.Segmenter("ja", { granularity: "grapheme" }); console.log("🇯🇵👨🏻‍💻".length); // ❌ 11 console.log([..."🇯🇵👨🏻‍💻"].length); // ❌

                                            Intl.Segmenterはどうやって単語分割しているのか
                                          • UTF-8のバリデーションとオートマトン


                                            UTF-8UTF-8 Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 UTF-8UTF-8 UTF-8 1ASCII (0x00-0x7F) 0xC2 0x80-0xBF U+007F1U+0080U+07FF2
                                              UTF-8のバリデーションとオートマトン
                                            • 文字ときどきRuby / Character and Ruby (NSEG)

                                              MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

                                                文字ときどきRuby / Character and Ruby (NSEG)
                                              • コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞

                                                行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。 スマホに表示できない 「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎(ちみもうりょう)とした世界だ」 デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。 政府は、自治体ごとに仕様がばらばらな戸籍や住民基本台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。 人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を

                                                  コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
                                                • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

                                                  まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

                                                    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
                                                  • PHPカンファレンスの過去14+3回の登壇を振り返る - Qiita

                                                    PHP Advent Calendar 2023の18日目の記事です。 PHPカンファレンスに登壇した記録を書きたいと思います。数えてみますと、2009年から昨年(2022年)までのPHPカンファレンス14回と、北海道2回、関西1回の合計17回登壇したことになります。 最初の登壇は14年前ですので、私の考えも当時からは変化していますので、そのあたりも触れながら紹介していきたいと思います。 PHP カンファレンス 2009 最初の登壇は2009年のPHPカンファレンスでした。この年はビジネスデイとテックデイに分かれていまして、ビジネスデイで登壇依頼を頂きましたので、当時温めていた「ウェブサイトを発注する際のセキュリティ」についてお話しました。 スライドの中で「脅威分析やってもあまり意味ない」みたいな物騒な意見が書いてあります。当時はそのように考えていたわけですが、これは当時のサイトがECサイ

                                                      PHPカンファレンスの過去14+3回の登壇を振り返る - Qiita
                                                    • 文字ときどきRuby - tmtms のメモ

                                                      これはRubyアドベントカレンダーとSmartHRアドベントカレンダーの17日目の記事です。 qiita.com qiita.com 12/9 に nagano.rb で文字について発表して、同じのを 12/15 に SmartHR 社内で LT しました。 スライドはこちら speakerdeck.com 同じ文字? この2つの文字は同じものに見えますか? 実はこれは同じ文字を異なるフォントで表示したものです。 ゴシック体と明朝体で字体が異なって見えるのと同じことなので、同じ文字と言えるでしょう。 コンピュータで扱う文字は文字ごとに番号(コードポイント)が振られていて、プログラムから見たときには同じコードポイントであれば同じ文字として扱われます。 Ruby で文字のコードポイントを得るには String#ord を使用できます。 '直'.ord.to_s(16) #=> "76f4" '

                                                        文字ときどきRuby - tmtms のメモ
                                                      • バックスラッシュと円記号の歴史と違い


                                                        Windows¥  ¥ \ ¥¥\    Windows    2 
                                                        • 平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」

                                                          シャポコ🌵 @shapoco 絵を描く、電気で遊ぶ、通知を無視する。 同じ名前で Misskey\.io と Bluesky にもいます。 お題箱 : https://t.co/TcgjTuG4wh shapoco.net

                                                            平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」
                                                          • あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿

                                                            こんにちは!アルダグラムのKANNAの開発お手伝いをさせて頂いているoubakiouです。 本記事は株式会社アルダグラム Advent Calendar 2023 6日目の記事です。 この記事を読めば以下のTypeScript(JavaScript)のテストコードがなぜこけるのかが分かったような気持ちになります。また最後に「細かい理屈はいいからいけてる感じに動くlengthやtruncateがほしい!」という方向けの付録もついています。 it('surrogate pair', () => { // 2 expect('😊'.length).toEqual(1) }) it('variation selectors', () => { // 4 expect('👍🏿'.length).toEqual(1) }) it('combining character', () => { //

                                                              あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿
                                                            • 「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita

                                                              TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記 誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。(ツイート等全て拝見しました。) Shift_JISが悪いわけではない(デフォルトのエンコーディング設定の問題)→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど?(調査中) CRLFとLF問題では→なるほど?(調査中) そんな問題何を今更→UTF-8が出てから生まれたからです

                                                                「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
                                                              • SwiftUIで日本語テキストが不自然に改行される | DevelopersIO

                                                                SwiftUIのTextビューで日本語を表示する際、意図しない箇所で改行が入ることがある。改行コードを使わずに改行位置を調整する方法を紹介する。 日本語テキストが不自然に改行される SwiftUIのTextビューで日本語を表示する時、意図しない箇所で改行が入ることがある。たとえば「あなたに寄り添う究極のイノベーション」というフレーズが、「あなたに寄り添う\n究極のイノベーシ\nョン」と不自然に改行されることがある。 例図では以下のように表示されている。 あなたに寄り添う 究極のイノベーシ ョン あなたの未来を形 作る最上のガジェ ット 英語圏で作られたWebサイトでの日本語の改行問題 英語圏で作られた後に日本語に翻訳されたサイトの例では、「今すぐダウンロード」というフレーズが「今すぐダウンロー\nド」と表示されることがあった。日本人の感覚からするとこれには強い違和感がある。他にも禁則処理が

                                                                  SwiftUIで日本語テキストが不自然に改行される | DevelopersIO
                                                                • 絵文字を支える技術について|nona


                                                                  mhidakaAdvent Calendar Day.3 mhidakaTweetAdvent Calendar GoogleAndroidTextDroidKaigiShibuya APKAndroid 
                                                                    絵文字を支える技術について|nona
                                                                  • Small String Optimization で Rust ライブラリ ratatui を最適化した話 - はやくプログラムになりたい

                                                                    最近 ratatui という crate に Small String Optimization を利用した最適化を入れたので,その話を書きます. 目次 Small String Optimization (SSO) とは(SSO を既に知っている人は読み飛ばして大丈夫です) Rust で SSO を適用した文字列型を提供する crate 比較 SSO を利用して ratatui のメモリ効率と実行効率を最適化した話 compact_str crate の実装の最適化の話 インラインストレージに24バイト全てを使える理由 隙間最適化のための工夫 説明を簡潔にするため,特に断りが無い場合 64bit アーキテクチャを前提とします. Small String Optimization (SSO) とは Rust の可変長文字列型 String は文字列バッファへのポインタ,文字列の長さ,バッフ

                                                                      Small String Optimization で Rust ライブラリ ratatui を最適化した話 - はやくプログラムになりたい
                                                                    • 海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に

                                                                      日本で誕生し、現在では世界中の人たちが、 文字通り日常的に活用している「絵文字」。 海外でもそのまま「EMOJI」で通じる世界語となっており、 日本独自の絵文字がそのまま海外でも使用されていますが、 日本の文化に根差している絵文字は、 外国人には通じないこともしばしばあるようです。 今回ご紹介する写真は、日本人の方がドイツで撮影したもので、 フランクフルト国際空港のロゴが写っています。 そのロゴが漫画やアニメで多用される「怒りマーク💢」に見える事から、 投稿者のTatsunoshin(@tatsunoshin_ofc)さんは、 「フランクフルト空港常にキレてるんやけど何?💢」と、 率直な疑問をぶつけておられます。 海外の多くの人々にとって「💢」に「怒り」のイメージはなく、 むしろ漠然と見ていた謎のマークである事から、 この疑問が外国人には非常に面白く、興味深かったようで、 多くのサイ

                                                                        海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に
                                                                      • コマンドラインで URL デコードする一例 - ようへいの日々精進XP


                                                                         YAMAP  Advent Calendar 2020  qiita.com tl;dr URL 調 URL      URL  %E8%B2%A0%E3%81%91%E3%81%AA%E3%81%84%E4%BA%8B%0D%0A%E6%8A%95%E3%81%92%E5%87%BA%E3%81%95%E3%81%AA%E3%81%84%E4%BA%8B%0D%0A%E9%80%83%E3%81%92%E5%87%BA%E3%81%95%E3%81%AA%E3%81%84%E4%BA%8B  root@
                                                                          コマンドラインで URL デコードする一例 - ようへいの日々精進XP
                                                                        • 「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか

                                                                          携帯電話を用いたコミュニケーションの手法の1つに「絵文字」がある。日本で生まれたこの絵文字は、GoogleとAppleによって標準化され、今ではさまざまなスマートフォンやPCでもでも閲覧できる。 その一方、ドコモで販売されるAndroidスマートフォンには、いまだフィーチャーフォン時代の絵文字が表示される。しかしこれが今のスマートフォンにそぐわない側面が出ている。この絵文字問題について考察したい。 今の絵文字は日本のものをベースにGoogleとAppleが標準化を提案 絵文字を携帯電話に採用したのは、NTTドコモが最初だ。この後にDDI(現au)、J-フォン(現ソフトバンク)が採用する形で続く。絵文字にはシフトJISというコードが用いられていたが、互換性維持の空き領域に絵文字を割り当てたことから、キャリア間で互換性がなく、文字化けの要因となっていた。 後に自動変換サービスも展開されたが、使

                                                                            「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか
                                                                          • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                                                                            「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                                                                              ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                                                                            • 「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント

                                                                                「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント
                                                                              • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

                                                                                UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String

                                                                                • 全ての開発者が知っておくべきUnicodeについての最低限の知識

                                                                                  2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

                                                                                    全ての開発者が知っておくべきUnicodeについての最低限の知識