並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 424件

新着順 人気順

unicodeの検索結果201 - 240 件 / 424件

  • Python 3.8 の概要 (その3) - Pickle protocol 5 with out-of-band data - atsuoishimoto's diary


    Python Pickle 使Pickle Pythonconcurrent.futures  multiprocessing 使 Pickle 使 PEP-574 Pickle protocol 5 with out-of-band data Pickle Pickle使
      Python 3.8 の概要 (その3) - Pickle protocol 5 with out-of-band data - atsuoishimoto's diary
    • Webフォントを分割して読み込む際にunicode-rangeを指定しなかったらどうなるのか - 私が歌川です

      表題のことについて検証してみましょう。 目次 目次 前提 Webページ上で独自のフォントを読み込むには フォントファイルのサイズ フォントファイルのサイズを抑える工夫 フォントファイルを分割し、必要に応じて読み込む フォントファイルを圧縮する 前提おわり 本題 規格によると 4.5. Character range: the unicode-range descriptor 4.5.1. Using character ranges to define composite fonts 実験する 準備 実験方法 実験結果 まとめ 前提 本題に入る前に、Webフォントを配信する際の前提について説明します。分かっている方は読み飛ばしてもらって大丈夫です。 Webページ上で独自のフォントを読み込むには CSSの font-family 属性に使いたいフォント名を書くことで、Webページ上のコンテン

        Webフォントを分割して読み込む際にunicode-rangeを指定しなかったらどうなるのか - 私が歌川です
      • 文字ときどきRuby - tmtms のメモ

        これはRubyアドベントカレンダーとSmartHRアドベントカレンダーの17日目の記事です。 qiita.com qiita.com 12/9 に nagano.rb で文字について発表して、同じのを 12/15 に SmartHR 社内で LT しました。 スライドはこちら speakerdeck.com 同じ文字? この2つの文字は同じものに見えますか? 実はこれは同じ文字を異なるフォントで表示したものです。 ゴシック体と明朝体で字体が異なって見えるのと同じことなので、同じ文字と言えるでしょう。 コンピュータで扱う文字は文字ごとに番号(コードポイント)が振られていて、プログラムから見たときには同じコードポイントであれば同じ文字として扱われます。 Ruby で文字のコードポイントを得るには String#ord を使用できます。 '直'.ord.to_s(16) #=> "76f4" '

          文字ときどきRuby - tmtms のメモ
        • Intl.Segmenterはどうやって単語分割しているのか

          Intl.Segmenter についておさらい JavaScript には Intl と呼ばれる国際化 API があり、日時や数値のフォーマットを始めとする国際化に便利な機能が揃っています。Intl.Segmenter はこの Intl の一機能で、文字・単語・文章単位での文字列分割を可能にします。 文字単位での分割では複数のコードユニットやコードポイントを持った文字を考慮し、正確に見た目上の1文字(書記素)で分割できるので、絵文字を含んだ文字数のカウントなどに便利です。 const segmenter = new Intl.Segmenter("ja", { granularity: "grapheme" }); console.log("🇯🇵👨🏻‍💻".length); // ❌ 11 console.log([..."🇯🇵👨🏻‍💻"].length); // ❌

            Intl.Segmenterはどうやって単語分割しているのか
          • まったく読めねェ! 「山梨県にしかない漢字」が存在する【漫画版】


                           Suica使  
              まったく読めねェ! 「山梨県にしかない漢字」が存在する【漫画版】
            • 4コマ漫画「一発芸」

              二重跳びしまーす!>𓀪 𓀡 <逆立ちしまーす! コスプレだよ>𓁆 𓁌<おまえはなにやんの? 私ははてなの神>𓁲  𓀊<ひえ〜!

                4コマ漫画「一発芸」
              • nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita


                java.exe -Djava.security.policy=StreamRelay.policy -jar StreamRelay.jar  StreamRelay.bat InputStream/OutputStreamReader/Writer()  使 - -LocalCharset - -RemoteCharset  -LocalRequestCharset -LocalResponseCharset -RemoteRequestCharset -RemoteResponseCharset 使 
                  nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita
                • 異体字の世界 【サイトウ】 - Qiita


                     69.3%    30.7%            |      |       |     Unicode  | 
                    異体字の世界 【サイトウ】 - Qiita
                  • 日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」


                    Your Code Displays Japanese Wrong Your code displays Japanese wrong | Your Code Displays Japanese Wrong https://heistak.github.io/your-code-displays-japanese-wrong/ 使使
                      日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」
                    • Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ

                      いまだに Emacs を使ってるんだけど、最近フォント周りを調べてみたのでメモ。 異体字セレクタ Emacs は異体字セレクタに対応してないとずっと思っていたんだけど、実は単にフォントの問題で、ちゃんと異体字セレクタに対応したフォントを使えば異体字を表示することができた。 普段使ってる Migu 1M フォントだと Emacs 上で異体字はこんな感じに表示される。 異体字セレクタに対応している花園明朝Aフォントを使うとちゃんと表示できる。 でも明朝体ではなくゴシック体を使いたい。IPAexゴシックフォントは一部しか異体字セレクタに対応していない。「禰󠄀豆子」は表示できるけど「令󠄂和」は表示できない。 全体的に Migu 1M フォントを使いつつ、「令」(U+4EE4)は花園明朝A、「禰」(U+79B0)はIPAexゴシックを使うということもできる。 (set-fontset-font

                        Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ
                      • どうして? 「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする/「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】

                          どうして? 「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする/「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】
                        • Discordでexeファイルによる乗っ取りが問題になっており「exeファイルを開かない」という人もいるが、拡張子を偽造する手口もあるので注意してほしい


                           @onotchi_ exeexeUnicode(RLO)  pic.twitter.com/dw9aXyCmOj 2022-02-15 23:44:31
                            Discordでexeファイルによる乗っ取りが問題になっており「exeファイルを開かない」という人もいるが、拡張子を偽造する手口もあるので注意してほしい
                          • 竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)


                            使 12    使 使󠄁󠄀使
                              竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)
                            • 平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」

                              シャポコ🌵 @shapoco 絵を描く、電気で遊ぶ、通知を無視する。 同じ名前で Misskey\.io と Bluesky にもいます。 お題箱 : https://t.co/TcgjTuG4wh shapoco.net

                                平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」
                              • MySQLに独自charsetを追加する - tmtms のメモ

                                MySQL に独自 charset を追加できる…という話はずっと前に聞いたことあったけど、やったことなかったんでやってみた。 詳しくは MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.13 文字セットの追加 を。 マルチバイト charset は C でプログラムを書いてコンパイルする必要があるけど、1バイト charset はファイルを置くだけで追加できる。 1バイトの charset と言えばみんなご存知の JIS X 0201 ですよね。ということで、jisx0201 という charset を作ってみる。 JIS X 0201 のコードはこんな感じ: x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF 0x NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO

                                  MySQLに独自charsetを追加する - tmtms のメモ
                                • おっさんが使いがちなネコの絵文字、どの環境でもかわいいとは限らないんだぞ/「はてな匿名ダイアリー」の注意喚起記事がちょっと話題に【やじうまの杜】

                                    おっさんが使いがちなネコの絵文字、どの環境でもかわいいとは限らないんだぞ/「はてな匿名ダイアリー」の注意喚起記事がちょっと話題に【やじうまの杜】
                                  • 😺 Grinning cat emoji

                                    This grinning cat emoji has alert feline instincts with its eyes wide open. This kitty’s proud smile says, “please let me eat the rest of that tuna” and is the perfect face for cat lovers who want an alternative to the plain grinning face emoji. Use this emoji as a greeting for your crazy cat lady friends. Copy

                                      😺 Grinning cat emoji
                                    • Haruhiko Okumura on Twitter: "このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu"

                                      このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu

                                        Haruhiko Okumura on Twitter: "このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu"
                                      • Macで濁点とかが起こす文字化け問題について

                                        B! 24 0 0 0 Macの中でGNU screenなどを立ち上げると文字化けすることがありますが、 その辺の問題についてのメモ。 Macでの文字化け問題 問題の確認 Windowsでの文字化け問題 HomebrewでインストールするGNU screenの文字化け対策 Macでの文字化け問題 Macの中でGNU screenを立ち上げたらファイル名の表示などが文字化けしたりすることがあります。 殆どの場合は日本語ファイル名で濁点を使ってる場合で、文字コードの問題です。 ただ、単純にUTF-8かShift_JISか、とかそういったものではなく、濁点や半濁点の扱いの特殊さによります。 MacではFinderでもターミナル上でも基本的にUTF-8で文字を扱いますが、 UTF-8の中でもいくつか文字の取り扱いに対して違うものが存在します。 FinderではNFD(Normalization F

                                        • 文字ときどきRuby / Character and Ruby (NSEG)

                                          MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

                                            文字ときどきRuby / Character and Ruby (NSEG)
                                          • JavaScript の正規表現で複数文字からなる絵文字を扱えるようにする提案: Days on the Moon

                                            この記事は JavaScript アドベントカレンダーの 4 日目の分です。 今やあちこちで使われている絵文字ですが、その中には 1 文字に見えるのに複数の文字 (符号位置) から構成されるものがあります。例えば「👨‍👩」という男女が並んだ絵文字は、U+1F468 MAN、U+200D ZERO WIDTH JOINER、U+1F469 WOMAN の 3 つの符号位置からなります。 JavaScript の正規表現でこのような絵文字にマッチさせようとすると正規表現パターンが長大になってしまいます。また、文字クラス [...] 内にこのような絵文字を記述すると、「U+1F468、U+200D、U+1F469 という符号位置の並び」ではなく「U+1F468、U+200D、U+1F469 のいずれかの符号位置」にマッチしてしまいます (/u フラグが有効な場合)。 これを解決するための提案

                                            • オノッチ on Twitter: "友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこか… https://t.co/oGDPTCHM2s"

                                              友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこか… https://t.co/oGDPTCHM2s

                                                オノッチ on Twitter: "友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこか… https://t.co/oGDPTCHM2s"
                                              • SJIS-macに変換したはずなのにSJIS-winになる - Qiita


                                                $utf8Str = ""; $sjisStr = mb_convert_encoding($utf8Str, 'SJIS-mac'); echo(mb_detect_encoding($sjisStr, ['UTF-8','SJIS-mac', 'SJIS-win', 'SJIS'])); // SJIS-win  SJIS-macSJIS-win SJIS-macMacJapanese MacJapanese This is a bug in PHP's mbstring extensionmbstring 
                                                  SJIS-macに変換したはずなのにSJIS-winになる - Qiita
                                                • ショートカットと端末 - SmartHR Tech Blog

                                                  SmartHR でプロダクトエンジニアをしている tmtms です。読み方がわからない(自分でもわからない)ので社内では tommy と名乗ってます。 2月に開催された社内LT大会第3回で「ショートカットと端末」というネタで発表したのですが、とても5分に収まる量ではなかったのでここにしたためておきます。 キーバインド macOSのテキスト編集のショートカットとEmacsとbashのキーバインドを比較するとこんな感じです。 control macOS Emacs bash A 行頭に移動 行頭に移動 行頭に移動 B 左に移動 左に移動 左に移動 C - prefix 中断 D 右文字削除 右文字削除 右文字削除/入力終了 E 行末に移動 行末に移動 行末に移動 F 右に移動 右に移動 右に移動 G - 中断 中断 H 左文字削除 ヘルプ 左文字削除 I - タブ タブ J - 改行 改行 K

                                                    ショートカットと端末 - SmartHR Tech Blog
                                                  • Zero Width Shortener

                                                    ZWS uses zero width characters instead of the typical alphanumeric ones that URL shorteners use. When rendered, these characters appear invisible, but they're still there, which means that ZWS is able to use them to encode information about your URL. Hi, I'm Jonah, the creator of ZWS. I hacked together the first version of ZWS back in 2019, mostly just to see if the concept would actually work. It

                                                      Zero Width Shortener
                                                    • Unicode変体仮名一覧

                                                      Unicode(ユニコード)に登録されている変体仮名(へんたいがな)286文字(U+1B001〜U+1B11E)を、現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。 表の左列のリンクから、日本古典籍くずし字データセットに収録された実際の字形を確認できます。ただしすべての字母に対応する字形が収録されているわけではない点にご注意下さい。なお、変体仮名や字母の説明については、くずし字とは?をご覧下さい。くずし字の字形については、くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)やくずし字データセット 文字種(くずし字)一覧をご利用ください。

                                                        Unicode変体仮名一覧
                                                      • UTF-8のバリデーションとモノイドと半群

                                                        この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                                                          UTF-8のバリデーションとモノイドと半群
                                                        • Best practices for speeding up JSON encoding and decoding in Go

                                                          Custom software development Tailored software solutions and software augmentation services to meet unique business needs, drive operational efficiency, and stimulate business expansion Read more Development teams Dedicated development teams and professionals that work exclusively on your project and ensure top-notch tailored solutions Read more IT consulting Expert guidance on leveraging advanced

                                                            Best practices for speeding up JSON encoding and decoding in Go
                                                          • 日本語で絵文字入力するための IME 追加辞書を公開しました - Qiita

                                                            概要 - Overview この辞書を Google日本語入力・ATOK・Microsoft IME などに導入することで、 GitHub, Slack, Qiita のようにコロン : をトリガーとして IME でも絵文字を入力することができるようになります。 「GitHub, Slack, Qiita 以外のアプリケーションでも GitHub, Slack, Qiita のように絵文字を入力したい」 という要望に応えるための IME 追加辞書です。 ちなみに GitHub や Qiita は英語で絵文字を探す必要がありますが、この辞書を利用することで GitHub や Qiita でも Slack のように日本語で絵文字を入力することができるようになります。 GitHub に MIT License で公開しており、現在は 8264 ペアの絵文字とその読みが収録されています。 👇辞書

                                                              日本語で絵文字入力するための IME 追加辞書を公開しました - Qiita
                                                            • 「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】

                                                                「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】
                                                              • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                                                                環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                                                                  Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                                                                • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                                                                  「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                                                                    ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                                                                  • String meets Encoding

                                                                    https://rubykaigi.org/2022/presentations/ima1zumi.html#day3

                                                                      String meets Encoding
                                                                    • GitHub - unicode-org/last-resort-font: Last Resort Font

                                                                      This repository includes two versions of the Last Resort font: Last Resort and Last Resort High-Efficiency. Although both fonts can be installed at the same time—because they have different names—you are encouraged to download and install only the one that is expected to work in the environments that you use: The file LastResort-Regular.ttf is a font named Last Resort, and its 'cmap' table include

                                                                        GitHub - unicode-org/last-resort-font: Last Resort Font
                                                                      • 検索画面:奈良文化財研究所 史的文字データベース連携検索システム

                                                                        検索文字 検索する ・調べたい文字を入力してください。(単文字のみで指定可能です) By using this site, you are allowing the configuration and use of cookies. For details, please see our Privacy Policy. Agree

                                                                        • 目に見えない文字を悪用してサイトを好き放題荒らされた話 - Qiita

                                                                          ある日のこと 僕の運営している『ブラウザで遊べる絵チャット(令和最新版)』に、このような投稿がされてしまいました。 正直こんな荒らしは毎日のようにあるのですが、普段であればすぐに他のユーザーによって通報され、対処されます。 しかし、このユーザーは、何故か他ユーザーに通報されることなく、荒らし続けることができていました。 スクショをよく見ていただきたいのですが、通常であれば、「善良ユーザーA」のように発言の横にユーザーが名が表示され、そのユーザー名をクリックすることでプロフィールを表示することができるようになっています。 しかし、荒らしているユーザーには、なんと名前がないのです。 名前がないと、ユーザー名を押下することができず、プロフィールも表示できません。 違反行為の通報は、プロフィールから行うようになっているため、このユーザーは他ユーザーから通報されることなく、好きなだけおちんちん祭りを

                                                                            目に見えない文字を悪用してサイトを好き放題荒らされた話 - Qiita
                                                                          • 正規表現を豊かにする ES2024 RegExp v (unicodeSets) フラグ

                                                                            【2023/05/17 変更】 2023年5月の TC39 会議で Stage 4 になったため、タイトルを変更 HTML Standard の pattern 属性に取り込まれたので修正 ES2024 RegExp v (unicodeSets) フラグ ES2024 に RegExp v (unicodeSets) フラグというものがあります。これは既存の u (unicode) フラグを改善して置き換え、機能追加することを目的としています。 詳しい内容については V8 や 2ality による解説記事が詳しいです。ここではその概要をピックアップして述べたいと思います。 複数のコードポイントからなる絵文字の対応(Unicode Properties of Strings) ES2015 に u (unicode) フラグが導入され、コードポイント単位で正規表現を扱えるようになりました。

                                                                              正規表現を豊かにする ES2024 RegExp v (unicodeSets) フラグ
                                                                            • It’s not wrong that "🤦🏼‍♂️".length == 7

                                                                              The string that contains one graphical unit consists of 5 Unicode scalar values. First, there’s a base character that means a person face palming. By default, the person would have a cartoonish yellow color. The next character is an emoji skintone modifier the changes the color of the person’s skin (and, in practice, also the color of the person’s hair). By default, the gender of the person is und

                                                                              • SwiftのStringの文字の数え方を完全理解する


                                                                                SwiftUnicode Unicode string[2] 3 Swift UnicodeSwift
                                                                                  SwiftのStringの文字の数え方を完全理解する
                                                                                • What's New in Unicode 14.0

                                                                                  Today the latest emoji list will be released by the Unicode Consortium, with additions including Biting Lip, Troll, Saluting Face, as well as two heart-related gestures: Heart Hands and Hand with Index Finger and Thumb Crossed (aka finger heart, popular in K-Pop circles). The release date for version 14.0 of the Unicode Standard was aptly set for the 14th day of September, and formalizes what has

                                                                                    What's New in Unicode 14.0