並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 424件

新着順 人気順

unicodeの検索結果361 - 400 件 / 424件

  • mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

      mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src
    • Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita

      Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。 東アジア圏かどうか?をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。 さて、ここまでが基本です。 ここから先が闇です。 闇の始まり さて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。 しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。 ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。 さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が

        Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita
      • 闇の絵文字😈に対する防衛術 - Qiita

        はじめに この記事は闇の魔術に対する防衛術 Advent Calendar 2019の15日目の記事です。 ♰闇の絵文字♰ 絵文字というものはとても便利なもので、自らの感情を言葉ではなく1文字分の絵🖼で表現することができます。 しかし......🤔🤔🤔 文章を解析する時に邪魔😡 なんです。 どゆこと❓ Python🐍などを利用して文章解析をする場合、前処理という文章📝を使いやすい形に整える作業をする必要があります。 解析の際に文章中に絵文字があるとあの忌々しい🤢Errorが降臨してしまいます😈 以前擬似しゅうまい🍽のようなものを作った際にはこのエラーに大変悩まされました😱 世界🌎を滅ぼさんとする絵文字から身を守る術👊 この世界を破壊💣し滅ぼそうとする絵文字たちから身を守る術はひとつ☝️ "力"です👊👊👊 絵文字をちぎっては投げちぎっては投げを繰り返せるほど

          闇の絵文字😈に対する防衛術 - Qiita
        • 変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース

            変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース
          • So Long Surrogates: How we moved to UTF-8 in Haskell

            We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this

            • テキスト広告が文字化け→実は意図的だった? Twitterのプロモーションが話題に【やじうまWatch】

                テキスト広告が文字化け→実は意図的だった? Twitterのプロモーションが話題に【やじうまWatch】
              • Rubyだけで文字コード変換を実装する - Eggshell


                Ruby Advent Calendar 2021 - Qiita 5 ima1zumi RubyKaigi Takeout 2021  Dive into Encoding  Cgem Encoding::IROHA Ruby使  https://github.com/ima1zumi/encoding_iroha/ gem使Encoding::IROHA使 RubyKaigi Takeout 2021 Cgem
                  Rubyだけで文字コード変換を実装する - Eggshell
                • 厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena

                  こんな感じで都道府県別の感染者数を表示できるようにしてるわけですが、厚生労働省のフォーマットが変わってしまったのでまとめておく。 nowokay.hatenablog.com 新しいものはこれ https://www.mhlw.go.jp/content/10906000/000628667.pdf いままでのはこれ https://www.mhlw.go.jp/content/10906000/000627630.pdf いままでも連番が入るとか数値にカンマが入るとかちょこちょこ変更は入ってたのだけど、今回はデータの意味も結構かわってしまった。 重症者やPCR検査数も入ったので、データとしては よりよくなったわけではあるけど。 東京のデータも都の発表値と一致するようになって、改めて都のデータをとりにいく必要がなくなったのもいいですね。 ということで困ったところ 「不明」・・・いままでゼロ

                    厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena
                  • Go 1.17からの負のruneの扱い | フューチャー技術ブログ


                    TIGGo 1.174 Go 1.17runerune Go 1.17Relsease Notes1 negative rune valuesrune runeseihmdQiita 01, , , , 5000, 001, 010, 011, 10001
                      Go 1.17からの負のruneの扱い | フューチャー技術ブログ
                    • UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発

                      UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra

                      • Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO


                        Go調 使Go1.13.6  golang.org/x/text使 $ go mod init example.com/moriwaki/iconv go: creating new go.mod: module example.com/moriwaki/iconv $ go get -u golang.org/x/text go: finding golang.org/x/text v0.3.2 go: downloading golang.org/x/text v0.3.2 go: extracting golang.org/x/text v0.3.2 $ cat go.mod
                          Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO
                        • 文字の表現力が増すおすすめの記号5選 |プレゼンデザイン

                          文字の表現力を高めるうえで、ぜひ押さえておきたいのが記号です。記号なら図形など別の要素に頼らなくても、テキストだけでターゲットの視線を引きつけたり、情報の構造を柔軟に表すことができます。プレゼン資料作りで便利な記号を5つ紹介します。

                            文字の表現力が増すおすすめの記号5選 |プレゼンデザイン
                          • ロシアで使われるキリル文字が文字化けした時に使えるフローチャート

                            ロシアで使われるキリル文字はアルファベットの一種ですが、英語で使われるラテン文字とは形が異なるため、ウェブ上では2バイト文字で使われることが多く、そのため文字コードの違いで文字化けが生じてしまうことがよくあります。以下のフローチャートを見れば、キリル文字がどんな感じに文字化けしてしまっているのかを判断することができます。 https://vault.pmpc.ru/vf/16011417/6a7b205721142511253e4d581.png 「кракозябры(ワニ)はどのように見えますか?」という質問からスタートし、どのような文字に変換されるかを確認します。ほとんどの文章が「╬╤╪」のような記号(赤枠)で表示された場合はKOI8-RをCP 866に修正すればOK。 文字と記号が混ざって出現する場合、記号に「п」と「я」の文字が含まれればUTF-8からKOI8-Rに、記号に混ざっ

                              ロシアで使われるキリル文字が文字化けした時に使えるフローチャート
                            • ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

                              ストリーム処理におけるApache Avroの活用について (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) 株式会社NTTデータ 技術開発本部 関 堅吾(Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ) https://oss.nttdata.com/techconf2019/Read less

                                ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
                              • Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum

                                はじめに Unicode の White_Space(Zs) カテゴリ Java における trim と strip はじめに 通常目にするスペースには、半角スペース と全角スペース   があるが、Unicode の定義上でスペースに分類されるものは(Unicodeのバージョンによっても異なるが)18種類存在する HTML で良く目にする文字実体参照の   は、このスペースでの改行を禁止(No-Break)するもので、半角スペースとは異なる Java の String.trim() でトリムされるスペースは、半角スペース U+0020 Java の String.strip() の場合は、ほとんどのスペースがトリムされるが、No-Break なスペースはトリムされない(つまり   なスペースはトリムされない) Unicode の White_Space(Zs) カテゴリ

                                  Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum
                                • Decoding UTF8 with Parallel Extract

                                  Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                                  • Unicode Utilities: Description and Index

                                    Boundaries Breaks Demonstrates different boundaries within text. Enter the sample text. Pick the kind of boundaries, or hit Test. Regex Shows transformation of (Java) Regex pattern to support Unicode. Enter the regex pattern Change the sample text if desired. Click Show Modified Regex Pattern You'll then see the modified pattern. It will often be much larger, but any reasonable Regex engine will c

                                    • List of Emoji

                                      Emojis are small picture-like symbols that can add context and emotion to written text. They are about the same size as a letter that can be typed, but unlike alphanumeric characters, they are usually depicted in color, and their meaning is often open to interpretation. The word emoji comes from combining the Japanese words for picture and character. The first emoji characters, introduced in the 9

                                      • 文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)

                                        文字コードの異なるページへのPOSTって悩ましいですよね。 具体的には、こちらのサイトがUTF-8で作られていて、相手先がShift_JISだったりする場合。 そもそも相手サイトにPOSTしなきゃいけない理由とは SPAMサイトじゃあるまいし、普通は自サイト以外へのPOSTってあんまり考えられないかも知れません。 でも、実際はあるんです。例えばECサイトが良い例。 「ご購入ありがとうございました。決済手続きは次の画面でお願いします。」 みたいなの。 いまどきそんなの古いよーという方もいらっしゃるかも知れませんが、きっとそれは大手の通販サイトを使用されていることが多いからでしょう。ショッピングモールにさえ出店しない、個人商店レベルのサイトではこんなのいっぱいあります。 中の人いわく、「個人経営のショップサイトでクレジットカード番号を入力するのは怖いというお客様がいらっしゃる」とか。なるほど、

                                          文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)
                                        • MySQL 8.0.24 の文字コードまわり - tmtms のメモ

                                          2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。 まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c

                                            MySQL 8.0.24 の文字コードまわり - tmtms のメモ
                                          • TechCrunch

                                            The company produces plant-based ingredients from raw microalgae biomass, generated from spirulina or chlorella, that it claims is more nutritious than meat. Swiggy plans to raise $1.25 billion in an initial public offering and has secured approval from its shareholders, the Indian food delivery and instant commerce startup disclosed in a filing to the loc

                                              TechCrunch
                                            • Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する

                                              "testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。 ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

                                                Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する
                                              • GoでBOMを考慮したio.Readerを扱う - Qiita


                                                GoBOMUTF-8 ExcelCSV UTF-8 () (.csv)CSV ExcelUTF-8BOMUTF-81 BOM(Byte Order Mark) BOM(Byte Order Mark)UnicodeUTF-8UTF-16 Wikipedia BOMBOM
                                                  GoでBOMを考慮したio.Readerを扱う - Qiita
                                                • 右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】


                                                  CEDEC20232023823825825   FORSPOKEN  TEXT /  EDIT /  
                                                    右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】
                                                  • Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。

                                                    Appleのメールアプリで送信するメールをチェックし文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応しています。詳細は以下から。 LetterFixはmacOSのデフォルトのメーラーであるメールアプリ(Mail.app)で作成したメール中のUnicode文字のチェック&必要に応じて文字の置換を行うとともに、日本国内で一般にメールのやり取りに用いられているISO 2022-JPエンコーディングで送信に設定し文字化けを防止してくれるプラグインですが、このLetteFixが2020年秋にリリースされるmacOS 11 Big Surのメールアプリに試験的に対応しています。 /Users/(ユーザ名)/Library/Mail/Bundles/ #プラグインのインストールディレクトリ macOS 11 Big Surに対応しているのはLette

                                                      Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。
                                                    • 絵文字の日本語読み辞書をUnicode 12.0対応に更新しました

                                                      以前に公開した「Unicode絵文字の日本語読み/キーワード/分類辞書」ですが、Unicode 12.0が公開され絵文字も追加されたので、辞書を更新しました。 前回の記事:📙Unicode絵文字の日本語読み/キーワード/分類辞書📙 - Out-of-the-box 🔖 リリース Githubレポジトリの20190726リリースからダウンロードするか、現在masterブランチに含まれている各種ファイルを利用ください。 Release 20190726 · yagays/emoji-ja 前回からの変更点は以下の通りです。 - [update] Unicode 12.0の新しい絵文字を追加 - [update] Unicode 12.0で変更されたグループ名/サブグループ名の翻訳を更新 - [fix] サブグループ名において、スペース区切りをハイフンに変更 (e.g.動物 鳥類→動物-鳥

                                                        絵文字の日本語読み辞書をUnicode 12.0対応に更新しました
                                                      • 新しい絵文字「Unicode Emoji 13.0」決定 タピオカミルクティーやフォンデュなど62種


                                                        Unicode ConsortiumUnicode Emoji 13.0  62910使 姿 advertisement  Android GoogleCEO iOS Apple   Twitter  
                                                          新しい絵文字「Unicode Emoji 13.0」決定 タピオカミルクティーやフォンデュなど62種
                                                        • 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)


                                                          Python PythonencodedecodeUTF-8Shift_JIS Python使   encodedecode使 UTF-8ASCIIShift_JIS 
                                                            【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)
                                                          • めくるめくEmojiの世界/emoji-world

                                                            Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything

                                                              めくるめくEmojiの世界/emoji-world
                                                            • 文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.

                                                              本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解する データ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか? これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。 UnicodeとUTF-16は別物 ~符号化文字集合と符号化形式について~ 若い情報処理系の技術者に対して、「代表的な文字コードって何?」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合

                                                                文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.
                                                              • なんとかしてくれるゼロ幅スペース


                                                                 Windows  IME  F5   Windows 10  Micorsoft IME  IME  ( )  C# 200B 使 使使使 Twitter  ASP.NET   使  F5 
                                                                  なんとかしてくれるゼロ幅スペース
                                                                • Intl.MessageFormat Introduction | ドクセル

                                                                  Web Developer working on @kintone at @cybozu. Loves JavaScript and Curry! 🍛 Old slides: https://www.slideshare.net/teppeis/presentations

                                                                    Intl.MessageFormat Introduction | ドクセル
                                                                  • GitHub - unicode-org/cldr: The home of the Unicode Common Locale Data Repository

                                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                      GitHub - unicode-org/cldr: The home of the Unicode Common Locale Data Repository
                                                                    • Zalgo text - Wikipedia

                                                                      A Zalgo-text effect applied to the words "ZALGO TEXT" Zalgo text, also known as cursed text due to the nature of its use, is digital text that has been modified with numerous combining characters, Unicode symbols used to add diacritics above or below letters, to appear frightening or glitchy. Named for a 2004 Internet creepypasta story that ascribes it to the influence of an eldritch deity, Zalgo

                                                                        Zalgo text - Wikipedia
                                                                      • [7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita

                                                                        やりたいこと Windows英語環境を使用している Windows日本語環境で圧縮されたzipファイルを回答すると、日本語ファイル名が文字化けする 文字化けしてしまったファイル名を修復するソフトもあるが、解凍時点で正しく解凍したい 会社支給PCの環境でありなるべく新しくソフトをインストールしたくない 日本同士でもWindowsーMac, Linuxでも同じ現象が起こる様子 Mac, Linuxでの解決方法は情報豊富 また、一部の情報では7zipが自動的にエンコードを判別してくれるとのこと しかし、私のWindows英語環境ではうまく機能せず 他にWindows英語環境でできる方法を探してみたものの、日本語情報がなかったので記事化 環境 Windows10 (英語環境) 7zipコマンドライン版(7-Zip Extra 19.00) 原因 日本語版Windowsでは圧縮時にShift-JIS

                                                                          [7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita
                                                                        • MySQLの文字コード変更


                                                                          MySQL5.78 utf8mb4  MySQL # MySQL mysql -u root -p # DB mysql> use hogehoge; #  mysql> show variables like "chara%!"(MISSING); #  +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_clie
                                                                            MySQLの文字コード変更
                                                                          • CyberChef のオペレーションめも - setodaNote

                                                                            2021-02-08 CyberChef について34個のユースケースをまとめた記事が紹介されていました。 ひとつひとつ試していて改めて CyberChef 面白いなぁと思った操作についていくつかメモしました。 処理の制御 Fork Merge Label Jump Conditional Jump バイナリ操作 Swap endianness Take bytes Disassemble x86 Remove null bytes To Hexdump From Hexdump Microsoft Script Decoder 圧縮・展開 Raw Inflate Gunzip Zlib Inflate Unzip URL操作 Extract URLs Extract Domains Defang URL 正規表現・文字列検索置換など Find / Replace Regular expr

                                                                              CyberChef のオペレーションめも - setodaNote
                                                                            • 旧CGIプログラム(SJIS)をUTF8へ変更する方法

                                                                              すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。 しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換 上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。 フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。 変換内容 文字コード:UTF8 改行コード:CRLF 元のファイルを置換(事前にバックアップを作成しておく) 変換手順 変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か

                                                                                旧CGIプログラム(SJIS)をUTF8へ変更する方法
                                                                              • C/C++で日本語を扱いたい - Qiita

                                                                                #include <stdio.h> #include <string.h> int main() { char str[] = "日本語サンプル"; int length = strlen(str); printf("1文字目: %c\n", str[0]); printf("長さ: %d\n", length); return 0; } このように、単なるchar型として扱うと日本語を上手く処理できない。まあ、日本語が2バイト以上で表現されているので当たり前といえば当たり前なんだけど。 そこで、C/C++で上手に日本語を処理するための方法を2通り紹介したい。 ワイド文字を使う ワイド文字は、16ビット固定長で表現される多言語文字体型のことである。 C言語では、wchar_t型を用いてワイド文字を扱うことができる。 しかし、ワイド文字を扱うには、ロケールの設定が必要である。日本語だけ扱い

                                                                                  C/C++で日本語を扱いたい - Qiita
                                                                                • HarfBuzz Manual: HarfBuzz Manual

                                                                                  HarfBuzz is a text shaping library. Using the HarfBuzz library allows programs to convert a sequence of Unicode input into properly formatted and positioned glyph output—for any writing system and language. The canonical source-code tree is available at github.com/harfbuzz/harfbuzz. See Downloading HarfBuzz for release tarballs. I. User's manual What is HarfBuzz? What is text shaping? Why do I nee