[10ページ] unicodeの人気記事 424件 - はてなブックマーク

361 - 400 件 / 424件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

unicodeの検索結果361 - 400 件 / 424件

mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src
- 4 users
- github.com/php
- テクノロジー
- 2022/04/06
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- PHP
$mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src$
Unicodeで半角全角を扱う Ambiguous（曖昧さ）とUncertainty（不確実性）の恐怖 - Qiita
- 4 users
- qiita.com/Nuits
- テクノロジー
- 2020/08/02
Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。東アジア圏かどうか？をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。さて、ここまでが基本です。ここから先が闇です。闇の始まりさて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が
- font
闇の絵文字😈に対する防衛術 - Qiita
- 4 users
- qiita.com/surai_uni
- テクノロジー
- 2019/12/17
はじめにこの記事は闇の魔術に対する防衛術 Advent Calendar 2019の15日目の記事です。 ♰闇の絵文字♰ 絵文字というものはとても便利なもので、自らの感情を言葉ではなく1文字分の絵🖼で表現することができます。しかし......🤔🤔🤔 文章を解析する時に邪魔😡 なんです。どゆこと❓ Python🐍などを利用して文章解析をする場合、前処理という文章📝を使いやすい形に整える作業をする必要があります。解析の際に文章中に絵文字があるとあの忌々しい🤢Errorが降臨してしまいます😈 以前擬似しゅうまい🍽のようなものを作った際にはこのエラーに大変悩まされました😱 世界🌎を滅ぼさんとする絵文字から身を守る術👊 この世界を破壊💣し滅ぼそうとする絵文字たちから身を守る術はひとつ☝️ "力"です👊👊👊 絵文字をちぎっては投げちぎっては投げを繰り返せるほど
- emoji
- python
- tips
変体仮名を使える「Android 15 Beta 2」が公開～「プライベートスペース」なども追加／今秋にも正式リリース
- 4 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/05/21
- Android
So Long Surrogates: How we moved to UTF-8 in Haskell
- 4 users
- www.channable.com
- テクノロジー
- 2022/04/28
We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this
- Haskell
- プログラミング
テキスト広告が文字化け→実は意図的だった？ Twitterのプロモーションが話題に【やじうまWatch】
- 4 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/04/24
Rubyだけで文字コード変換を実装する - Eggshell
- 4 users
- imaizumimr.hatenablog.com
- テクノロジー
- 2021/12/05
Ruby Advent Calendar 2021 - Qiita の5日目の記事です。こんにちは。ima1zumiです。私はRubyKaigi Takeout 2021 で Dive into Encoding というタイトルでオレオレ文字コードを作って文字コードを学ぶ話をしました。その中で、C拡張のgemとして自作文字コードの Encoding::IROHA をRubyで使えるようにしました。それがこちらです。 https://github.com/ima1zumi/encoding_iroha/ このgemを使うことで、みなさんのお手元でもEncoding::IROHAという文字コードが使えるようになります。どう作るかとかそういった話はRubyKaigi Takeout 2021のアーカイブをご覧ください。ですが思ったのです。C拡張のgemってビルド要るからめんどくさいで
- ruby
厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena
- 4 users
- nowokay.hatenablog.com
- テクノロジー
- 2020/05/10
こんな感じで都道府県別の感染者数を表示できるようにしてるわけですが、厚生労働省のフォーマットが変わってしまったのでまとめておく。 nowokay.hatenablog.com 新しいものはこれ https://www.mhlw.go.jp/content/10906000/000628667.pdf いままでのはこれ https://www.mhlw.go.jp/content/10906000/000627630.pdf いままでも連番が入るとか数値にカンマが入るとかちょこちょこ変更は入ってたのだけど、今回はデータの意味も結構かわってしまった。重症者やPCR検査数も入ったので、データとしてはよりよくなったわけではあるけど。東京のデータも都の発表値と一致するようになって、改めて都のデータをとりにいく必要がなくなったのもいいですね。ということで困ったところ「不明」・・・いままでゼロ
- article
Go 1.17からの負のruneの扱い | フューチャー技術ブログ
- 4 users
- future-architect.github.io
- テクノロジー
- 2021/08/17
こんにちは、TIGの玉木です。Go 1.17連載の4記事目です。この記事ではGo 1.17で更新があった負のruneの扱いについてです。更新自体は簡単なもので、この記事ではruneの説明から行います。この記事を書いたきっかけGo 1.17のRelsease Notes1を眺めていたらいくつかの箇所で negative rune valuesという記述があり、runeってなんだ？と気になったことがきっかけです。 runeについてこちらのseihmdさんのQiita記事がとてもわかりやすかったです。詳細はそちらの記事に任せて、この記事では簡単な紹介に留めます。コンピュータは文字を0と1のビットで表現します。例えば﹁”あ”, ”い”, “う”, “え”, “お”﹂の5種類の文字しかなければ、それぞれ﹁”000”, “001”, “010”, “011”, “100”﹂のように0と1で文字を
UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発
- 4 users
- ssabcire.hatenablog.com
- テクノロジー
- 2020/05/21
UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合（文字セット）が単一の大規模文字セットようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra
- プログラミング
- programming
Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2020/02/04
データアナリティクス事業本部の森脇です。Go言語で文字コードを変換するための方法について調べました。使用するGo言語のバージョンは1.13.6です。パッケージのインストール文字コード変換を行うために、準標準パッケージであるgolang.org/x/textを使用します。 $ go mod init example.com/moriwaki/iconv go: creating new go.mod: module example.com/moriwaki/iconv $ go get -u golang.org/x/text go: finding golang.org/x/text v0.3.2 go: downloading golang.org/x/text v0.3.2 go: extracting golang.org/x/text v0.3.2 $ cat go.mod
文字の表現力が増すおすすめの記号5選｜プレゼンデザイン
- 4 users
- ppt.design4u.jp
- テクノロジー
- 2021/11/15
文字の表現力を高めるうえで、ぜひ押さえておきたいのが記号です。記号なら図形など別の要素に頼らなくても、テキストだけでターゲットの視線を引きつけたり、情報の構造を柔軟に表すことができます。プレゼン資料作りで便利な記号を5つ紹介します。
- HTML
- CSS
- design
ロシアで使われるキリル文字が文字化けした時に使えるフローチャート
- 4 users
- gigazine.net
- 政治と経済
- 2021/11/08
ロシアで使われるキリル文字はアルファベットの一種ですが、英語で使われるラテン文字とは形が異なるため、ウェブ上では2バイト文字で使われることが多く、そのため文字コードの違いで文字化けが生じてしまうことがよくあります。以下のフローチャートを見れば、キリル文字がどんな感じに文字化けしてしまっているのかを判断することができます。 https://vault.pmpc.ru/vf/16011417/6a7b205721142511253e4d581.png 「кракозябры(ワニ)はどのように見えますか？」という質問からスタートし、どのような文字に変換されるかを確認します。ほとんどの文章が「╬╤╪」のような記号(赤枠)で表示された場合はKOI8-RをCP 866に修正すればOK。文字と記号が混ざって出現する場合、記号に「п」と「я」の文字が含まれればUTF-8からKOI8-Rに、記号に混ざっ
- ロシア
ストリーム処理におけるApache Avroの活用について（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）
- 4 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/07/06
ストリーム処理におけるApache Avroの活用について（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）株式会社NTTデータ技術開発本部関堅吾（Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ） https://oss.nttdata.com/techconf2019/Read less
- tutorial
- Apache Avro
Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum
- 3 users
- blog1.mammb.com
- 世の中
- 2021/11/11
はじめに Unicode の White_Space(Zs) カテゴリ Java における trim と strip はじめに通常目にするスペースには、半角スペースと全角スペース　があるが、Unicode の定義上でスペースに分類されるものは(Unicodeのバージョンによっても異なるが)18種類存在する HTML で良く目にする文字実体参照の   は、このスペースでの改行を禁止(No-Break)するもので、半角スペースとは異なる Java の String.trim() でトリムされるスペースは、半角スペース U+0020 Java の String.strip() の場合は、ほとんどのスペースがトリムされるが、No-Break なスペースはトリムされない(つまり   なスペースはトリムされない) Unicode の White_Space(Zs) カテゴリ
Decoding UTF8 with Parallel Extract
- 3 users
- nrk.neocities.org
- テクノロジー
- 2024/05/06
Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just
Unicode Utilities: Description and Index
- 3 users
- util.unicode.org
- テクノロジー
- 2020/12/20
Boundaries Breaks Demonstrates different boundaries within text. Enter the sample text. Pick the kind of boundaries, or hit Test. Regex Shows transformation of (Java) Regex pattern to support Unicode. Enter the regex pattern Change the sample text if desired. Click Show Modified Regex Pattern You'll then see the modified pattern. It will often be much larger, but any reasonable Regex engine will c
- あとで読む
List of Emoji
- 3 users
- yaytext.com
- テクノロジー
- 2024/05/22
Emojis are small picture-like symbols that can add context and emotion to written text. They are about the same size as a letter that can be typed, but unlike alphanumeric characters, they are usually depicted in color, and their meaning is often open to interpretation. The word emoji comes from combining the Japanese words for picture and character. The first emoji characters, introduced in the 9
- font
文字コードの異なるフォームへのPOST（UTF8 to Shift_JIS）
- 3 users
- blog.ver001.com
- テクノロジー
- 2020/02/28
文字コードの異なるページへのPOSTって悩ましいですよね。具体的には、こちらのサイトがUTF-8で作られていて、相手先がShift_JISだったりする場合。そもそも相手サイトにPOSTしなきゃいけない理由とは SPAMサイトじゃあるまいし、普通は自サイト以外へのPOSTってあんまり考えられないかも知れません。でも、実際はあるんです。例えばECサイトが良い例。「ご購入ありがとうございました。決済手続きは次の画面でお願いします。」みたいなの。いまどきそんなの古いよーという方もいらっしゃるかも知れませんが、きっとそれは大手の通販サイトを使用されていることが多いからでしょう。ショッピングモールにさえ出店しない、個人商店レベルのサイトではこんなのいっぱいあります。中の人いわく、「個人経営のショップサイトでクレジットカード番号を入力するのは怖いというお客様がいらっしゃる」とか。なるほど、
MySQL 8.0.24 の文字コードまわり - tmtms のメモ
- 3 users
- blog.tmtms.net
- テクノロジー
- 2021/05/23
2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c
- mysql
- メモ
TechCrunch
- 3 users
- jp.techcrunch.com
- テクノロジー
- 2021/09/17
The company produces plant-based ingredients from raw microalgae biomass, generated from spirulina or chlorella, that it claims is more nutritious than meat. Swiggy plans to raise $1.25 billion in an initial public offering and has secured approval from its shareholders, the Indian food delivery and instant commerce startup disclosed in a filing to the loc
Pythonのchardetモジュールが、"testあ"という文字列（UTF-8）の文字コードを"Windows-1254"だと判定する
- 3 users
- ja.stackoverflow.com
- テクノロジー
- 2020/08/18
"testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現
- Python
GoでBOMを考慮したio.Readerを扱う - Qiita
- 3 users
- qiita.com/ssc-ynakamura
- テクノロジー
- 2023/07/21
GoでBOM付きのUTF-8ファイルを扱う必要があったので、その時に知ったテクニックを共有したいと思います。具体的に言えば、Excelでファイル形式を﹁CSV UTF-8 (コンマ区切り) (.csv)﹂として保存した際のCSVファイルを扱った時の話です。︵Excelや少し前のメモ帳などでUTF-8としてファイルを保存すると、BOM付きのUTF-8ファイルになります。1︶ BOM(Byte Order Mark)とは BOM(Byte Order Mark)というのは、Unicode系の符号化方式︵UTF-8やUTF-16など︶の場合に、どの符号化方式であるかが分かるように先頭に付ける数バイトのデータのことです。より詳しい説明についてはWikipediaのバイト順マークのページなどに譲ります。このBOMというのはテキストデータの一部ではないので、プログラムで処理する時には、BOMと
右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】
- 3 users
- gamemakers.jp
- アニメとゲーム
- 2023/08/31
国内最大規模のゲーム業界カンファレンス﹁CEDEC2023﹂が、2023年8月23日︵水︶から8月25日︵金︶までの日程で開催されました。最終日となる8月25日には、スクウェア・エニックスプログラマー中原勇氏が登壇し、﹁FORSPOKENでのアラビア語対応について﹂と題した講演を行いました。右から左に書かれる文章や、隣接する文字によっては表示が変わる字形など、数多くの課題に対応する具体的な手法が解説された本講演をレポートします。 TEXT / セレナーデ☆ゆうき EDIT / 神山大輝
Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。
- 3 users
- applech2.com
- テクノロジー
- 2020/08/29
Appleのメールアプリで送信するメールをチェックし文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応しています。詳細は以下から。 LetterFixはmacOSのデフォルトのメーラーであるメールアプリ(Mail.app)で作成したメール中のUnicode文字のチェック＆必要に応じて文字の置換を行うとともに、日本国内で一般にメールのやり取りに用いられているISO 2022-JPエンコーディングで送信に設定し文字化けを防止してくれるプラグインですが、このLetteFixが2020年秋にリリースされるmacOS 11 Big Surのメールアプリに試験的に対応しています。 /Users/(ユーザ名)/Library/Mail/Bundles/ #プラグインのインストールディレクトリ macOS 11 Big Surに対応しているのはLette
- Mac
絵文字の日本語読み辞書をUnicode 12.0対応に更新しました
- 3 users
- yag-ays.github.io
- テクノロジー
- 2019/07/26
以前に公開した「Unicode絵文字の日本語読み/キーワード/分類辞書」ですが、Unicode 12.0が公開され絵文字も追加されたので、辞書を更新しました。前回の記事：📙Unicode絵文字の日本語読み/キーワード/分類辞書📙 - Out-of-the-box 🔖 リリース Githubレポジトリの20190726リリースからダウンロードするか、現在masterブランチに含まれている各種ファイルを利用ください。 Release 20190726 · yagays/emoji-ja 前回からの変更点は以下の通りです。 - [update] Unicode 12.0の新しい絵文字を追加 - [update] Unicode 12.0で変更されたグループ名/サブグループ名の翻訳を更新 - [fix] サブグループ名において、スペース区切りをハイフンに変更 (e.g.動物鳥類→動物-鳥
- unicode
新しい絵文字「Unicode Emoji 13.0」決定　タピオカミルクティーやフォンデュなど62種
- 3 users
- nlab.itmedia.co.jp
- テクノロジー
- 2020/01/31
文字コードの国際規格を管理する団体Unicode Consortiumは、新しい絵文字﹁Unicode Emoji 13.0﹂が最終決定したと発表しました。タピオカやフォンデュが登場ホッキョクグマ、タピオカミルクティー、フォンデュなど62種が決定。新しい絵文字は通常、9月～10月に携帯電話で使用できるようになるとのこと。子どもを抱く人の絵文字には男性の姿も advertisement 関連記事 Android版ハンバーガー絵文字でチーズの位置がおかしい重大な問題が発覚　GoogleCEO﹁最優先で修正する﹂ iOS版でもレタスの位置がおかしい問題が確認されています。 Apple、不評だったベーグルの絵文字を修正　クリームチーズ入りにおいしそうになりました。 Twitter、ダイレクトメッセージで絵文字リアクションが可能に　ハートや炎などでシンプルに意思を送信絵文字は困り顔や泣き顔
【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換！（UTF-8・Shift_JIS）
- 3 users
- grapebanana.com
- テクノロジー
- 2021/11/21
Python ︻Python︼encode・decodeメソッドで、文字列⇔文字コードをかんたん変換！︵UTF-8・Shift_JIS︶ Pythonを使っていると、文字コードや文字列の変換が必要になることがありますよね。でも、文字コードって何？どうやって変換すればいいの？と疑問に思ったことはありませんか？やり方はかんたんです。﹁encode﹂メソッドと﹁decode﹂メソッドを使えば、あっという間に文字列と文字コードの変換ができるようになります！ UTF-8、ASCII、Shift_JISといった代表的な文字コードの変換プログラムもまじえて解説しています。実際にプログラムを動かすことで、どのように文字列と文字コードを変換するのか理解が深まると思います。ぜひ実際にコードを入力して動かしてみて下さいね。
- python
めくるめくEmojiの世界/emoji-world
- 3 users
- speakerdeck.com/ima1zumi
- テクノロジー
- 2021/01/31
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
- emoji
- rails
- history
- ruby
文字コードとは？~UTF-8はパソコンの世界共通語~｜データ分析用語を解説 - GiXo Ltd.
- 3 users
- www.gixo.jp
- テクノロジー
- 2020/05/17
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフより移設されました（2019/7/1） Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解するデータ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか？これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。 UnicodeとUTF-16は別物～符号化文字集合と符号化形式について～若い情報処理系の技術者に対して、「代表的な文字コードって何？」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合
- 文字コード
なんとかしてくれるゼロ幅スペース
- 3 users
- ufcpp.net
- テクノロジー
- 2021/03/21
今の Windows の IME は文字コード直打ちから F5 キーを押すことで任意の文字を入力できる機能を持っています。いつからだろう。 Windows 10 が﹁新しい Micorsoft IME﹂になってからだとは思うんですが、気が付けばそんな機能が。というか、逆に IME パッドはショートカットキーでは出せなくなった？ (右クリックメニューからの選択では出せます。) 昨日の C# ライブ配信中で、﹁200B だけはよく使う﹂とおっしゃってる方が要らっしまして。﹁ゼロ幅スペースって嫌がらせ以外の用途で使えるの？﹂、﹁あえとすさんって実用性ない黒魔術をよく使う人だっけ？﹂となって﹁どういう状況で使うんですか？﹂と聞いた結果が﹁Twitter で ASP.NET をリンクにさせない技﹂あっ… それは確かに使うわ… しかし、文字コード覚えて直打ちする手段に、 F5 なんていうわ
- article
Intl.MessageFormat Introduction | ドクセル
- 3 users
- www.docswell.com
- テクノロジー
- 2023/06/30
Web Developer working on @kintone at @cybozu. Loves JavaScript and Curry! 🍛 Old slides: https://www.slideshare.net/teppeis/presentations
GitHub - unicode-org/cldr: The home of the Unicode Common Locale Data Repository
- 3 users
- github.com/unicode-org
- テクノロジー
- 2019/10/07
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Zalgo text - Wikipedia
- 3 users
- en.wikipedia.org
- テクノロジー
- 2022/01/10
A Zalgo-text effect applied to the words "ZALGO TEXT" Zalgo text, also known as cursed text due to the nature of its use, is digital text that has been modified with numerous combining characters, Unicode symbols used to add diacritics above or below letters, to appear frightening or glitchy. Named for a 2004 Internet creepypasta story that ascribes it to the influence of an eldritch deity, Zalgo
[7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita
- 3 users
- qiita.com/DaikichiDaze
- テクノロジー
- 2021/04/23
やりたいこと Windows英語環境を使用している Windows日本語環境で圧縮されたzipファイルを回答すると、日本語ファイル名が文字化けする文字化けしてしまったファイル名を修復するソフトもあるが、解凍時点で正しく解凍したい会社支給PCの環境でありなるべく新しくソフトをインストールしたくない日本同士でもWindowsーMac, Linuxでも同じ現象が起こる様子 Mac, Linuxでの解決方法は情報豊富また、一部の情報では7zipが自動的にエンコードを判別してくれるとのことしかし、私のWindows英語環境ではうまく機能せず他にWindows英語環境でできる方法を探してみたものの、日本語情報がなかったので記事化環境 Windows10 (英語環境) 7zipコマンドライン版(7-Zip Extra 19.00) 原因日本語版Windowsでは圧縮時にShift-JIS
- ソフトウェア
- Windows
MySQLの文字コード変更
- 3 users
- hodalog.com
- テクノロジー
- 2019/11/14
MySQLを5.7から8へバージョンアップする過程で、文字コードを utf8mb4 に変更する必要が生じたため、方法をメモします。現在の状況確認↓まずMySQLに接続して、現在の状況を確認します。 # MySQLへ接続 mysql -u root -p # 変更対象のDBを選択 mysql> use hogehoge; # 文字の設定を管理している環境変数を表示 mysql> show variables like "chara%!"(MISSING); # 出力結果 +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_clie
- MySQL
CyberChef のオペレーションめも - setodaNote
- 3 users
- soji256.hatenablog.jp
- テクノロジー
- 2021/02/08
2021-02-08 CyberChef について34個のユースケースをまとめた記事が紹介されていました。ひとつひとつ試していて改めて CyberChef 面白いなぁと思った操作についていくつかメモしました。処理の制御 Fork Merge Label Jump Conditional Jump バイナリ操作 Swap endianness Take bytes Disassemble x86 Remove null bytes To Hexdump From Hexdump Microsoft Script Decoder 圧縮・展開 Raw Inflate Gunzip Zlib Inflate Unzip URL操作 Extract URLs Extract Domains Defang URL 正規表現・文字列検索置換など Find / Replace Regular expr
- CyberChef
旧CGIプログラム（SJIS）をUTF8へ変更する方法
- 3 users
- kuruma.rdy.jp
- 世の中
- 2022/08/19
すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。変換内容文字コード：UTF8 改行コード：CRLF 元のファイルを置換（事前にバックアップを作成しておく）変換手順変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か
C/C++で日本語を扱いたい - Qiita
- 3 users
- qiita.com/Kogia_sima
- テクノロジー
- 2020/10/26
#include <stdio.h> #include <string.h> int main() { char str[] = "日本語サンプル"; int length = strlen(str); printf("1文字目: %c\n", str[0]); printf("長さ: %d\n", length); return 0; } このように、単なるchar型として扱うと日本語を上手く処理できない。まあ、日本語が2バイト以上で表現されているので当たり前といえば当たり前なんだけど。そこで、C/C++で上手に日本語を処理するための方法を2通り紹介したい。ワイド文字を使うワイド文字は、16ビット固定長で表現される多言語文字体型のことである。 C言語では、wchar_t型を用いてワイド文字を扱うことができる。しかし、ワイド文字を扱うには、ロケールの設定が必要である。日本語だけ扱い
- C++
- プログラミング
HarfBuzz Manual: HarfBuzz Manual
- 3 users
- harfbuzz.github.io
- テクノロジー
- 2019/09/03
HarfBuzz is a text shaping library. Using the HarfBuzz library allows programs to convert a sequence of Unicode input into properly formatted and positioned glyph output—for any writing system and language. The canonical source-code tree is available at github.com/harfbuzz/harfbuzz. See Downloading HarfBuzz for release tarballs. I. User's manual What is HarfBuzz? What is text shaping? Why do I nee
- text
- font
- API