2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ
綾塚 祐二 @ayatsuka_yuji 念のため補足。「デザインの敗北」だと「『デザイン』は悪くない/良いのに、他の要素に負けた」と解釈する/される余地がありますが、これは「ここに(男性用)トイレがあることを示す」という本来果たすべき機能が弱く他の施策が必要になっているので、「デザイン(設計)がよくない」というべきなのです。 2023-09-27 00:03:11 綾塚 祐二 @ayatsuka_yuji さらに補足。例えば設計(デザイン)した蓋が(加工のミスなどでなく)きちんと締まらないものだったらそれは「設計ミス」と言われます。この(元の)トイレのサインも「機能として不十分」という点でそれに類するものです。それゆえ(婉曲的な表現でなく明確に)「デザインがよくない」と評価されるべきです 2023-09-27 10:46:45
前回の概要編では、じっくりとGB18030-2022の表紙を見ながら、中国におけるGBの定義、GB18030規格改定の概要、製品への搭載義務などについて解説しました。今回は、いよいよ表紙をめくって更新された内容について詳しく解説していきます。 漢字はとにかく多いGB18030-2022の規格書の実物を見ると、まずその厚みに圧倒されるでしょう。700ページを超えるページをパラパラとめくってみてわかるのは、本文はわずか8ページ程度で、残りのほとんどは付属書である長い文字コード表ばかりです。 文字コードの国際標準としてISO/IEC 10646があります。そして業界規格のUnicodeとおおむね互換しています。一方でGB18030は中国独自の規格です。GB18030は策定当初から国際標準の存在を意識して設計され、膨大な量のコードポイント(符号位置)と、各文字コードを相互変換するための対応表を用意
パブリッシャーFocus Entertainmentは9月6日、パズルアドベンチャーゲーム『Chants of Sennaar』を配信開始した。対応プラットフォームはPC(Steam)/PS4/Xbox One/Nintendo Switch。本作にはさっそく高評価が寄せられ、Steamユーザーレビューにおいて「非常に好評」のステータスを獲得している。 『Chants of Sennaar』はパズルアドベンチャーゲームだ。本作の世界観は、人々の言語が分かたれる伝承「バベルの塔」に影響を受けている。舞台となるのは人々がもはや言葉を交わさなくなったとされる古代の世界。その一方で、「いつの日かひとりの旅人が人々の調和を取り戻す知恵を見い出すであろう」という言い伝えが残されている。プレイヤーは、色彩豊かに描かれた古代都市を旅しながら、人々が用いる古代言語や世界の謎と真実を解き明かしていく。 本作で
アルメニア出身で米サンフランシスコ在住の開発者であるAsh Vardanian氏は、Python/C/C++向けライブラリ「StringZilla」のバージョン1.1.3を8月31日(現地時間)に公開した。StringZillaはApache 2.0ライセンスと3条項BSDライセンスで公開しているオープンソース・ソフトウェア。ユーザーはどちらかのライセンスを選んで利用できる。 StringZillaは、大規模な文字列データを単語ごとに区切ったり、区切った単語をソートするなどの機能を提供している。StringZillaの最初のバージョンであるバージョン1.0.0が公開されたのは2023年7月13日。それに先立ってVardanian氏が公開したブログポストでは、StringZillaの基本的な考え方を解説している。 StringZillaは、長い文字列が対象であっても最初の4文字が合致していれ
表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。 やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行がそれぞれ拡大表示される」機能が追加された、というものです。(最近はシステムを他の人に作っていただくこともありますが、今回は表示システムの部分は全部自分で作っています) SAT大蔵経DBはこちらです。 そして、この位置合わせを行うにあたって、NDL古典籍OCRで生成したテキストデータが非常に役立った、ということなのです。 例として、以下のURLで表示可能な経典を用いてみます。 21dzk.l.u-tokyo.ac.jp 先に具体的な使い方をご説明しますと、今回、下記のところに新たにチェックボックスが2つ追加されました。 たとえば、上記のように「宮内
時は2023年、夏。中国の文字界隈でもっともホットな話題は、新しいGB 18030-2022の施行でしょう。 みなさんも、いよいよGB 18030-2022が2023年8月1日より施行されるという話を聞いたことがあるかもしれませんが、実際にどのような内容で私たちにどのような影響があるか、ご存知ない方もいらっしゃることでしょう。 そこで、GB 18030-2022について概要編と詳細編の2回に分けて解説していきます。 今回はGB 18030-2022の概要編として、中国から入手した本物のGB 18030-2022の規格書の表紙をじっくり見るところから、解説を始めたいと思います。 GB 18030-2022の表紙 そもそもGBってなに?GB 18030の話題を始める前に、そもそも「GB」とはなにかについて簡単に解説しておきましょう。GBとはズバリ、中国の国家標準[※1]のことです。日本の規格で
ただし、GPT-4と比較すると安価にはなっていますので、性能比較をしながら良い塩梅を探すとコスト的にメリットがある可能性があります。 また学習のコストですが、以下のように学習データ全体のトークン数 x エポック数という形で費用が掛かるので注意が必要です。 (エポック数は後述するようにパラメータとして指定可能です) For example, a gpt-3.5-turbo fine-tuning job with a training file of 100,000 tokens that is trained for 3 epochs would have an expected cost of $2.40. 公式ページは以下となりますので、併せてご確認ください。 レート制限 fine-tuningのレート制限については、以下に記載があります。 fine-tuningについては以下のように
pictBLandとpictSQUAREに対する不正アクセスがあり、パスワードがソルトなしのMD5ハッシュで保存されていたことが話題になっています。 2023年8月16日に外部のフォーラムにpictSQUAREより窃取した情報と主張するデータ販売の取引を持ち掛ける投稿が行われた(中略)パスワードはMD5によるハッシュ化は行われているもののソルト付与は行われていなかったため、単純なパスワードが使用されていた29万4512件は元の文字列が判明していると投稿。(それ以外の26万8172件はまだMD5ハッシュ化されたままと説明。) 不正アクセスによるpictBLand、pictSQUAREの情報流出の可能性についてまとめてみた - piyolog より引用 これに関連してMD5ハッシュやソルトに関するツイート(post)を観察したところ、どうもソルトの理解が間違っている方が多いような気がしました。
Published 2023/08/12 16:22 (JST) Updated 2023/08/12 16:29 (JST) 漢字にもっとふりがなを振って―。子どもや外国人が漢字を読みやすくするために、ウェブサイトや出版物、案内板の漢字にふりがなを振るよう出版社や自治体などに働きかける活動を、オンライン証券大手マネックスグループの松本大代表執行役会長が始めた。活動を担う「ルビ財団」を5月下旬に立ち上げ、2年間をめどに1億円の私財を投じて集中的に活動する。 財団は、ふりがなを意味する「ルビ」から名付けた。ウェブサイト上でボタンをクリックすれば、文脈に応じて漢字に自動でルビを付けたり消したりできるソフトを開発し、年内に自治体などへの無償配布を始めることも計画している。
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く