![日本語は外国人話者にとって難しすぎるので、新しい簡易日本語「Japhalbet」をAIに作ってもらった(CloseBox) | テクノエッジ TechnoEdge](https://cdn-ak-scissors.b.st-hatena.com/image/square/ee98815498951dd693e3cddef1f6716eaf90c4a2/height=288;version=1;width=512/https%3A%2F%2Fwww.techno-edge.net%2Fimgs%2Fogp_f%2F17978.png)
かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登場して以来学術論文に使われる単語のレパートリーが劇的に変わってしまった」というのを、実際に具体的なデータに基づいて示した論文です。割と短めの読みやすい論文であることと、先述したようにSNSでは頻繁に噂されていた推測を明確化したということもあり、折角ですのでこのブログで簡単に紹介してみようと思います。 Preprintあげたのでご報告!📣 ChatGPTが使いがちな英単語ってありますよね。「delve」「realm」「utilize」あたり。 (限界助教先生の記事
まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション
==== 追記 ==== 書いた直後に全然反応がなかったのに、今見たら色々コメントがついていて驚きました。 ブコメを読んだら、結構な数の人が怒っていて、私の中の善良な市民感覚が、「悪いことをしてしまった」という後悔の念を自然と抱かせましたが、落ち着いて考え直してみると、別にそう悪いわけでもないなという気もしています。とりあえず、これが率直なところです。 色々とコメントをもらったので、いくつか返答します。 ・「不快」で他人の発言を抑圧しようとするのを表現規制って言うんじゃなかったっけ ・自分の意思にそぐわないからと言って他人の言動を制限しようという発想かー。上手くいきそう? ・自分の不快感のために他人の自由を制限できると思ってるんかな ・不快に思うのは勝手だが、人の発話の自由を制限しようとするのは何様のつもりだろうと思うし、方言の利用を咎めることも更に最悪って感じがする(私は方言コスプレをポ
思いついたところ+ちょっと調べた範囲で。 他にあったら適宜追加します。 単語元の単語備考サボるサボタージュ(sabotage)前方一致ダブるダブル(double)発音一致ハモるハーモニー(harmony)前方一致ググるグーグル(google)ググレカスパニクるパニック(panic)後方追加ディスるディスリスペクト(disrespect)前方一致ミスるミス(miss)後方追加トラブるトラブル(trouble)発音一致デコるデコレート(decorate)前方一致メモるメモ(memo)後方追加バズるバズ(buzz)後方追加スペるスペランカー(spelunker)前方一致 発音一致:単語と元の単語の発音が一致している 前方一致:元の単語の後方が省略され「る」が付加されている 後方追加:元の単語にそのまま「る」が付加されている =========以下追記分========= ブコメとコメントから拾い
サービスURL https://lab.ndl.go.jp/ngramviewer/ 概要 OCRによって作成されたテキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙することができるサービスです。 可視化グラフの縦軸は、年代ごとにキーワードが何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。 2023年1月現在の対象は、国立国会図書館デジタルコレクションで提供されているデジタル化済み資料のうち、図書約97万点及び雑誌約132万点のOCRテキストデータから集計した、約17億種類のキーワードです。 具体的な内訳は次の通りです 図書及び雑誌約230万点(約17億種類のキーワード) 図書約97万点(約8.5億種類のキーワード) 雑誌約132万点(約8.9億種類の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く