タグ

言語に関するkhwarizmiのブックマーク (4)

  • 生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ

    かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登場して以来学術論文に使われる単語のレパートリーが劇的に変わってしまった」というのを、実際に具体的なデータに基づいて示した論文です。割と短めの読みやすい論文であることと、先述したようにSNSでは頻繁に噂されていた推測を明確化したということもあり、折角ですのでこのブログで簡単に紹介してみようと思います。 Preprintあげたのでご報告!📣 ChatGPTが使いがちな英単語ってありますよね。「delve」「realm」「utilize」あたり。 (限界助教先生の記事

    生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ
    khwarizmi
    khwarizmi 2024/06/01
     RLHFRLHF  



    LLM
     
  • 最も「ありそうで存在しない漢字」は何か? - Qiita

    タイトルが全てです。 個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。 ※この記事は TSG Advent Calendar 2022 の14日目の記事です。 手法 以下の手順で「ありそうで存在しない漢字」を調べることにしました。 すでに存在する漢字を構成する部品を調査する 出現回数が多い部品どうしを組み合わせ新たな漢字を作る 構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けする スコアが最も高いものを「最もありそうで存在しない漢字」とする CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。 頻出部品を調査する UnicodeのCJK統合漢字か

    最も「ありそうで存在しない漢字」は何か? - Qiita
    khwarizmi
    khwarizmi 2023/01/02
    面白い。
  • 文献紹介におけるGoogle翻訳の使い方:論文翻訳における不自然な言い回しについて。


    Google使 21 30  yahooexcite使  google google Google21姿 Goo
    文献紹介におけるGoogle翻訳の使い方:論文翻訳における不自然な言い回しについて。
    khwarizmi
    khwarizmi 2018/11/22
    日本語→英語というより,英語→日本語の確認作業に使わせてもらっているが,こちらは文法間違っててもそれっぽい日本語が出てくるのでイマイチ感がある(専用の文法支援ソフトを買えと言われそうだが…)
  • 住所という英単語adressとaddressどちらが正しいスペルでしょうか?... - Yahoo!知恵袋


    https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1343899413  adress  d2 address adresse d1 d2dd2
    住所という英単語adressとaddressどちらが正しいスペルでしょうか?... - Yahoo!知恵袋
    khwarizmi
    khwarizmi 2018/11/08
    スゲー / 電磁波におけるTE,TM的な何か
  • 1