日本語に関するxfile314159のブックマーク (2)
-
Research部門の近江崇宏です。 今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM︵大規模言語モデル︶をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。 https://huggingface.co/stockmark/gpt-neox-japanese-1.4b 当社はビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっております。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ︵2023年6月まで︶も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発しました。具体的には、事前学習に用いたデータセットはCC100の
-
下記のまとめとその反応を見てちょっと気になったので。 ドイツ人の日本語の﹁ん﹂の聞こえ方は3通りある⁉ - Togetter 日本語学概論で音声・音韻の話が入っていればかなりの確率で出てくる話だと思いますし、言語学概論で音素や異音の話の時に例として触れられることも多いのではないでしょうか。 音声・音韻は専門ではありませんが、いくつか引用を紹介︵専門の方のつっこみ待ちです︶。 説明文として分かりやすいのは下記辺りでしょうか。 この文字︵注‥﹁ン﹂のこと︶で表される音は伝統的用語では﹁撥音﹂と呼ばれるが、よく観察すると次のようにいろいろなバリエーションがあることがわかる。 さんばい [sambai] さんだい [sandai] さんかい [saŋkai] さん [saɴ] さんを [saã.o] 次に続く音と同じ調音の位置の鼻音が現れる。後ろに何も来ないときは口蓋垂音の[ɴ]、母音や接近音が続
-
1