kzhr's diary

ad ponendum

NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう

この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。

adventar.org

はじめに

国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学(技術)向けです。

OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション(以下NDC)で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し、適当な語数で集計をできるようにしたNDL Ngram Dataset(以下NND)というデータがあり*1、今回はそれを検索できるようにしたNDL Ngram Viewer(以下NNV)を使います。

lab.ndl.go.jp

n-gramとは


n-gramnn1-gram2-gramNND15-gram5-gram*2

NND196019908.58.98.3*3

n-gramn-gram GoogleWebN/NND

NDL Ngram Viewerについて

NNVはNNDの検索インタフェースで、複数検索や正規表現検索を実現することにより、NNDをかなり自由に調べることができるものです。たとえば、「お入り用」から「ご入り用」へどのように取って替ったのか、正規表現を使った検索キーワード「[おご]入り?用」でかんたんに調べることができます*4

「お入り用/ご入り用」の交替

その他の検索例はNNVの冒頭に説明があるのでそちらをご覧下さい。操作の説明はNDL Ngram Viewer | NDLラボにあります。また、ここでは正規表現についての解説はしませんので、ウェブページやつぎの本などで学んでいただければ。

ci.nii.ac.jp

条件表現の接続助詞の変遷を見てみる


NNV使NND (BCCWJ) NNDn-gram*5

調

lab.ndl.go.jp



1940調194519231968使
*6
NDL*7

NDL調*8NNV/Ngram:
調

*9調
調20101860調
CSVn-gram

調NDC
NDL Ngram Viewer
使

NND

([](|))|([]?|)|[]

lab.ndl.go.jp



5
*102024/1/24n-gramCSV調

:

4.0e-54.0×10-5(=0.00004)Excel
OCR*11NDV

「から」「ので」の変遷を見てみる

この要領で、「ですます」体における、「から」と「ので」との移り変りを見てみたいと思って、「[でま]す(から|ので)」と入れてみると…:

lab.ndl.go.jp

とのように空白になってしまいます。これは、「負荷対策のため、接頭及び接尾が両方とも正規表現で記述されたクエリは受け付けません。(受け付けない例:「.*テスト.*」) 」とあるものにまさに該当してしまっている例です。あきらめて、「です(から|ので)」と「ます(から|ので)」とのようにどちらかで検索を分割するしかありません。なお「です(から|ので)」の結果はつぎのようなものです。

「ですから」・「ですので」の検索結果(頻度調整済)

近年の「から」と「ので」の入替りはここではあまり見られないようですね。

おわりに

検索例にも上っている「私を.{2,3}にする」など、NNVはいろいろな使い方をすることができます。最長で5-gramなので、複雑な検索はもとよりできませんが、「.{2,3}へ行」などのように、かんたんな格の使いかたであれば問題なく調べることができます。

たんにNDCで未報告の用例を延々と探したり、単語や表記の移変りを見たりするだけでも面白いものですが、もうちょっと複雑なことも考えられるというご紹介でした。


*1:

*2:

*3:NDC/

*4:?

*5:

*6:

*7:

*8:R | PPT

*9:NND

*10:

*11:??

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く


7 

adventar.org

1130西XML

www2.ninjal.ac.jp

XML


西


西西

西西西西830



調





退*1 退

dl.ndl.go.jp
dl.ndl.go.jp
dl.ndl.go.jp *2



9

1942

「当時の日本語を理解する上で、ほかにはない情報を提供してくれる」ってどういうのかなあというのが気になったのです。「ほか」の言語資料との違いというのでしょうか。

  # (@yearman) 2021128
 

訓点資料じゃないと分からないこと、第1位は片仮名や漢字の音読みの変化ですね…… これはほかに代えがたい
2位は音便などの変化が訓点資料のほうがあらわに出ることがあります
3位は、訓読の漢語と和語の対応の変化が実地に分かるのは字書では得られないことでしょうね

 Kazuhiro hokkaidonis (@kzhr) 2021128
 


https://catalog.lib.kyushu-u.ac.jp/image/iiif/820/1563919/482090.tiff/full/1000,706/0/default.jpg
西

西



沿


西XML






XMLXMLXML

使使

p
西274 


<?xml version="1.0" encoding="UTF-8"?>
<text>
  <body>
    <article>
      <p>
        <quotation>
          <s><hodoku></hodoku><betsuhitsu type="surikeshi">
                <kanaten></kanaten>
              </betsuhitsu>
              <betsuhitsu type="surikeshi">
                <okototen>こと</okototen>
              </betsuhitsu><betsuhitsu type="surikeshi">
                <okototen></okototen>
              </betsuhitsu>
            <period position="left"></period>
          </s>
        </quotation>
      </p>
    </article>
  </body>
</text>

XMLHTML

<text>HTML<html>12<body><quotation>

<quotation><s><okototen><kanaten><period><betsuhitsu>*3<betsuhitsu>type<hodoku>

XML<kanji>





<mute>XML


沿<mute>XML

TEI

TEIXML

TEITEITEI


*1:福岡時代の斯道文庫については、最近、よい記事が出ています。 chutetsu.hateblo.jp

*2:本書の訓点に最初に着目したのは、大矢透氏の次の書です。 dl.ndl.go.jp 春日氏も、本書を問うまえに、一度論文を書いているようですが、未見です。 https://dl.ndl.go.jp/info:ndljp/pid/1261799/333

*3:なぜbeppitsuじゃないんでしょうね?

文献系研究者にはとくにおすすめな日本語のDH系サマースクール

講師に知っているひとがいるだけでとくだんイベントとは関係がありませんが、とくに文献系研究者は騙されたと思って受けても損はないと思います。ぜひぜひ。

connectivity.aa-ken.jp

本が出ます(4)


kzhr.hatenadiary.jp
kzhr.hatenadiary.jp
kzhr.hatenadiary.jp


https://bibdb.ninjal.ac.jp/SJL/view.php?h_id=1480750810

オンラインで見られる平家物語諸本


*1ARC2

   4便

*1:具体的には、系統の立て方として諸本論とのつきあい方を参考にしました。諸本の分類には、大津ほか編『平家物語大事典』を参照しています。

続きを読む

天草平家と天草伊曾保の画像・翻刻対照HTMLを作る

突然謎の感情をあらわにすると、日本語史の講読で、講読資料の翻刻を作ったり、翻字したりするのも学習のうちだろうと頭のなかで煩悶が駆け巡るが、それは自分が興味を持ってぶち当たってからでいいというのが昨今らしく、まだ30代半ばなのに隔世の感を覚える。それはさておき、そのような時代背景もあり、天草平家と天草伊曾保については、国語研がありがたくも画像と翻刻を公開してくれているので、標記のものを作ろうと思い至った。(なお、本記事で用語解説は基本的にしない。)

続きを読む