NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう
この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。
はじめに
国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学(技術)向けです。
OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション(以下NDC)で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し、適当な語数で集計をできるようにしたNDL Ngram Dataset(以下NND)というデータがあり*1、今回はそれを検索できるようにしたNDL Ngram Viewer(以下NNV)を使います。
n-gramとは
NDL Ngram Viewerについて
NNVはNNDの検索インタフェースで、複数検索や正規表現検索を実現することにより、NNDをかなり自由に調べることができるものです。たとえば、「お入り用」から「ご入り用」へどのように取って替ったのか、正規表現を使った検索キーワード「[おご]入り?用」でかんたんに調べることができます*4。
その他の検索例はNNVの冒頭に説明があるのでそちらをご覧下さい。操作の説明はNDL Ngram Viewer | NDLラボにあります。また、ここでは正規表現についての解説はしませんので、ウェブページやつぎの本などで学んでいただければ。
条件表現の接続助詞の変遷を見てみる
「から」「ので」の変遷を見てみる
この要領で、「ですます」体における、「から」と「ので」との移り変りを見てみたいと思って、「[でま]す(から|ので)」と入れてみると…:
とのように空白になってしまいます。これは、「負荷対策のため、接頭及び接尾が両方とも正規表現で記述されたクエリは受け付けません。(受け付けない例:「.*テスト.*」) 」とあるものにまさに該当してしまっている例です。あきらめて、「です(から|ので)」と「ます(から|ので)」とのようにどちらかで検索を分割するしかありません。なお「です(から|ので)」の結果はつぎのようなものです。
近年の「から」と「ので」の入替りはここではあまり見られないようですね。
おわりに
検索例にも上っている「私を.{2,3}にする」など、NNVはいろいろな使い方をすることができます。最長で5-gramなので、複雑な検索はもとよりできませんが、「.{2,3}へ行」などのように、かんたんな格の使いかたであれば問題なく調べることができます。
たんにNDCで未報告の用例を延々と探したり、単語や表記の移変りを見たりするだけでも面白いものですが、もうちょっと複雑なことも考えられるというご紹介でした。
『「いろは」の19世紀: 文字と教育の文化史』が出ます
先年2月に刊行された『岡田一祐『近代平仮名体系の成立 明治期読本と平仮名字体意識』(文学通信) - 文学通信』をふまえて、平易に書き下ろしたものです。どうぞよろしくお願いいたします。
西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く
西大寺本金光明最勝王経平安初期点って?
西大寺本﹃金光明最勝王経﹄は、﹁さいだいじぼん・こんこーみょーさいしょーおーきょー﹂と読みます。奈良の古刹・西大寺に伝来した、﹃金光明最勝王経﹄の写本のひとつという意味です。 この西大寺本﹃金光明最勝王経﹄︵長いので、以下単に西大寺本﹃最勝王経﹄、あるいは単に西大寺本と呼びます︶は、漢文で書かれているこの西大寺本﹃最勝王経﹄には、平安初期︵830年頃か︶に訓読して︵=日本語で読んで︶それを記した人がいて︵あとで見ますが、そういうものを﹁訓点資料﹂と言います︶、それが当時の日本語を理解する上で、ほかにはない情報を提供してくれる点で重要な資料です。 日本語の歴史を研究するということがどういうことか、じっさいにやってみないとなかなか感覚として分からないことが多いと思うのですが、言語の歴史の研究は、流れていってしまう言葉を書き留め、あるいは書き留めた資料をもとに行われます。録音ができない時代は当然のことですし、今でも音声でそのまま言語の研究をすることは難しさが伴います。 しかも、話し言葉にもっとも言葉の性質は表れるわけですが、書き留めるときに、自然と洗練させてしまって、その実相がよく分からないことが多々あります。それでも、調べたい言葉の書き言葉で書かれていればいいわけですが、文章語というものは、昔の言葉であったり、他言語であったりに基づくことが多く、知りたい通りに分からないことも多いのです。 平安初期となると、ちょうど、当時の日本語の資料そのものが少ない時代です。漢文訓読は、言うまでもなく、漢文があって、それをなんとかして日本語として読むための翻訳ですから、日本語の文章としては読めないわけですけれども、単語であったり、﹁なにガなにする﹂と言っていたのか、﹁なにヲなにする﹂と言っていたのかといった構文レベルであったりのことであれば、分からなくもありません。 なおよいことに、これは当時の手書きがそのまま伝わる資料です。﹃古事記﹄にせよ、﹃源氏物語﹄にせよ、その内容を書いたひとが紙に直接書いたものが伝わるわけではなく、後世の人々が書き写したものです。それに対して、訓点資料は、書き写す︵﹁移点する﹂と言います︶こともあるのですが、訓読したオリジナルが残っていることも多いのです。手短に言ってしまえば、書き写されたものよりも、信用がおけるというのが大きなポイントです。 本書の日本語史研究上の重要性を世に知らしめたのは、九州帝大退職後の春日政治氏が、当時福岡にあった斯道文庫*1の紀要の初号として刊行した一大研究です︵今思えば、よく、文庫に関係のないもので第一号を出しましたね? 退職後だったからなんでしょうか︶。 dl.ndl.go.jp dl.ndl.go.jp dl.ndl.go.jp *2 本書の日本語史上の価値については、くわしくは本書、またこのあとご紹介する訓読文解説書をご参照ください。 研究史的な位置づけとともに、価値を若干示しておけば、本書は、9世紀という、訓読がはじめられてからごく早い時期に、全巻にわたって、かなり詳細に読み方が記録されたものということだそうです。訓点は、ルビのようなものなので、あってもかならずしも細かくはつかないんですね。それが、全体的に付いているので、とても貴重ということです。 また、春日氏が研究を公にした1942年は、まだまだこのような訓点資料の研究が始まったばかりで、どう研究していいかも、そこまでみんな確信が持てなかった時代です。それを、こんな精密な研究として公にしたのだから、一気に研究が拓けるのも当然ということです。時節柄、すぐにとはいきませんでしたが、それでも戦後、訓点語学会が設立され、研究が加速したのはよく知られています。「当時の日本語を理解する上で、ほかにはない情報を提供してくれる」ってどういうのかなあというのが気になったのです。「ほか」の言語資料との違いというのでしょうか。
訓点資料じゃないと分からないこと、第1位は片仮名や漢字の音読みの変化ですね…… これはほかに代えがたい
第2位は音便などの変化が訓点資料のほうがあらわに出ることがあります
第3位は、訓読の漢語と和語の対応の変化が実地に分かるのは字書では得られないことでしょうね
訓点って?
リンクした西大寺本は春日氏が持っていた別の金光明最勝王経写本で訓点というものがどういうものか確認してみましょう。蛭沼氏による解説によれば、これは石山寺にあったものが、春日氏の手に渡ったものだそうです。 画像を見てみると、黒々と記された漢字に白く片仮名︵初期の形です︶や記号が見えます︵色褪せた朱の点もあるそうです︶。このような記号を﹁ヲコト点﹂、あるいは単に﹁点﹂と言います。こちらは、西大寺本とちがって、ヲコト点がまちまちです。 ヲコト点は、一般的に、助詞や助動詞をすばやく示すのに用います。訓読がはじめられた当初は、片仮名や平仮名という書きやすい文字はなく、漢字をそのまま日本語を表すのに流用していました︵一般的に﹁万葉仮名﹂と呼びます︶。いま見たように、ヲコト点を書くようなところにいちいち漢字を書いていられないので、記号を決めて書いたということです。 蛭沼氏によれば、これは﹁東大寺点﹂と呼ばれるヲコト点の取り決めに沿っているそうなので、ちょっと読んでみると︵読みやすいところを探して……︶、中央上部に﹁勤無怠﹂とあるところは、﹁勤して怠︵ヲコタル︶こと無し﹂と読みます。﹁勤﹂だけだとちょっと分かりませんが、そのまえの行の終りに﹁策﹂とあって、﹁策勤して﹂と読むのだろうと思われます。平仮名でヲコト点の解釈を記し、片仮名で振り仮名︵﹁仮名点﹂と言います︶を記すのがお約束です。このような行為を訓点研究では翻訳と称しますが、上記の資料では分かりやすさを重んじてか訓読としていますね。 ヲコト点を加えることを﹁加点﹂と言います。ちょっと戻りますが、平安初期点とは、平安初期に加点されたヲコト点ってことですね。加点は、何度もされることがあり、いつごろされた加点かを区別することも、訓練された研究者であればできるそうです。西大寺本金光明最勝王経平安初期点訓読文XMLについて
すっかり前置きが長くなってしまいましたが、本題です︵本題なんです︶。 今回公開された訓読文は、柳原恵津子氏を中心に作成されたものとのことです。 この訓読文XMLは、国立国語研究所の公開する全文検索システム﹁ひまわり﹂での利用を考えて作られたXMLデータです。XMLとは、データを体系的に記録したり、文章の一部に標識︵タグ︶を付けて、コンピューターに扱い方を注意してもらうための仕組みです。 この訓読文を使って検索するには、この﹁ひまわり﹂をダウンロードして、必要なところにデータを入れてもらえば使えるようになりますが、そちらは説明書もあることですし、省略しましょう。 さきほどの石山寺旧蔵本と同じ箇所を西大寺本で探すと、原本画像では左から2行目の7字目から、訳文では左から4行目にあります。春日氏は﹁勤︵め︶て怠ルこと無し、﹂と読んでいる箇所で、︵ ︶で括られた場所は補読といって、原文にもヲコト点・仮名点のどれにも書いてはいないけれども、読み解くうえでは補わざるを得ない文字のことを言います。ここでは、﹁勤﹂という文字に、﹁て﹂と解釈できるヲコト点が付けてあり、意味が通るように読むと﹁勤﹂は日本語で﹁つとめる﹂という動詞と考えられるので、﹁め﹂を補うべきであるということになります。 この箇所を柳原氏がどのように読んでいるかというと︵見やすさのために構造の簡略化や改行を加えてあります︶、次のようになります。<?xml version="1.0" encoding="UTF-8"?> <text> <body> <article> <p> <quotation> <s> 勤<hodoku>め</hodoku> 怠 <betsuhitsu type="surikeshi"> <kanaten>る</kanaten> </betsuhitsu> <betsuhitsu type="surikeshi"> <okototen>こと</okototen> </betsuhitsu> 無 <betsuhitsu type="surikeshi"> <okototen>し</okototen> </betsuhitsu> <period position="left">、</period> </s> </quotation> </p> </article> </body> </text>XMLは、HTMLをやったことのある方には見慣れたものかと思うのですが、木構造と呼ばれる、だんだんと情報が深くなっていく仕組みです。また、前提として、データは一次元に進んで、同時並行に進んでいったりはしないというものがあります。 ここで、
<text>
はHTMLでいう<html>
にあたり、データ全体を支配する根っこ︵ルート︶となります。本という根っこがあって、第1章・第2章という枝に分かれていくとイメージしやすいでしょうか。<body>
以上は、訓読文解説書を見ていただくとして、<quot
ation>
以下をここでは見ましょう。
タグが表す部分の意味を確認しておくと、<quotation>
は、地の文ではない︵仏の話などの︶文、<s>
は一文というのがおおまかな本文です。ヲコト点に関わるところでは、<okototen>
、<
kanaten>
、<period>
がそれぞれヲコト点、仮名点、句読点を表します。<betsuhitsu>
は、別筆といって、メインの人以外が書いたものを指します*3。<betsuhitsu>
タグには、type
属性と呼ばれる付加情報が記されており、情報を付け足すことができます。最後に、<hodoku>
は、補読を表します。
原文と見比べると分かるとおり、このXMLは、日本語で読む順番にデータができています。また、ヲコト点や仮名点には順序が記されていないのですが、これも一読意味の通ずるようにあらかじめ並べ替えがされています。ここで、返り点がついていれば、漢字を<kanji>
タグに入れてしまって記載するようですが、ここでは返り点がないので、断りなく順序が変えられているということでしょう。
その意味でこれは紛う方なき﹁訓読文﹂であって、加点のありさまを記した資料ではありません︵春日氏のものを見てもらえば分かるように、訓点研究としては珍しいことではありません︶。
さて、別筆の認定が春日氏と相違するかは私には分からないのですが、訳文には別筆の記載はとくに見られません。これは、柳原氏の検討を踏まえたものなのでしょう。春日氏の訳文の建設的批判のうえに作られた点に、この訓読文の価値があるのだろうと思われます。
なお、この例には出て来なかったのですが、﹁於﹂などのような、いわゆる不読字は、<mute>
タグの属性に組み込まれ、本文の検索から外されています。これは、﹁ひまわり﹂の制約と考えられますが、本文を属性に送り込んでしまうのは、このXMLの特徴のひとつと言えるでしょう。
原文に忠実なマークアップについて
学殖の備わった人物による、目的に沿った解読は、それはそれで素晴らしいことなのですが、<mute>
タグの設計など、原文離れのところがなくもありません。原文に見える文字・記号だけ記録したり、もうすこし原文を活かした記録をすることはXMLではできないのでしょうか。
もちろんそんなことはなく、そういうものを作るということを目的にデータを作っていけばよいことです。原文にあるものをだけを取り出そうとする行為を﹁原文に忠実な﹂と呼ぶことにすると、そのようなデータ作りの助けとなる、TEIのような取組みがあります。
TEIといった、欧米の資料を扱うXMLで、日本古来の文章が扱えるものかといった向きもありましたが、いまではそういうことを言うひともいないでしょう。古辞書についてはすでに研究したことがあります。
訳文を作る際にも、﹁ひまわり﹂を目的にしなければ、もうすこし分かりやすいデータ形式も選べたかもしれません。このような平安初期点が現状のTEIでどれくらい扱えるかは分かりませんが、TEIである必要もなければ、TEIにしても現状に捕われず拡張できる仕組みなので、なにか方策を考えればよいのでしょう。いずれ考えてみたいことです。
ちゃっかり宣伝もしたところで、これにて。
*1:福岡時代の斯道文庫については、最近、よい記事が出ています。 chutetsu.hateblo.jp
*2:本書の訓点に最初に着目したのは、大矢透氏の次の書です。 dl.ndl.go.jp 春日氏も、本書を問うまえに、一度論文を書いているようですが、未見です。 https://dl.ndl.go.jp/info:ndljp/pid/1261799/333
*3:なぜbeppitsuじゃないんでしょうね?
文献系研究者にはとくにおすすめな日本語のDH系サマースクール
講師に知っているひとがいるだけでとくだんイベントとは関係がありませんが、とくに文献系研究者は騙されたと思って受けても損はないと思います。ぜひぜひ。
本が出ます(4)
オンラインで見られる平家物語諸本
*1:具体的には、系統の立て方として諸本論とのつきあい方を参考にしました。諸本の分類には、大津ほか編『平家物語大事典』を参照しています。