青空文庫形態素解析データ集

解析データ説明

本サイトの解析データは、主に﹁MeCab﹂﹁NAIST-jdic﹂﹁textsearch_ja﹂をデフォルト状態のままで利用して作成しております。解析データそのものには列名は含めておりません。解析データCSVの4列目以降は、textsearch_jaのja_analyzeの結果をそのまま出力しています。 3列目までの﹁file﹂﹁row﹂﹁num﹂は以下のような条件で付与しています。

file

解析データの青空文庫上でのHTMLファイル名を行毎に付与しています。作品毎に解析データをダウンロードした場合はあまり必要ない列かもしれませんが、一括ダウンロードで取得した解析データの場合、本列がなければ、どの行がどの作品の解析結果なのか判断することができません。解析対象データ一覧のCSV最終列にも本列を付与していますので、検索・結合等に合わせてご利用ください。

row

解析対象データである青空文庫の作品を、一定の条件で行分割し、作品別かつ行毎にカウントした数値を付与しています。一定の条件とは、以下のようになります。 ●元のデータに改行タグ(<br />)がある箇所 ●カギ括弧の閉じがある箇所(﹂もしくは﹄) ●句点(。)がある箇所 ●ただし句点とカギ括弧の閉じが連続している場合(。﹂もしくは。﹄)は句点では行分割しない

num

row毎に、形態素をカウントした数値を付与してます。﹁文の前半ではどのような単語が使われる傾向にあるのか﹂﹁特定の単語の前後ではどのような単語が使われる傾向にあるのか﹂といった分析での利用を想定しています。

解析対象データ一覧について

解析対象データ一覧のCSVは、青空文庫の「公開中　作家別作品一覧拡充版：全て」を基に、
解析対象データの行のみ抽出し、最終列にファイル名を付与した形式となっています。