解析データ説明
本サイトの解析データは、主に﹁MeCab﹂﹁NAIST-jdic﹂﹁textsearch_ja﹂を
デフォルト状態のままで利用して作成しております。
解析データそのものには列名は含めておりません。
解析データCSVの4列目以降は、textsearch_jaのja_analyzeの結果をそのまま出力しています。
3列目までの﹁file﹂﹁row﹂﹁num﹂は以下のような条件で付与しています。
file
解析データの青空文庫上でのHTMLファイル名を行毎に付与しています。 作品毎に解析データをダウンロードした場合はあまり必要ない列かもしれませんが、 一括ダウンロードで取得した解析データの場合、本列がなければ、どの行がどの作品の 解析結果なのか判断することができません。 解析対象データ一覧のCSV最終列にも本列を付与していますので、 検索・結合等に合わせてご利用ください。row
解析対象データである青空文庫の作品を、一定の条件で行分割し、作品別かつ行毎にカウントした 数値を付与しています。一定の条件とは、以下のようになります。 ●元のデータに改行タグ(<br />)がある箇所 ●カギ括弧の閉じがある箇所(﹂もしくは﹄) ●句点(。)がある箇所 ●ただし句点とカギ括弧の閉じが連続している場合(。﹂もしくは。﹄)は句点では行分割しないnum
row毎に、形態素をカウントした数値を付与してます。 ﹁文の前半ではどのような単語が使われる傾向にあるのか﹂ ﹁特定の単語の前後ではどのような単語が使われる傾向にあるのか﹂ といった分析での利用を想定しています。解析対象データ一覧について
解析対象データ一覧のCSVは、青空文庫の「公開中 作家別作品一覧拡充版:全て」を基に、解析対象データの行のみ抽出し、最終列にファイル名を付与した形式となっています。