<b><fo
nt size=+1>
という行がここにしかないようなので、
簡単のためにこれを利用してこの行を取得し、
その次の行も getline で取得することにします。
不要なタグ部分は、sub() で削除します。
●getline: 現在の入力行の次の行を読みこんで
それを新たな現在行とし $0 等に代入する。
読み込みに成功すると 1, ファイルの最後に達した場合は 0,
読み込みに失敗したら ##### タイトルや日付の取得 ##### (ARGIND == 1 && $0 ~ /<b><font size=\+1>/){ sub(/.*<b><font size=\+1>/,"") sub(/<\/font><\/b>.*/,"") title=$0 getline sub(/.*<small> - /,"") sub(/<\/small>.*/,"") date=$0 }正規表現は
/ /
で囲んで指定します。
+
は正規表現では特別な意味 (1回以上の繰り返し) を持ちますので、
\
でエスケープする必要があります。
また、.*
という正規表現は、
.
= 任意の1文字
.*
= 任意の1文字の 0 文字以上の繰り返し
ということで、
すなわち﹁空文字列も含む任意の文字列﹂ということを意味しています。
よって、例えば sub(/<\/small>.*
/,"")
は、
</small>
とその後につながる任意の文字列を、
空文字列 ""
に変換
することを意味します。