多くのニュースサイトはRSSも配信しています。
フリーのRSSリーダーなんかで取得することもできますが、色々加工してみたいので、直接取りにゆくことを試みました。
NHKオンラインのニュースを使わせてもらいました。
#!/bin/bash
<<_NHKニュース_
cat0 NHKニュース 主要ニュース
cat1 NHKニュース 社会
cat3 NHKニュース 科学・医療
cat4 NHKニュース 政治
cat5 NHKニュース 経済
cat6 NHKニュース 国際
cat7 NHKニュース スポーツ
cat2 NHKニュース 文化・エンタメ
cat-live NHKニュース LIVEニュース
_NHKニュース_
cate=cat0
file=`date "+%m%d%H%M"`.xml
wget http://www3.nhk.or.jp/rss/news/${cate}.xml -O- > ~/nhk/$file
実行すると、実行時刻に応じたファイル名($file)を付けて所望のフォルダーに保存されます。
恥ずかしながらRSSって下図のようなxml形式で書かれているというのは、今回初めて知りました。
# m h dom mon dow command
*/10 * * * * /home/user/bin/getrss_NHK >/dev/null 2>&1
上記のコマンドを平のユーザーでcrontabに登録すれば(sudoである必要はない)、10分毎のRSSが自動的に取得されてファイルに保存されます。