segoon 17.03.2011 14:16

СкриптыОтслеживание пакетов на distrowatch

Есть такой ресурс, http://distrowatch.com/. У него есть страничка с отслеживанием некоторых популярных пакетов, http://distrowatch.com/packages.php. У этой странички есть rss, но почему-то в нём видны только 11 последних обновлений пакетов. Мне нужно иметь более длинный список, поэтому я написал группу скриптов, которые регулярно грабят rss и сохраняют в локальный файл.

~/bin/distrowatch-packages-update:
1
2
3
#!/bin/bash

/usr/bin/rsstail -n 20 -1 -u http://distrowatch.com/news/dwp.xml > ~/DW/`date +%Y.%m.%d`



crontab -l:
1
2
3
4
5
SHELL=/bin/bash
PATH=/bin:/sbin:/usr/bin:/usr/sbin:/home/vasya/bin/

# check new mail, but only at home
*/60 * * * * /home/vasya/bin/distrowatch-packages-update



В итоге в ~/DW/ образуется куча файлов с повторениями. Для получения итогового списка есть такой скрипт:

~/bin/distrowatch:
1
2
3
#!/bin/bash

cat ~/DW/* | sort | uniq



P.S. Буду признателен, если кто-то предложит аналог rsstail для примитивного отображения списка заголовков новостей. В таком случае хак с sleep + killall будет не нужен. UPD: спасибо kstep за опцию '-1'.


Тэги: bash скрипты
+ 2 -
Похожие Поделиться

kstep 17.03.2011 20:36 #
rsstail -n 20 -1 -u http://distrowatch.com/news/dwp.xml

И не надо никаких костылей.
segoon 17.03.2011 20:41 #
Забавно, в man rsstail убунты такого нет. Непорядок!
kstep 17.03.2011 21:15 #
В Дебиане, впрочем, тоже нет. За то есть в rsstail --help. Видимо маны запаздывают за развитием утильки.
kstep 17.03.2011 20:38 #
Жаль только у rsstail проблемы с утф-8 =(
rsstail -u http://ithappens.ru/rss
Корёжит заголовки не по детски =(
segoon 17.03.2011 20:43 #
iconv наше всио:
rsstail -1 -u http://ithappens.ru/rss | iconv -f cp1251
kstep 17.03.2011 21:14 #
Хм. Правда виноват =) Стормозил под вечер, не посмотрел, что оно на самом деле в вынь-1251. Спасибо!
segoon 17.03.2011 21:27 #
В интернетах я могу найти 3 кодировки с кирилицей внутри: utf-8, cp1251, koi8-r. Ещё бывают запущенные случаи, когда нужно применять iconv несколько раз.
kstep 19.03.2011 10:55 #
Это-то понятно. Только вот я уже настолько привык, что всё вокруг утф-8, что уже такие элементарные вещи начинаю лениться проверять =)