С тегом «wget»
Задача - авторизоваться на сайте, затем скачать страничку и обработать её скриптом на bash.
По началу я думал просто скачать страничку с помощью wget, но не тут-то было.
Есть ситуация:
Есть корпоративная сетка, где весь интернет настроен через прокси.
Есть Synaptic, который отлично качает обновления из интернета сквозь эту прокси.
И есть проблема - обновления, запущенные из командной строки не вытягиваются из интернета. Тупо не находят адрес.
Подозреваю, что apt-get использует настройки утилиты wget.
Поэтому расскажу, как ее (wget) настроить так, чтоб она по умолчанию использовала прокси.
Мама у меня работает преподавателем в детском кружке, в последнее время увлеклась изготовлением кукол, и в свободное время ищет в Интернете информацию соответствующего характера. Больше всего ей нужны картинки уже готовых кукол, для примеров. Она стала часто попадать на сайты, где есть раздел "каталог", а там бывает достаточно много моделей. Основная проблема в том, что вручную сохранять изображения, например, щелкнув по ним и выбрав в меню пункт "сохранить как..." - крайне неудобно и долго.
Была поставлена и решена задача: быстро скачать все изображения с определенного сайта (или его раздела), которая тут же стала чуть более глобальной - скачать сайт целиком. С помощью google, по этой ссылке я нашел простое и элегантное решение:
Поигрался немного с настройками MOC'а и решил забиндить несколько внешних команд (Executing external commands). Например, следующая команда нормализирует громкость выделенного файла в MOC по F4:
ExecCommand4 = "mp3gain -r -k -w -T -d 3 %f"
Для сохранения потокового аудио к себе на винт, рекомендую воспользоваться программой streamripper (http://streamripper.sourceforge.net/), уверен что в репозитариях Вашего дистрибутива он есть ;).
Сохранять будем так:
Как и обещал, модернизировал предыдущий способ загрузки, а точнее — создал скрипт для автоматизации всего этого добра.
Лежит этот скрипт здесь (bitbucket).
Использовать его очень просто:
./tget.sh имя_пользователя пароль ссылка_на_страницу_раздачи [ локальное_имя_торрент_файла ]
Надеюсь, что для кого-нибудь он окажется полезным.
Недавно столкнулся с проблемой закачки torrent-файла после перерелиза (добавления новых серий). Собственно, проблемы-то нету, но каждый раз идти на сайт и заново качать torrent-файл лениво. Хочется, чтобы было автоматически.
Полазив немного по интернету, я на одном форуме нашел решение данной задачи. Заключается оно в двух строчках:
wget --keep-session-cookies --save-cookies=./cookies --load-cookies=./cookies "http://torrents.ru/forum/login.php" --referer="http://torrents.ru/forum/index.php" --post-data="login_username=USERNAME&login_password=PASSWORD&autologin=1&login=Вход" -O logintest.html
Здесь USERNAME и PASSWORD — имя пользователя и пароль на torrents.ru, ./cookie — имя файла, в который будут сохраняться куки, logintest.html — скачанная главная страничка по которой можно проверить, удался логин или нет.
А дальше все еще проще:
wget --keep-session-cookies --load-cookies=./cookies TORRENT_URL -O FILENAME
Здесь TORRENT_URL — это адрес torrent-файла (правой кнопкой по ссылке 'Скачать' на странице торрента -> копировать url), FILENAME — локальное имя torrent-файла.
Вот и все. Дальше уже со скачанным файлом можно делать все, что угодно, например, передать его в любимый torrent-клиент.
wget -m -k -nv -np -p -U "Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)" <web-адрес>
GNU Wget - утилита, предназначенная для скачивания файлов из интернета.
описание используемых параметров:
-m - опция зеркалирования, включающая рекурсию и учитывающая время обновления скачиваемых ресурсов. эквивалентна -r -N -l inf --no-remove-listing.
-k - после завершения закачки выполнится преобразование ссылок в документе для офлайнового просмотра закаченных ресурсов.
-nv - отключение всех дополнительных сообщений во время закачивания. даже если эта опция указана, на экран по-прежнему будут печататься сообщения об ошибках и основная информация.
-np - при рекурсивном скачивании эта опция гарантирует, что не будут закачиваться ресурсы выше по иерархии сайта. другими словами, при скачивании определенной ветки сайта будет скачена только эта ветка, а сайт целиком.
-p - скачаются все файлы, которые необходимы для корректного отображения закачиваемой HTML-страницы, включая картинки, звуки и т.п.
-U "Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)" - определение строки User-Agent для HTTP сервера.
<web-адрес> - собственно ссылка, с которой нужно начать закачивать сайт/ветку сайта.
Решил найти для себя достойную замену виндовым Download Master, Reget, FlashGet, Orbit Downloader и т.п.
Из браузеров я использую Оперу, поэтому симбиозы Firefox+FlashGot+wgеt я рассматривать отказался.
1. wgеt
2. aria2 (aria2+aria2fe)
3. d4x (Downloader for X)
4. MultiGet
Собственно, вопрос встал при скачке с сайта музыка.ру, который рекомендую всем. Сайт отличный, но все песенки можно добыть, пролазив по куче страниц, хотя само собой, они хранятся в одной папке на сервере.
Добыть адрес папки элементарно - начать загрузку через Огнелиса, скопировать ссылку на загрузку и вуаля!
Вроде wget -r должно помочь, но! Сервер дает 403.
1
|
|
|
Последние посты
|
|
Последние комментарии
|
|
Изменения
|
|
Черновики (все)
|
|
Избранное (всё)
|
|
|