Username 30.01.2009 14:46
Я идиот! — Как закачать содержимое сайта?
Собственно, вопрос встал при скачке с сайта музыка.ру, который рекомендую всем. Сайт отличный, но все песенки можно добыть, пролазив по куче страниц, хотя само собой, они хранятся в одной папке на сервере.Добыть адрес папки элементарно - начать загрузку через Огнелиса, скопировать ссылку на загрузку и вуаля!
Вроде wget -r должно помочь, но! Сервер дает 403.
Гугление дало вот такую статью, которая рассказывает о том, как всячески обмануть сайт. Пробовал по всякому - не получается. Кто может что подсказать?
а что ты имеешь ввиду через передачу кукиз? Как послать? Ну-ка поподробнее
Мм.. ну там скорее всего, пока ты шляешься по этим страничкам (которые скорее всего с пор рекламой), это учитывается сайтом. То есть там в кукисах лежит или какой-то флажок "я посмотрел рекламу", или id сессии (ну или еще что-то). Нужно просто глянуть, какие кукисы (относящиеся к этому сайту) есть у браузера на момент скачивания, и попробовать их передавать с помощью wget при скачивании.
Судя по всему, стоит почитать про опцию wget "--load-cookies".
Судя по всему, стоит почитать про опцию wget "--load-cookies".
вообщем фишка в том, что просто по одной песне вгет качает запросто. Но содержимое папки - натыкается на 403
Хм. Тогда да, странно. Либо нужно тоньше маскироваться, либо вообще непонятно что.
wget --wait=20 --limit-rate=20K -r -p -U Mozilla --no-parent
вот это самое большое, на что меня хватило. Не знаю в чем дело. При том, что при по одной песне он качает вообще без всяких штук-дрюк
вот это самое большое, на что меня хватило. Не знаю в чем дело. При том, что при по одной песне он качает вообще без всяких штук-дрюк
Я по моему тоже идиот а какой URL ты указываешь чтобы загрузить все ? Там перенаправление на другой сервер и тд. В общем тут может например помочь только libwww-mechanize или нечто подобное. а так же нужно юзать в этом случае firebug, чтобы понять как составляется запрос и не надо ли чего на сервер отправить перед тем как идти на зеркало.
Короче, я хотел сказать что сложно с именно этого сайта музыку тянуть. Здесь можно перефразировать лозунг мой молодости "Смотрим в 'Байте', покупаем в другом месте", в смысле посмотрел описание группы там дискографию, послушал пару композиций и тяни себе спокойно ослом или торрентом. Нафиг заморачиваться то ?
Короче, я хотел сказать что сложно с именно этого сайта музыку тянуть. Здесь можно перефразировать лозунг мой молодости "Смотрим в 'Байте', покупаем в другом месте", в смысле посмотрел описание группы там дискографию, послушал пару композиций и тяни себе спокойно ослом или торрентом. Нафиг заморачиваться то ?
я хитрю, чтобы узнать истинное расположение, я начинаю закачку огнелисом, останавливаю, копирую ссылку - и все. Но я не понимаю, почему по одной песне wget тянет, а все - нет.
а как ты пытаешься тянуть все ? дай полную комманду, нет истиного расположения. В смысле алгоритм получения URL неизвестен. ты можешь лишь написать скрипт с использованием mechanize
а вот еще второй вариант - расширение для ff.
а вот еще второй вариант - расширение для ff.
Скорее всего блокировка идет по User-Agent.
Опция -U "bla-bla-bla" почти наверняка решит пробоему.
Опция -U "bla-bla-bla" почти наверняка решит пробоему.
Скачать диапазон файлов:
источник
$ curl http://www.url.org/DSC87812<001-125>.mp3 -o track_#1.mp3
источник
В директивах веб-сервера музыка.ру установлен запрет листинга директорий, и ничего тут не поделаешь, если конечно заранее не знаешь список имён файлов.
Вариантов два как мне кажется:
1. Забить
2. Писать perl/C/PHP-скрипт, с парсингом хтмл-страниц, post-запросами. Ну и конечно скрипт должен быть умным: т.е. не с бешеной скоростью открывать страницы, делать паузы, отсылать поддельный User-Agent, переключаться на прокси-сервера, иначе спалят и тупо заблокируют.
Я понимаю, что второй вариант попахивает издевательством, но по крайней мере другого выхода я не вижу. И как я предполагаю именно таким образом и плодятся бесчисленные сайты с каталогами MP3 за смску.
1. Забить
2. Писать perl/C/PHP-скрипт, с парсингом хтмл-страниц, post-запросами. Ну и конечно скрипт должен быть умным: т.е. не с бешеной скоростью открывать страницы, делать паузы, отсылать поддельный User-Agent, переключаться на прокси-сервера, иначе спалят и тупо заблокируют.
Я понимаю, что второй вариант попахивает издевательством, но по крайней мере другого выхода я не вижу. И как я предполагаю именно таким образом и плодятся бесчисленные сайты с каталогами MP3 за смску.
Если так, то скорее всего в них дело.