[identity profile] gieffeffe.livejournal.com posting in [community profile] useful_faq
Нужно скачать около 100 000 изображений с сайта.

Всего на сайте 314 категорий, в каждой по 300-400 изображений.

Структура сайта такая:
сайт.ру/номер категории/номер файла.jpg

то есть

сайт.ру/img/1/1.jpg
сайт.ру/img/1/1+.jpg
сайт.ру/img/1/2.jpg
сайт.ру/img/1/2+.jpg
...
сайт.ру/img/314/200.jpg
сайт.ру/img/314/200+.jpg

Прямых ссылок на файлы нет.
Есть ли возможность скачать автоматически?
Спасибо.

Date: 2012-12-23 10:05 am (UTC)
From: [identity profile] zhegloff.livejournal.com
скачать весь сайт телепортом, выдернуть картинки.

З.Ы. Воровать - нехорошо.

Date: 2012-12-23 10:09 am (UTC)
From: [identity profile] langsamer.livejournal.com
ReGet, к примеру, позволяет генерировать списки со счетчиком:
Image
Image

Date: 2012-12-23 10:10 am (UTC)
From: [identity profile] saper-vasja.livejournal.com
DMaster - добавить группу закачек

Date: 2012-12-23 10:12 am (UTC)

Date: 2012-12-23 03:27 pm (UTC)
From: [identity profile] potan.livejournal.com
for i in `seq 1 314`
do
j=1
while wget сайт.ру/img/$i/$j.jpg
do
wget сайт.ру/img/$i/$j+.jpg
j=`expr 1 + $j`
done
done

Date: 2012-12-23 11:42 pm (UTC)
From: [identity profile] falsche-jade.livejournal.com
for i in `seq 1 314`; do for j in `seq 1 400`; do wget -c сайт.ру/img/$i/$j.jpg ; wget -c сайт.ру/img/$i/$j+.jpg ; done ; done

вывел на экран, заменив wget -c на echo:
for i in `seq 1 30`; do for j in `seq 1 400`; do echo сайт.ру/img/$i/$j.jpg ; echo сайт.ру/img/$i/$j+.jpg ; done ; done
вроде как работает.
Не понял зачем у вас там while, j=1 и j=`expr 1 + $j`?

wget -c лучше чем голый wget
Edited Date: 2012-12-23 11:46 pm (UTC)

Date: 2012-12-24 03:38 am (UTC)
From: [identity profile] potan.livejournal.com
Я предположил, что в каждой директории разное количество файлов, но нумерация строго последовательна.
while обрабатывает ненайденный файл, "j=" - замена seq в for.

Date: 2012-12-24 09:20 am (UTC)
From: [identity profile] falsche-jade.livejournal.com
А если там дырка в списке файлов? Это ведь вебсервер,
скажу больше, это сайт.ру

Date: 2012-12-24 09:53 am (UTC)
From: [identity profile] potan.livejournal.com
Тогда задачу надо будет четче ставить. Скажем, сказать что в каждой директории не более 400 картинок.