[identity profile] ex-orcanoid937.livejournal.com posting in [community profile] useful_faq
Почему если указываю куку, скачивается файл правильно, но всего один?

Патаюсь вытянуть журнал c подзамочными записями, которые доступны только после авторизации:
wget -r --load-cookies ./cookies.txt --keep-session-cookies http://_имя_.livejournal.com/

Date: 2006-04-06 04:55 pm (UTC)
From: [identity profile] marazmatik.livejournal.com
Черт его знает....попробуйте включить verbose и посмотреть, на чем он останавливается

Date: 2006-04-06 08:02 pm (UTC)
From: [identity profile] marazmatik.livejournal.com
А там нет ничего вроде -vvv? Я с wget-ом очень давно не работал, не помню уже.

Date: 2006-04-06 06:20 pm (UTC)
From: [identity profile] krolchatina.livejournal.com
С -d интереснее получается.
в конце пишет:

Deciding whether to enqueue "http://xxxxxxxx.livejournal.com/".
Already on the black list.
Decided NOT to load it.
Redirection "http://xxxxxxxx.livejournal.com/" failed the test.

При --html-extension вытащилось больше -- попробуйте, я подозрвеаю, что комбинацией опций можно добиться человеческого результата.

думаю нужно отключить обработку robots.txt и разобраться с вопросом почему же xxx.livejournal.com/?skip=20" попадает в blacklist

livejournal loves you

Date: 2006-04-06 06:23 pm (UTC)
From: [identity profile] krolchatina.livejournal.com
--html-extension -e robots=off

и все качает.

Date: 2006-04-06 06:36 pm (UTC)
From: [identity profile] krolchatina.livejournal.com
хм =)
у меня полная строка в рез-те эеспериментов получилась такая:
wget -r --verbose --load-cookies ./cookies.txt --keep-session-cookies -d --save-cookies ./cookies.txt --html-extension -e robots=off http://xxxxx.livejournal.com

качнуло index.html, index.html?skip=20.html, пошел качать комменты, френдленту, дальше меня задолбало :)

GNU Wget 1.10