wget & cookies
Apr. 6th, 2006 07:21 pm![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
Почему если указываю куку, скачивается файл правильно, но всего один?
Патаюсь вытянуть журнал c подзамочными записями, которые доступны только после авторизации:
wget -r --load-cookies ./cookies.txt --keep-session-cookies http://_имя_.livejournal.com/
Патаюсь вытянуть журнал c подзамочными записями, которые доступны только после авторизации:
wget -r --load-cookies ./cookies.txt --keep-session-cookies http://_имя_.livejournal.com/
no subject
Date: 2006-04-06 04:55 pm (UTC)no subject
Date: 2006-04-06 05:10 pm (UTC)так что ничего не видно
no subject
Date: 2006-04-06 08:02 pm (UTC)no subject
Date: 2006-04-06 08:43 pm (UTC)уже все сделал :)
спасибо
no subject
Date: 2006-04-06 06:20 pm (UTC)в конце пишет:
Deciding whether to enqueue "http://xxxxxxxx.livejournal.com/".
Already on the black list.
Decided NOT to load it.
Redirection "http://xxxxxxxx.livejournal.com/" failed the test.
При --html-extension вытащилось больше -- попробуйте, я подозрвеаю, что комбинацией опций можно добиться человеческого результата.
думаю нужно отключить обработку robots.txt и разобраться с вопросом почему же xxx.livejournal.com/?skip=20" попадает в blacklist
livejournal loves you
Date: 2006-04-06 06:23 pm (UTC)и все качает.
no subject
Date: 2006-04-06 06:32 pm (UTC)wget -r --html-extension -e robots=off --load-cookies ./cookies.txt --keep-session-cookies http://xxxx.livejournal.com/
22:31:21 (46.20 KB/s) - `xxxx.livejournal.com/index.html' saved [60233/60233]
FINISHED --22:31:21--
Downloaded: 60,233 bytes in 1 files
no subject
Date: 2006-04-06 06:36 pm (UTC)у меня полная строка в рез-те эеспериментов получилась такая:
wget -r --verbose --load-cookies ./cookies.txt --keep-session-cookies -d --save-cookies ./cookies.txt --html-extension -e robots=off http://xxxxx.livejournal.com
качнуло index.html, index.html?skip=20.html, пошел качать комменты, френдленту, дальше меня задолбало :)
GNU Wget 1.10
no subject
Date: 2006-04-06 06:56 pm (UTC)Большое Спасибо!!!