Mic tutorial wget

Created by Alin Brindusescu on 2011-01-17 17:58:25

Cum nu sint un mare fan al programelor de download pear-to-pear, wget este prietenul meu. Nu de multe ori wget m-a ajutat sa imi simplific sau programez descarcarea fisierelor de pe web.

Wget poate fi folosit pentru a descarca fisiere HTTP, HTTPS si FTP. Ruleaza in linie de comanda si tocmai in asta sta puterea sa, in lipse de interactivitate cu utilizatorul, ceea ce ne permite sa il utilizam in scripturi shell sau in crontab.
Wget poate fi obtinut de pe pagina officiala GNU Wget unde este disponibila si o documentatie amanuntita.

Cel mai simplu mod de utilizare:
# wget URL
Cu ajutorul acestei comenzi (in cazul in care nu aveti un script de configurare, .wgetrc, pentru wget in directorul home) veti descarca fisierul index.htm(l) de la adresa URL trimisa ca si parametru. Apelind wget fara nici un alt parametru (in lipsa fisierului de configurare .wgetrc) se va descarca doar fisierul index de la adresa URL specificata fara imaginile continute in pagina respectiva

Optiunile pe care le-am folosit cel mai des:
OptiuneDescriere Exemple
-qDescarca fisierele in mod silentios, nu se afiseaza nici un fel de mesaje# wget -q www.brindusescu.org
Nu va afisa nici un fel de mesaj. Aceasta optiune este foarte utila mai ales atunci cind wget este apelat dintr-un script.
-nvAfiseaza mai putine informatii# wget -nv www.brindusescu.org
Va afisa doar: 00:23:39 URL:http://www.brindusescu.org/ [23360] -> \"index.html\" [1]
-o log_fileCreeaza un fisier de log# wget -o brind_down_log www.brindusescu.org
Daca totusi doriti sa stiti ce s-a intimplat exact pe parcursul procesului de descarcare dar nu doriti ca informatia sa fie afisata la stdout puteti folosi aceasta optiune. Toate mesajele care ar fi fost afisate se vor gasi in fisierul log specificat dupa optiunea -o
-A tip_fisierPermite \\r\\nspecificarea tipurilor de fisier care se doreste a fi descarcate# wget -A pdf,ps www.brindusescu.org/download/
Va descarca doar fisierele cu extensia .pdf si .ps de la adresa URL specificata
-R tip_fisierPermite specificarea tipurilor de fisier care se doreste a fi ignorate in procesul de descarcare# wget -r -A swf,wav www.brindusescu.org/download/
Nu va descarca fisierele cu extensia .swf si .wav daca acest tip de fisiere exista la adresa URL specificata
-rRecursiv Aceasta optiune este in general folosita impreuna cu -l.
-lAdincimea pina la care sa urmareasca legaturile atunci cind descarca fisiere# wget -r -l 2 www.brindusescu.org
Va descarca toate fisierele din directorul radacina (unde se afla si index.hmtl) si fisierele care sint specificate ca si legaturif fisierele descarcate din directorul radacina
--limit-rate=rateLimiteaza rata (viteza) de transfer# wget -r -l 2 --limit-rate=30k www.brindusescu.org
Va limita rata de transfer la 30 de kilo bytes pe secunda. Daca sinteti atit de norocosi sa aveti o conexiune de citiva MBps si doriti sa o limitati la valoarea de 1 MBps puteti folosi --limit-rate=1m
-QLimiteaza cantitatea descarcata# wget -r -l 2 -Q10m www.brindusescu.org
Va opri descarcarea fisierelor dupa ce au fost descarcati 10 Mega bytes.
-i input_fileDescarca fisierele de la adresele URL specificate in input_file# wget -i citeva_carti www.brindusescu.org
Va descarca fisierele specificate in fisirul trimis ca si parametru.
-cContinuua un fisier ca carui descarcare a fost intrerupta\\r\\n# wget www.brindusescu.org/download/un_fisier_mare.pdf\\r\\n
sa presupunem ca descarcarea se intrerupe dintr-un motiv oarecare si fisierul nu a fost complet descarcat.
# wget -c www.brindusescu.org/download/un_fisier_mare.pdf
Daca descarcare fisierului a fost intrerupta inainte de finalizare, cind se va apela a doua oara wget cu optiunea -c se va relua descarcarea fisierului fara a mai descarca inca o data partea descarcata in prima sesiune
-NDescarca doar fisierele modificate de la ultima operatie de descarcare# wget www.brindusescu.org/some_test.dat
dupa ceva timp (o ora, zi, saptamina) apelam wget cu optiunea -N
# wget -N www.brindusescu.org/some_test.dat
Daca fisierul some_test.dat a fost modificat (e suficient ca timestamp-ul sa fie modificat) va fi descarcat din nou, daca timestamp-ul nu a fost modificat fisierul nu va fi descarcat din nou.
--http-user=
user
--http-passwd=
password
Permite specificare unui nume de utilizator si parole daca adresa specificata necesita autentificare# wget --http-user=testUsr --http-passwd= testPass -r -N www.brindusescu.org/test/auth_test.dat
In cazul in care adresa specificata va initia o cerere de autentificare se testUsr/testPass vor fi folosite ca si date de indentificare

Daca aveti optiuni pe care le folositi tot timpul va puteti creea un fisier de configurare in directorul home, pentru a fi recunoscut si procesat automat de fiecare data cind apelati wget aceasta trebuie sa poarte numele de .wgetrc.
Wget va modifica fisierele html pe care le descarca inlocuind calea spre fisierele descarcate cu o cale locale (unde a descarcat fisierele), pentru fisierele care nu au fost descarcate va pastra calea origniala.


Comments: work in progress!

Search

Ads