Wie man mit WGET ganze Websites herunterlädt

Update: Samstag, 18. Januar

Home / TECHNIK / Programmierung

Das Herunterladen von Websites zur Offline-Nutzung oder Analyse kann mit dem richtigen Werkzeug effizient und einfach sein. Eines der beliebtesten Werkzeuge dafür ist wget, ein leistungsstarkes Kommandozeilenprogramm für den Datei-Download aus dem Internet. In diesem Artikel erläutern wir, wie du mit dem Befehl wget -r --no-parent eine Website wie z.B. https://andinet.de/ herunterladen kannst, welche Konfigurationsmöglichkeiten es gibt und wie du den Befehl unter Windows und Linux verwendest.

 

1. Der Befehl im Detail

Befehl:

wget -r --no-parent https://andinet.de/

Erläuterung der Parameter:

  • -r (rekursiv): Diese Option ermöglicht das rekursive Herunterladen einer Website. Dabei werden alle verlinkten Seiten und Dateien innerhalb des angegebenen Verzeichnisses abgerufen.

  • --no-parent: Diese Option verhindert, dass wget beim Herunterladen auf übergeordnete Verzeichnisse zugreift. Sie stellt sicher, dass nur die angegebene URL und deren Unterseiten heruntergeladen werden.

  • https://andinet.de/: Die Ziel-URL, die heruntergeladen werden soll.

Dieser Befehl lädt den Inhalt der Website https://andinet.de/ und alle Seiten und Dateien, die von dort verlinkt sind, herunter, ohne auf Verzeichnisebenen darüber zuzugreifen.

 

2. Zusätzliche nützliche Optionen

  1. -l [Anzahl]: Mit dieser Option kannst du die maximale Tiefe der rekursiven Downloads festlegen. Beispiel:

    wget -r -l 2 --no-parent https://andinet.de/

    Hierbei werden nur zwei Ebenen an Links heruntergeladen.

  2. -p: Lädt alle Ressourcen herunter, die für die korrekte Darstellung der Website erforderlich sind, z. B. Bilder und Stylesheets.

    wget -r -p --no-parent https://andinet.de/
  3. -k: Konvertiert die Links auf der heruntergeladenen Website so, dass sie offline funktionieren.

    wget -r -k --no-parent https://andinet.de/
  4. -nc: Verhindert das Überschreiben von bereits heruntergeladenen Dateien.

 

3. Nutzung unter Windows mit WSL

Unter Windows kannst du wget mithilfe des Windows-Subsystems für Linux (WSL) nutzen.

Schritte zur Installation und Nutzung:

  1. Aktiviere WSL:

    • Öffne PowerShell als Administrator und gib folgenden Befehl ein:

      wsl --install
  2. Installiere eine Linux-Distribution (z. B. Ubuntu) über den Microsoft Store.

  3. Öffne die Linux-Shell (z. B. Ubuntu) und gib folgenden Befehl ein, um wget zu installieren (falls noch nicht vorhanden):

    sudo apt update && sudo apt install wget
  4. Führe den wget-Befehl wie oben beschrieben aus.

 

4. Nutzung direkt unter Linux

Auf den meisten Linux-Distributionen ist wget bereits vorinstalliert. Falls nicht, kannst du es wie folgt installieren:

sudo apt update && sudo apt install wget  # Für Debian/Ubuntu-basierte Systeme
sudo yum install wget  # Für Red Hat/CentOS-basierte Systeme

Danach kannst du den wget-Befehl ausführen:

wget -r --no-parent https://andinet.de/

 

 

Fazit

Der Befehl wget -r --no-parent ist ein mächtiges Werkzeug, um Websites herunterzuladen, ohne dabei ungewollt auf übergeordnete Verzeichnisse zuzugreifen. Mit zusätzlichen Optionen wie -l, -p oder -k lässt sich das Verhalten weiter anpassen. Egal ob unter Linux oder Windows mit WSL, die Nutzung von wget ermöglicht eine effiziente Speicherung von Webseiten für die Offline-Nutzung.

Kommentare 0

 

Neuen Kommentar schreiben: