Wer kennt das nicht? Sie müssen Schulungsunterlagen oder andere Dokumente aus dem Internet herunterladen und werden mit einer Flut von Dateilinks konfrontiert. Das manuelle Anklicken jedes einzelnen Links, besonders wenn Sie beispielsweise alle PDF-Dateien einer Webseite herunterladen wollen, kann schnell mühselig und zeitaufwendig werden.
In der Vergangenheit habe ich ein praktisches Chrome-Plugin namens “Link Grabber” verwendet, um solche Massendownloads zu vereinfachen. Es hat zwar gut funktioniert, aber wenn man es regelmäßig benötigt, merkt man schnell, dass es immer noch etwas mühsam ist, insbesondere wenn man spezifische Links aus der gesammelten Liste filtern möchte.
Daher habe ich beschlossen, den Prozess mit einem maßgeschneiderten Python-Skript zu optimieren.
Das Herzstück meines Skripts ist die Funktion find_links_in_html
, die den HTML-Inhalt einer Webseite analysiert und Links extrahiert, die einem vordefinierten regulären Ausdruck entsprechen:
Diese Funktion nutzt die Power von regulären Ausdrücken, um die Links gezielt zu filtern. Als Beispiel habe ich sie so konfiguriert, dass sie alle PDF-Links extrahiert:
links_to_search_for = [r’https?://[^”]+\.pdf’]Um das Ganze noch benutzerfreundlicher zu gestalten, wird jeder gefundene Link automatisch zurück in die Zwischenablage kopiert. Dies wird durch die Zeile pyperclip.copy(link)
innerhalb der Hauptfunktion ermöglicht. So kann ich den Link leicht mit einem Download-Manager meiner Wahl herunterladen.
Außerdem speichert das Skript alle extrahierten Links in einer Datei. Das hat den Vorteil, dass ich vor jedem neuen Download überprüfen kann, ob der Link bereits heruntergeladen wurde, um doppelte Downloads zu vermeiden:
with open(output_file_path, ‘a’) as file: file.write(f“{current_time} | {clipboard_content} | {link}\n“)Mit diesem Skript ist der Download-Prozess nun nicht nur schneller, sondern auch strukturierter und effizienter. Wenn Sie auch solch wiederkehrende Aufgaben haben, kann ein bisschen Automatisierung mit Python Wunder wirken!