Links von Webseiten extrahieren

Wer kennt das nicht? Sie müssen Schulungsunterlagen oder andere Dokumente aus dem Internet herunterladen und werden mit einer Flut von Dateilinks konfrontiert. Das manuelle Anklicken jedes einzelnen Links, besonders wenn Sie beispielsweise alle PDF-Dateien einer Webseite herunterladen wollen, kann schnell mühselig und zeitaufwendig werden.

In der Vergangenheit habe ich ein praktisches Chrome-Plugin namens „Link Grabber“ verwendet, um solche Massendownloads zu vereinfachen. Es hat zwar gut funktioniert, aber wenn man es regelmäßig benötigt, merkt man schnell, dass es immer noch etwas mühsam ist, insbesondere wenn man spezifische Links aus der gesammelten Liste filtern möchte.

Daher habe ich beschlossen, den Prozess mit einem maßgeschneiderten Python-Skript zu optimieren.

Das Herzstück meines Skripts ist die Funktion find_links_in_html, die den HTML-Inhalt einer Webseite analysiert und Links extrahiert, die einem vordefinierten regulären Ausdruck entsprechen:

def find_links_in_html(html_content, regex_patterns)

Diese Funktion nutzt die Power von regulären Ausdrücken, um die Links gezielt zu filtern. Als Beispiel habe ich sie so konfiguriert, dass sie alle PDF-Links extrahiert:

links_to_search_for = [r’https?://[^“]+\.pdf‘]

Um das Ganze noch benutzerfreundlicher zu gestalten, wird jeder gefundene Link automatisch zurück in die Zwischenablage kopiert. Dies wird durch die Zeile pyperclip.copy(link) innerhalb der Hauptfunktion ermöglicht. So kann ich den Link leicht mit einem Download-Manager meiner Wahl herunterladen.

Außerdem speichert das Skript alle extrahierten Links in einer Datei. Das hat den Vorteil, dass ich vor jedem neuen Download überprüfen kann, ob der Link bereits heruntergeladen wurde, um doppelte Downloads zu vermeiden:

with open(output_file_path, ‚a‘) as file: file.write(f„{current_time} | {clipboard_content} | {link}\n„)

Mit diesem Skript ist der Download-Prozess nun nicht nur schneller, sondern auch strukturierter und effizienter. Wenn Sie auch solch wiederkehrende Aufgaben haben, kann ein bisschen Automatisierung mit Python Wunder wirken!

Links von Webseiten extrahieren

Previous post

Chat-GPT kann Videos „schauen“!

Next post

Outlook: Neue Besprechung ohne Teams erstellen

Leave a reply Antworten abbrechen

Subscribe

Get my Updates

Previous post

Chat-GPT kann Videos „schauen“!

Next post

Outlook: Neue Besprechung ohne Teams erstellen

Related posts

Mastering Conditional Logic in Microsoft Fabric Data Pipelines: Switch-Case & Execute-Pipeline Workarounds

Primärschlüssel, Composite Keys, Surrogate Keys und ID-Strategien im Data Warehouse

Monitoring eines SQL-Servers

Leave a reply Antworten abbrechen