Zum hauptinhalt springen

Regionalzeitungskarte mit Datawrapper und Wikidata

Im letzten Eintrag habe ich eine Karte der NUTS3-Gebiete Deutschlands erstellt, die die Anzahl der Zeitungen pro Gebiet darstellt, die dort berichten. Nach den Reaktionen auf die letzte Karte dachte ich es ist eine gute Idee die Pflege der Daten nicht an mir bzw. meinen Zeit-Resourcen scheitern zu lassen. Daher beschreibe ich in diesem Text, wie ich anstatt der Daten der BDZV-Website (als propritäre Quelle) ausschließlich offene Daten aus Wikidata nutze, um dann eine Karte zu erstellen die sich per Github-Action automatisch aktualisiert.

Dichte von Regionalzeitungen als interaktive Karte

Im Folgenden beschreibe ich wie ich mit quelloffener Software, frei verfügbaren Karten-Daten und ebenfalls frei zu verwendenden Geodaten der Landkreise in Deutschland eine Choroplethen-Karte (oder Flächenkartogramm) erstelle. Diese Karte zeigt für jeden Landkreis die Anzahl an Zeitungen, die Nachrichten über diesen Landkreis bringen. Als Datengrundlage dienen dabei die Zeitungen des Bundesverbands Digitalpublisher und Zeitungsverleger1.

Mit git-history und Github Actions in weniger als einer Minute einen Scraper bauen

Web-Scraping setzt oft voraus, dass ein eigener Rechner verfügbar ist, welcher bestenfalls 24h online 🌐 ist und die Abfragen für das Scrapen absenden kann. Wenn wir das vermeiden wollen, beöntigen wir entsprechende Infrakstruktur. Simon Willison beschreibt in seinem Blogpost git-history ein Python Tool, welches aus einer Historie an git commits zu einer Datei, eine Zeitreihe erstellt. Diese Serie von git commits basieren auf einer speziellen Art zu scrapen. Dieses Pattern vereinfacht Web-Scraping, indem als Infrastruktur kein eigener Rechner genutzt werden muss, sondern Github actions.