Von November 2019 bis Juli 2021 habe ich den Verkehr in der Gnauthstraße in Gießen gemessen. Dazu habe ich einen Raspberry-Pi verwendet, der mit einem Kamera-Modul und der quelloffenen Software von Telraam den Verkehr zählt. Telraam bietet zusätzlich noch eine Plattform, welche die Auswertung der Verkehrsdaten übernimmt. Die dadurch gemessenen Daten sind öffentlich einsehbar. Hier ordne ich diese Daten zum einen im Kontext der Open-Source-Software zur Messung des Verkehrs ein und zum Anderen innerhalb der verkehrspolitischen Diskussion, um den in der Gnauthstraße geplanten Zebra-Streifen.
Schlagwort: Opendata
Im letzten Eintrag habe ich eine Karte Deutschlands erstellt, die die Anzahl der Zeitungen pro Gebiet darstellt, die dort berichten. Nach den Reaktionen darauf dachte ich es ist eine gute Idee die Pflege der Daten nicht an mir bzw. meinen Zeit-Resourcen scheitern zu lassen. Daher beschreibe ich in diesem Text, wie ich anstatt der Daten der BDZV-Website (als propritäre Quelle) ausschließlich offene Daten aus Wikidata nutze, um dann eine Karte zu erstellen die sich per Github-Action automatisch aktualisiert.
Im Folgenden beschreibe ich wie ich mit quelloffener Software, frei verfügbaren Karten-Daten und ebenfalls frei zu verwendenden Geodaten der Landkreise in Deutschland eine Choroplethen-Karte (oder Flächenkartogramm) erstelle. Diese Karte zeigt für jeden Landkreis die Anzahl an Zeitungen, die Nachrichten über diesen Landkreis bringen. Als Datengrundlage dienen dabei die Zeitungen des Bundesverbands Digitalpublisher und Zeitungsverleger1.
Web-Scraping setzt oft voraus, dass ein eigener Rechner verfügbar ist, welcher bestenfalls 24h online 🌐 ist und die Abfragen für das Scrapen absenden kann. Wenn wir das vermeiden wollen, beöntigen wir entsprechende Infrakstruktur. Simon Willison beschreibt in seinem Blogpost git-history ein Python Tool, welches aus einer Historie an git commits zu einer Datei, eine Zeitreihe erstellt. Diese Serie von git commits basieren auf einer speziellen Art zu scrapen. Dieses Pattern vereinfacht Web-Scraping, indem als Infrastruktur kein eigener Rechner genutzt werden muss, sondern Github actions. Die Github actions speichern jede neue unterschiedliche Version einer gescrapten Datei als eigenen commit im Repository.