Scraping

Web Scraping auf die einfache Art

Als Webentwickler stand ich schon oft vor dem Problem, dass ich gerne Informationen auf meiner Website anzeigen würde, diese Informationen auch existieren, nur leider nicht auf meinem Webserver. Das kann zum Beispiel das Kinoprogramm meiner Stadt sein. Dafür gibt es verschiedene Websites, die das Programm darstellen und die ihre Daten wiederum vermutlich von den Kinos geschickt bekommen, bloß ich komm nicht dran.

Natürlich könnte man ein Script schreiben, das mit Regulären Ausdrücken und etwas Programmierung die Daten extrahiert. Diese Herangehensweise ist aber mühsam, insbesondere wenn sich der Aufbau der Seiten ändert. Beim Versuch, ein solches Kinoprogramm zu scrapen stellte ich z.B. fest, dass das HTML offenbar nicht von einem System generiert, sondern manuell per copy&paste aktualisiert wurde, natürlich mit entsprechenden Fehlern. Diese führten dazu, dass die Regulären Ausdrücke nicht mehr trafen und keine Daten mehr extrahiert werden konnten.

Inhalt abgleichen