Im Rahmen der Zürcher Longitudinalstudien untersuchte das Universitäts-Kinderspital Zürich die körperliche, motorische, kognitive und soziale Entwicklung von mehr als 1'000 Kindern seit den 1950er Jahren.
In diesem Pilotprojekt wurde die Machbarkeit der Datenextraktion aus ausgefüllten Fragebögen getestet und der zu erwartende Aufwand ermittelt.
Pilotprojekt zur Digitalisierung & Extraktion von Longitudinalstudien.
5'000 Fragebögen
Prof. Oskar Jenni, Leiter Zürcher Longitudinalstudien
Seit den 1950er Jahren untersucht das Universitäts-Kinderspital Zürich im Rahmen der Zürcher Longitudinalstudien die physische, motorische, kognitive und soziale Entwicklung von über 1'000 Kindern. Die Studienteilnehmenden wurden ab Geburt bis ins junge Erwachsenenalter regelmässig untersucht. Der dabei entstandene Datensatz der Zürcher Longitudinalstudien (ZLS) ist weltweit einzigartig und soll aus diesem Grund für die künftige Forschung aufbereitet und zugänglich gemacht werden.
Die Daten zur kindlichen Entwicklung wurden auf unzähligen unterschiedlichen Untersuchungsprotokollen und Fragebögen dokumentiert, was zu einem Datenarchiv mit mehr als 750‘000 Blatt Papier führte. Seit 2019 werden die Daten nun zudem um einen weiteren Untersuchungszeitpunkt im Erwachsenenalter ergänzt. Die ZLS werden so zu einer Lebensspannenstudie: eine einzigartige Möglichkeit, Gesundheit und Entwicklung über das ganze Leben zu untersuchen.
Mit dem Pilotprojekt wurde die Machbarkeit der digitalen Datenextraktion aus von Fragebögen überprüft, wie auch der zu erwartende Aufwand bestimmt. Um das Erkennen von zu ermöglichen, hat Acodis basierend auf 5'000 bereits digitalisierten Fragebögen ein Trainingsset erstellt. So konnte ein ICR (Intelligent Character Recognition) System spezifisch für die Fragebögen der ZLS erstellt werden.
Mit dem spezialisierten ICR werden danach auf allen Fragebögen im Pilot die Zahlen erkannt. In einem weiteren Schritt wird der Aufbau des jeweiligen Fragebogen automatisiert erkannt und die Daten strukturiert. Die digitalisierten Inhalte können daraufhin, unter Berücksichtigung verschiedener Faktoren, im massgeschneiderten Editor nachbearbeitet werden.
Es werden Validierungsregeln, wie zum Beispiel statistische Plausibilisierung angewandt, um die Überprüfung so effizient wie möglich zu gestalten.Automatisiert angepasste Datenschemata für die unterschiedlichen Typen an Fragebögen ermöglichen zudem eine übersichtliche und strukturierte Auflistung der ausgewerteten Daten.
Das Pilotprojekt konnte erfolgreich abgeschlossen werden und der Datensatz wird in den nächsten Monaten fortlaufend erweitert, bis alle relevanten Fragebögen ausgelesen sind.