Limitationen

Trotz zahlreicher Chancen für die Analyse des Hochschulangebots sind die Datenbasis sowie die Analysen mit HEX durch einige Limitationen eingeschränkt und bergen einige potenzielle Fehlerquellen.

Vorlesungsverzeichnisse

Wie in dem Abschnitt Vorlesungsverzeichnisse als Datenbasis erwähnt, gehen einige Einschränkungen von HEX direkt von den Vorlesungsverzeichnissen selbst aus.

  • Veranstaltungsdefinition: Die Konzeptionierung des Vorlesungsverzeichnisses hängt von der Hochschule und dem genutzten System ab. Das bedeutet auch, dass das Konzept, was eine Veranstaltung darstellt, je nach Hochschule und System variieren kann. Wenn ein Kurs beispielsweise eine Vorlesung mit Tutorium beinhaltet oder mehrere Parallelgruppen hat, kann dies als eine oder zwei Veranstaltungen eingetragen werden.
  • Aktualität: Vorlesungsverzeichnisse werden teilweise im laufenden Semester oder Studienjahr aktualisiert. Dies bedeutet, dass Änderungen in den Lehrplänen, wie neue oder wegfallende Kurse, geänderte Stundenpläne oder Lehrpersonenwechsel, möglicherweise erst deutlich später oder gar nicht im Verzeichnis reflektiert werden. In HEX werden die Semester immer im Zeitraum März/April für das Wintersemester und im Zeitraum September/Oktober für das Sommersemester nachgescrapt für ein möglichst vollständiges Kursarchiv.
  • Fehlende oder mangelnde Details: Die Informationen in Vorlesungsverzeichnissen bieten oft nur grundlegende Details über Kurse, wie Titel, Dozent und Zeitplan. Obwohl oft Felder für detailliertere Beschreibungen der Veranstaltungen, ihrer Lernziele oder auch der Teilnahmevoraussetzungen vorhanden sind, sind diese oft nur mangelhaft ausgefüllt. Im Durchschnitt sind aktuell etwa 50 % der Kursbeschreibungen vorhanden, wobei es zwischen Universitäten und Fachbereichen große Unterschiede gibt. Wenn Kursbeschreibungen vorliegen, sind diese außerdem sehr unterschiedlich in ihrer Ausführlichkeit.
  • Struktureller Fokus: Aufgrund der kurzen Beschreibungen bieten die Vorlesungsverzeichnisse daher deutlich mehr Informationen zu den strukturellen Aspekten der Kurse, wie zum Beispiel Ort und Zeit der Veranstaltung. Informationen über den tatsächlichen Lernprozess, die Lernmaterialien oder die pädagogischen Ansätze sind in der Regel nicht enthalten. Gerade bei Kompetenzen, die oft beiläufig vermittelt werden, wie beispielsweise Digitalkompetenz, kritisches Denken oder auch Teamorientierung, ist aus einer Beschreibung der Kursstruktur oft nicht erkennbar, ob ihr Erlernen Ziel der Veranstaltung ist.
  • Fehlende Durchführungsinformation: Das Angebot einer Veranstaltung sagt noch nichts darüber aus, wie viele Teilnehmende und aus welchen Studiengängen sie besuchen, wie ihre Qualität ist oder auch wie die Prüfungen ausfallen. Obwohl diese Informationen oft wünschenswert sind, sind sie leider meist nicht zu erhalten.
  • Verknüpfung zu anderen Daten: Auch wenn die Vorlesungsverzeichnisdaten alleine bereits eine wertvolle Datenquelle sind, müssten sie für die Beantwortung zahlreicher Fragestellungen mit weiteren Daten verknüpft werden. Oft fehlt jedoch leider (noch) die Möglichkeit zum Matching. Wünschenswerte Informationen wären beispielsweise die Verknüpfung eines Kurs zu dem/den Studiengängen über den er belegt werden kann und welcher Lehrstuhl inkl. Fachbereich den Kurs anbietet. Meist ist nur eine der beiden Informationen verfügbar. Auch eine Verknüpfung von Studiengangsmodulen zu den Kursen wäre sehr interessant.

Datenbeschaffung

  • Zugänglichkeit: Die Vorlesungsverzeichnisse der Hochschulen variieren stark in ihrer Aufbereitung und Darstellung. Manche Hochschulen erlauben tiefere Einblicke in Kommentierungen des Vorlesungsverzeichnissen nur mit einer Anmeldung für Hochschulmitglieder. In diesen Fällen haben wir derzeit keine Möglichkeit an entsprechende Daten zu kommen. Zudem hat das Gros der Hochschulen innerhalb ihrer robots.txt-Datei im Hauptverzeichnis der Vorlesungswebseiten das Scrapen von Seiten untersagt. In diesen Fällen müssen Individualanfragen gestellt werden, was zeitliche Ressourcen kostet und in wenigen Fällen auch abgelehnt wird.

Datenverarbeitung

  • Fehlerhafte Extraktion: Trotz ausführlichen Validierens ist es nicht ausgeschlossen, dass die Felder in der Datenbank einwandfrei ausgefüllt sind. Sowohl Scraping als auch die Extraktion der Veranstaltungen aus Datenbankexporten erfordern ein hohes Maß an Standardisierung um automatisiert alle Informationen aus mehreren tausend Kursen gleichzeitig zu extrahieren. Kleinste Abweichungen oder kein präzises Erkennen der Schemata führen daher leicht zu Fehlern in der Datenbank. Ein weiterer Schwierigkeitsgrad dabei ist die Individualität der Verzeichnisse je nach System und Hochschule: Jedes Extraktionsskript muss extra auf die vorliegenden Daten angepasst werden.
  • Ungleiche oder veraltete Benennungen: der HEX-Datensatz ist ein Längsschnittdatensatz über mehrere Semester. Da das Universitätsumfeld recht dynamisch ist, kann sich eine Vielzahl an Einheiten ändern. Beispielsweise können Studiengänge, Lehrstühle, Fakultäten oder auch Hochschulen umbenannt werden, wegfallen oder neu hinzukommen. Außerdem können leichte Differenzen in der Schreibweise zu Matching-Problemen führen (zum Beispiel Universität Köln und Universität zu Köln). Durch sorgfältiges Validieren und manuelles Recodieren sollen solche Fehler, insbesondere auf Hochschulebene, minimiert werden.

Datenanalyse

  • Verknüpfung zu anderen Daten: Die in dem Abschnitt Limitationen von Vorlesungsverzeichnissen beschriebene Probleme, die Veranstaltungen oft nicht auf Individualebene mit anderen Daten verknüpfen zu können, schränkt die Analysemöglichkeiten deutlich ein. Auch wenn Korrelationen festgestellt werden können, muss man vorsichtig sein, keinen ökologischen Fehlschluss zu vollziehen.
  • Fehlende oder mangelnde Details: Ebenfalls bereits dem Abschnitt Limitationen von Vorlesungsverzeichnissen erwähnt, ist die Tatsache, dass viele Kursbeschreibungen nicht oder nur sehr knapp ausgefüllt sind. Analysiert man daher die Inhalte der Kursbeschreibungen kann man bei positivem Vorkommen zwar darauf schließen, dass etwas im Kurs vorkommt (beispielsweise ein Topic oder die Vermittlung eines Future Skills), der gegenteilige Schluss gilt jedoch nicht. Wenn ein Future Skill zum Beispiel nicht in einem Kurs erkannt wurde, könnte er trotzdem im Kurs vermittelt werden.
  • Analysevalidierung: Viele Analysen sind nur schwer oder unter hohem Aufwand zu validieren. Der Future Skill Classifier beispielsweise (siehe Klassifikationsmodelle) sollte idealerweise auf einem sehr großen Testdatensatz getestet werden, jedoch konnten dafür nicht genug Kursinhalte manuell codiert werden. Hier wurde stattdessen auf eine qualitative Validierung gesetzt, trotzdem sind die Ergebnisse derzeit nur mit Einschränkung zu betrachten.

Datenzugang und -kommunikation

  • Eingeschränkte Zugänglichkeit für die Öffentlichkeit:It’s working on my machine“ - einer der vermutlich häufigsten Sätze in der Programmierung, trifft derzeit auch noch in vielen Teilen auf die HEX-Datenbank und angrenzende Projekte zu. Es müssen erst noch rechtliche und technische Hürden genommen werden, bevor umfassendere Datenzugriffe und eigene Forschung mit den Daten möglich sind.