Analysemethodik

Hier erfolgt eine generelle Darstellung möglicher Analysemethoden für die HEX-Datenbank.

Deskriptive Statistiken

Deskriptive Statistiken dienen in unserem Projekt als Fundament zur grundlegenden Analyse der gesammelten Daten. Diese Statistiken ermöglichen es uns, einfache Zusammenfassungen über die Datenbasis und die gemessenen Variablen zu erstellen. Durch die Anwendung deskriptiver Methoden können wir Muster in den Daten erkennen, bevor komplexere Analysemethoden angewandt werden. Konkret erfassen wir Maßzahlen wie Häufigkeiten, Mittelwerte und Standardabweichungen für verschiedene Segregationsvariablen wie Kurssprache, Kursformat, Semester/Jahr und die jeweilige Hochschule. Diese statistischen Auswertungen helfen uns, einen ersten Überblick über die Struktur und Verteilung der Kursangebote zu gewinnen. So können wir beispielsweise identifizieren, in welchem Umfang Lehrveranstaltungen in Englisch im Vergleich zu Deutsch angeboten werden oder wie sich das Verhältnis angebotene Lehrveranstaltungen zu Studierenden über die Zeit entwickelt hat.

Textanalyse und NLP-Grundlagen

Die klassischen Methoden der Textanalyse und grundlegende Natural Language Processing (NLP)-Techniken bilden einen weiteren zentralen Baustein unserer Analysestrategie. Unter klassischer Textanalyse verstehen wir vor allem Verfahren zur Untersuchung von Wortfrequenzen mittels Keywords und/oder thematischen Taxonomien. Diese Methoden bieten erste Einblicke in die Schwerpunkte und thematische Ausrichtung der Lehrangebote. Die „Bag of Words“-Methode, ein weiteres grundlegendes NLP-Verfahren, ermöglicht uns, Texte in eine beliebige Anzahl von unterscheidenden Wörtern zu zerlegen, ohne deren Reihenfolge oder Kontext zu berücksichtigen. Dieser Ansatz dient als Grundlage für die quantitative Analyse von Textdaten und ermöglicht beispielsweise die Vergleichbarkeit von Kursinhalten auf einer sehr grundlegenden Ebene.

Vielen klassischen Methoden der Textanalyse sind verschiedenen Schritte der Datenvorbereitung gemein: In einem ersten Schritt wird die Datenbasis für die Analyse umgeformt. Wir fassen hierfür beispielsweise die relevanten Variablen Kurstitel und Kursbeschreibung zu einer Variable zusammen und wandeln alle Majuskel (Großbuchstaben) in Minuskeln (Kleinbuchstaben, Gemeine) um, um die Komplexität der Sprache hinsichtlich Groß-/Kleinschreibung zu reduzieren. Anschließend wird die sogenannte Tokenisierung durchgeführt. Hierbei handelt es sich um die Segmentierung von Text oder Texten in einzelne Wörter und/oder Abschnitte. Dabei werden Trennzeichen der jeweiligen Sprache wie Leerzeichen oder Interpunktion genutzt. Die einzelnen Tokens werden als Ergebnis in eine Liste überführt. Zusätzlich werden Sonderzeichen und Zahlen entfernt. Tokens, die ein oder mehr Sonderzeichen enthalten (zum Beispiel „42%“), werden vollständig entfernt. Dies ist für die spätere Analyse im Hintergrund zu behalten, da beispielsweise aus der Programmiersprache C++ somit die Programmiersprache C wird. Entsprechend sind hier je nach Kontext gegebenenfalls auch Zeichen beizubehalten. Es entsteht ein Datensatz, in welchem ein Segment im Sinne der Tokensierung einer Beobachtung im Datensatz entspricht. Anschließend wird das sogenannte Stemming (Rückführung verschiedener morphologischer Varianten eines Wortes auf den gemeinsamen Wortstamm) oder die sogenannte Lemmatisierung (Reduktion der Flexionsformen eines Wortes auf die Grundform) durchgeführt. Hierfür gibt es verschiedene Algorithmen mit unterschiedlichen Stärken und Schwächen. Aus der derart aktualisierten Datenbasis werden noch sogenannte Stopwörter entfernt. Bei Stoppwörtern handelt es sich vor allem um Präpositionen („in“, „auf“, „zu“, ...), Konjunktionen („und“, „oder“, „aber“, ...) und Artikeln („der“, „die“, „das“, ...). Diese Wörter sind die am häufigsten gebrauchten in jeglicher Art von Textsammlung und haben in der Regel keine inhaltliche Bedeutung. Daher führt das Entfernen zu einer erheblichen Verbesserung der Effizienz. Aktuell wird im Projekt die Stopword-Liste von www.solariz.de genutzt und händisch um weitere Wörter aus dem Textcorpus ohne inhaltlichen Bezug ergänzt. Für die anschließende Analyse wird der Textkorpus noch in eine sogenannte Document-Feature-Matrix, d. h. einer mathematischen Matrix, die die Häufigkeit von Tokens beschreibt, überführt. Die folgende Analyse ist entweder für den gesamten Textcorpus oder für die Veranstaltungen einzelner Hochschulen und/oder Organisationseinheiten durchführbar.

Machine Learning

Maschinelles Lernen eröffnet gerade bei großen zu analysierenden Datenmengen neue Möglichkeiten für die Analyse der Vorlesungsverzeichnisse, insbesondere für die Analyse der Textfelder in der HEX-Datenbank, zum Beispiel Kurstitel und Kursbeschreibungen, bieten sich verschiedene Methoden aus dem Natural-Language-Processing (NLP) an. Um die Textdaten für maschinelles Lernen zugänglich zu machen, werden sie zunächst in Embeddings umgewandelt. Embeddings sind numerische Repräsentationen von Wörtern oder Textabschnitten in einem Vektorraum. Sie erfassen semantische Beziehungen zwischen Wörtern und ermöglichen beispielsweise, Texte mit ähnlichen Inhalten zu identifizieren und komplexe semantische Beziehungen zu erfassen. Die Embeddings können zum Beispiel durch Sprachmodelle wie BERT (Bidirectional Encoder Representations from Transformers) oder Sentence-Transformers erstellt werden, die durch das Training auf sehr großen Textkorpora darauf spezialisiert sind, kontextsensitive numerische Vektoren zu erstellen. Man kann die vortrainierten Modelle direkt für das Embedden verwenden oder sie durch Finetuning auf die eigenen Daten und Tasks zuschneiden. Zwei Tasks, für die in HEX Machine Learning verwendet wird, sind die datengeleitete Extraktion von Themen in der Lehre (Topic Modeling, 1) sowie das Erkennen von der Vermittlung von Future Skills in den Lehrveranstaltungen (Klassifikation, 2). Diese Beispieltasks bilden zwei große Teilbereiche des maschinellen Lernens ab: Das unüberwachte Lernen, das explorativ und nur anhand des Datenmaterials Ergebnisse liefert, und das überwachte Lernen, welches Trainingsbeispiele braucht, um Ergebnisse zu liefern.

Eine grundlegende Herausforderung bei derartigen Analysen liegt im nötigen Know-how-Aufbau zu diesem sich sehr dynamisch entwickelnden Feld des Natural Language Processings. Des Weiteren ist - im Falle der Klassifizierungsmodelle - das Codieren von Trainings- und Testdaten sehr zeitintensiv und erfordert Fachwissen. Zudem kann das manuelle Codieren zu subjektiven Verzerrungen führen. Im Falle der Topic Models ist eine Herausforderung, dass von Topic-Modellen generierte Topics nicht immer intuitiv oder leicht zu interpretieren sind und stark von der Qualität der Datenvorverarbeitung abhängen. Es bedarf einer gewissen Erfahrung im jeweiligen Themenbereich, um die Ergebnisse interpretieren und verständlich kommunizieren zu können.

Induktive Analysen: Topic Models

Topic Modeling ist eine Methode aus dem unüberwachten maschinellen Lernen und Natural Language Processing (NLP). Diese Methode wird oft angewendet, um Muster und Strukturen in umfangreichen Textkorpora zu identifizieren, die für menschliche Leser möglicherweise nicht sofort ersichtlich sind. Auch für Topic Modeling bedarf es Embeddings, wobei insbesondere solche, die von fortschrittlichen Modellen wie Transformer-basierten Architekturen erstellt wurden, gut geeignet sind. Durch die Zuordnung von Embeddings zu Wörtern kann Topic Modeling die Verteilung und Beziehungen der Wörter in einem Text analysieren. Ein weiterer entscheidender Schritt in Topic Modeling ist die Anwendung von Clustering-Techniken. Clustering hilft dabei, ähnliche Embeddings zu gruppieren, was letztendlich zur Identifikation von Themen führt. Diese Themen repräsentieren Gruppen von Wörtern, die in Texten häufig gemeinsam auftreten. Durch den unüberwachten, automatisierten Prozess benötigt Topic Modeling nur wenig Zeit und Ressourcen trotz großer Datenmengen. Die Anwendung von Topic Modeling erfordert neben den Programmierkenntnissen oft Fachkenntnisse, um die Ergebnisse angemessen zu interpretieren und sicherzustellen, dass die identifizierten Themen wirklich relevant sind. Die Effektivität von Topic Modeling kann außerdem von verschiedenen Parametern abhängen, und die Ergebnisse können variieren, je nachdem, wie diese Parameter eingestellt sind. In HEX wird das Python-Package BERTopic verwendet, um Themenschwerpunkte in den Kurstiteln zu analysieren. Für das Embedding werden mehrsprachige Sentence-Transformer Modelle verwendet und der verwendete Clustering-Algorithmus ist HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise).

Deduktive Analysen: Klassifikationsmodelle

Textklassifikation ist ein bedeutender Teilbereich von überwachtem Machine Learning (unter Verwendung von gelabelten Trainings- und Testdaten) und Natural Language Processing (NLP), der sich darauf konzentriert, Texte automatisch in vordefinierte Kategorien oder Klassen einzuteilen. Auch in diesem Task können die Vorteile der Transformer-basierten Sprachmodelle genutzt werden, indem diese Modelle die Grundlage für einen Textklassifikator bilden, gefolgt von einem speziellen Output-Layer. Um gute Ergebnisse zu erzielen, muss das Modell trainiert werden. Die Trainingsdaten enthalten Texte und ihre zugehörigen Klassen. Während des Trainings lernt das Modell, Muster und Merkmale in den Texten zu identifizieren, die für die Klassifizierung relevant sind. Nachdem das Modell trainiert wurde, wird ein Texteingabevektor durch das Transformer-Modell geleitet. Der Output-Layer nutzt die gelernten Informationen, um die Wahrscheinlichkeiten für verschiedene Klassen zu berechnen. Die Klasse mit der höchsten Wahrscheinlichkeit oder die Klassen, die einen Wahrscheinlichkeits-Schwellenwert überschreiten, werden dem Text dann final zugeordnet. Ein interessanter Fortschritt im Bereich der Textklassifikation ist die Few-Shot-Klassifikation. Hierbei handelt es sich um eine Technik, bei der das Modell mit nur wenigen Beispielen pro Klasse trainiert wird. Das bedeutet, dass der Klassifikator auch dann präzise arbeiten kann, wenn nur begrenzte Trainingsdaten verfügbar sind. Dies ist besonders nützlich in Situationen, in denen das Sammeln großer Mengen von Trainingsdaten schwierig ist. Insgesamt spielt Textklassifikation eine entscheidende Rolle bei der Automatisierung der Textverarbeitung und ermöglicht es, große Textmengen effizient in vorab definierte Strukturen zu organisieren und zu verstehen. Der Einsatz von Transformer-basierten Modellen und die Entwicklung von Few Shot Klassifikationsmethoden tragen dazu bei, die Leistung und Anwendbarkeit dieser Technologie weiter zu verbessern. In HEX wird Textklassifikation dazu verwendet, die Vermittlung von Future Skills in den Veranstaltungen zu erkennen. Dafür wurden von Hand Trainingsdaten codiert. Das verwendete Modell ist SetFit, ein Few Shot Klassifikationsmodell auf Satzebene.

Ausblick

Die Verknüpfung von Large Language Models mit Datenbasis beispielsweise als LangChain-Applikation ermöglicht nochmals andere und iterative, interaktive Wege den Datensatz zu erkunden.