Bei der Weiterentwicklung der Sprachdatenplattform Swiss-AL zu einer Open-Research-Data (ORD) Ressource macht das ZHAW Digital Discourse Lab etwas besser, was KI-basierte Textgenerierungssysteme wie Chat GPT noch nicht beachten – und schafft damit einen Mehrwert für Forscherinnen und Forscher der Angewandten Wissenschaften.
Gastbeitrag von Daniela Baumann, Institut für Angewandte Medienwissenschaft.
Titelbild von Ricardo Farina Mora, Multimediaspezialist ZHAW digital.
KI-basierte Textgenerierungssysteme wie Chat-GPT zeigen, wofür sich grosse Mengen von Textdaten einsetzen lassen. Aus der Perspektive von Open Science lässt sich jedoch viel Kritik an solchen Systemen üben: rechtliche und ethische Probleme werden ignoriert, die Zusammenstellung der verwendeten Daten ist intransparent und keineswegs repräsentativ. Die Evaluation und Reproduktion der Modelle ist daher kaum möglich.
Grösste Sprachsammlung der Schweiz
Mit Swiss-AL, einer Plattform für Sprachdaten für die angewandte Forschung, geht das Digital Discourse Lab des Departements Angewandte Linguistik einen anderen Weg. Die Plattform enthält mit über 4.5 Millionen Texten die grösste Korpusfamilie der Schweiz (DE, FR, IT, RM). Darin enthalten sind Texte von zentralen Akteuren öffentlicher Kommunikation in der Schweiz (z.B. journalistische Medien aus der gesamten Schweiz, Bundes- und kantonale Behörden, Berufsverbände, Universitäten, NGOs), die Forschenden als Datengrundlage für die Untersuchung aktueller gesellschaftlicher Diskurse dienen. Durch die Dokumentation der Datenverarbeitung und die Bereitstellung der Daten trägt Swiss-AL zur aktuellen Open Science Transformation bei.