Korpuslinguistische Werkzeuge für die digitalen Geisteswissenschaften – Beispiele aus dem Projekt e-Identity

, 11:30 am to

Vortrag von Prof. Dr. Ulrich Heid (Universität Hildesheim) im Heyne-Haus, Papendiek 16, Seminarraum 1.

Abstract: Ausgangspunkt der Überlegungen in dem Vortrag ist der Bedarf und der aktuelle Stand des aktuell laufenden e-Humanities-Projekts e-Identity. Es ist eine Kooperation zwischen Politikwissenschaftlern (Universität Stuttgart) und Computerlinguisten (Universitäten Stuttgart, Potsdam und Hildesheim), bei der es ein Ziel ist, auf der Grundlage großer Textsammlungen politikwissenschaftliche Fragestellungen zu bearbeiten, die um die Evokation von verschiedenen Identitätskonzepten in Diskursen über Krieg und Frieden seit Ende des Kalten Krieges kreisen: Welche Identitäten werden angesprochen (nationale, religiöse, europäische, ...)? Wer verweist auf welche Art von Identitätskonzepten? Wie werden Identitätskonstrukte kombiniert?

Damit solche Untersuchungen möglich werden, braucht es Datenmaterial (in e-Identity: mehr als 800.000 Zeitungsartikel); die Texte werden „roh“ aus digitalen Zeitungsarchiven entnommen und in mehreren Schritten für die Analyse aufbereitet; folgendes sind Beispiele für solche Aufbereitungsschritte: Trennung von Text und Metadaten; Bereinigung von Samples, je nach Detailfragestellung; Identifikation von Personen, die Diskurse mit Identitätsbezug führen; Identifikation von für die Fragestellung relevanten Textstücken, usw.

Im Vortrag wird zunächst eine allgemeine Sicht auf die Schritte der Text- „Verarbeitung“ gegeben (Funktionen, Architektur), die die Ziele von Politikwissenschaftlern und Computerlinguisten zusammenführt: Wie sollen Werkzeuge zur Korpusverarbeitung dazu eingesetzt werden, dass der geisteswissenschaftliche Forscher ohne Programmieraufwand vom Rohtext aus dem Medienarchiv zu auswertbaren Daten kommt? Da das Projekt noch läuft und aktuell viele computerlinguistische Bausteine existieren, diese aber noch nicht zusammengebunden sind, beschränkt sich die darauffolgende Diskussion konkreter Werkzeuge auf den Hildesheimer Anteil des Projekts: eine Umgebung zur Bereinigung der Daten aus den Medienarchiven. Daran kann aber auch deutlich gemacht werden, wie wir uns Werkzeuge vorstellen, die ohne computerlinguistisch-technisches Vorwissen benutzt werden können.

Homepage von Ulrich Heid

Organisation: J. Berenike Herrmann