Digitale Stilometrie (Sommersemester 2024)
Das Seminar lief vom 18. April 2024 bis 18. Juli 2024 an der Freien Universität Berlin. Der hier veröffentlichte Seminarplan ist als Dokumentation gedacht.
Ort: JK 31/124 (Habelschwerdter Allee 45)
Zeit: Do 14:00–16:00
Veranstaltungsbeschreibung
Die digitale Stilometrie gehört zu den etablierten Praktiken des Distant Reading. Mit ihrer Hilfe können große Textmengen auf statistisch auffällige Stilmerkmale hin befragt werden. Sie hilft bei der Autor*innenschaftsattribution, wenn anonym publizierte Texte oder eine nicht gesicherte Verfasserschaft vorliegen. Auch bei der Stilanalyse einzelner Autor*innen oder innerhalb bestimmter Genres oder Epochen kommt sie zum Einsatz. Nach der Vermittlung der zugrundeliegenden Algorithmen liegt der Schwerpunkt der Veranstaltung auf dem praktischen Einsatz stilometrischer Tools anhand vorgegebener oder eigener literaturwissenschaftlicher Szenarios. Dabei werden auch Grundlagen der Datenaufbereitung vermittelt, die zum Handwerkszeug gehören, wenn mit digitalen Objekten gearbeitet wird.
Verantwortlich
Organisatorisches
Übersicht
1. Sitzung: Einstieg (18.04.2024)
- Orga
- Vorstellungsrunde
- Name
- Fach, Bachelor oder Master, Modul
- Erfahrungen mit Stilometrie?
- Anwesenheitsliste
- Bedingungen für die Bestätigung der aktiven Teilnahme
- jeweils ein Referat zu einem selbstgewählten Stilometrie-Paper
- Arbeit an einem Semesterprojekt eigener Wahl
- Voraussetzungen für eine Hausarbeit
- genuine Forschungsfrage, die gern aus dem Semesterprojekt erwachsen kann
- vor Beginn der Arbeit bitte das Thema absprechen und Gliederung vorschlagen
- Abgabetermin: 30.09.2024
- Bookmarks
- Blackboard (Uni-Mails regelmäßig abrufen!)
- Seminar-Wiki
- Vorstellungsrunde
- gemeinsame A-priori-Begriffssammlung zum Thema ›Stilometrie‹
- Stil, Style, Autorschaft, Wörter/Worte, Eigenheiten, Ton, Tonalität, Adjektive, Wortarten, Stimmungsfelder, Themen, wie man Worte verwendet, Emotionen, soziale Klasse, Soziolekte, Poesie
- Präsentation zur Einführung (Folien)
- Besprechung des Seminarplans
- Deadline für die Themenfindung zu den Semesterprojekten: 16.05.2024
- Quellen für die Kurzreferate
- Stylometry Bibliography von Christof Schöch
- Index of DH Conferences
- Google: “stylometry term1 term2 …”
2. Sitzung: Was ist Stilometrie? (25.04.2024)
- Fortsetzung der Präsentation (Folien)
- Vorführung von Stylo anhand des Übungsbeispiels
- Hausaufgaben
- Marie Flüh: Tooleintrag ›Voyant‹ (in: forTEXT. Literatur digital erforschen, 2018)
- Mareike Schumacher: Tutorial: Voyant-Tools zur Textvisualisierung nutzen (YouTube-Video, 2019, 8 Min.)
- Katrin Droste, Berenike Herrmann: AntConc (in: Literatur rechnen. Ein Wiki zur digitalen Textanalyse, 2012–2013, ausführliche Toolbeschreibung zur Version 3)
- Christian Schneijderberg: Einführung und Anleitung zu AntConc mit Beispielen (in: Sozialwissenschaftliche Methodenberatung, 2022)
- AntConc installieren (Version 4!)
3. Sitzung: Voyant und AntConc (02.05.2024)
- Nachträge von letzter Stunde
- Studien zu Satzlängen bei Georges Simenon (und Proust) (doi:10.5281/zenodo.4622789)
- gute Quellen für Volltexte
- Hands-on mit Voyant entlang der Lerneinheit
- Marie Flüh: Textvisualisierung mit Voyant
- Hands-on mit AntConc
- Einstiegsübung anhand der sechs Romane von Christian Kracht
- AntConc und Stoppwortlisten
- Stoppwortfunktion wurde aufgrund der Nachfrage nachträglich in AntConc 4 eingebaut, vgl. das Announcement von Laurence Anthony vom 9. Juni 2022: »The latest version of AntConc 4 now has the ability to add a stop list. You will find the function in the Global Settings under ›Tool filters‹, where you can use or hide words from a list across a variety of tools.«
- Beispiel für eine deutsche Stoppwortliste: https://github.com/solariz/german_stopwords
- Keyness mit Vergleichskorpora
- Hausaufgaben
- Jan Horstmann: Tooleintrag ›Stylo‹ (in: forTEXT. Literatur digital erforschen, 2019)
- Stylo installieren (Schritt-für-Schritt-Anleitung)
4. Sitzung: Stylo I (16.05.2024)
- Intro
- Screencast zu stilometrischer Untersuchung der Gilmore Girls-Skripte (20 Min., mit Dank an Rebecca White!)
- Stylo
- Stylo-Installation erfolgreich?
- Recap: Stylo installieren (Schritt-für-Schritt-Anleitung)
- Übungen mit Stylo
- Übungskorpora
- guess-the-author
- vicki-baum
- hermann-hesse
- 68-german-novels
- weitere Korpora
- Stylo-Installation erfolgreich?
5. Sitzung: Textkorpora und Präprozessierung (23.05.2024)
- Texteditor installieren, der reguläre Ausdrücke beherrscht
- z. B. Visual Studio Code (VS Code), kostenlos
- Beispiel zur Motivation
- Bereinigung eines gescannten Textes mit RegExp
- Korpusarbeit
- Plain-Text- (TXT) und andere Formate (etwa XML, HTML)
- Goethes »Faust I«
- im XML-Format
- im TXT-Format (nur Sprechtext)
- Goethes »Faust I«
- Hermann Hesses »Unterm Rad«
- im HTML-Format
- im TXT-Format
- Konvertierungen
- im TXT-Format aus Microsoft Word, LibreOffice usw. speichern
- Konvertierung von E-Books: calibre
- Plain-Text- (TXT) und andere Formate (etwa XML, HTML)
- Reguläre Ausdrücke (Regex, RegExp)
- Kurzdefinition in einfacher Sprache (via ChatGPT)
- Häufig verwendete Symbole und Syntax
- zum Üben: regex101.com
- Beispiel für copy & paste:
[2019-14-14 12:39] Sam: hallo
[2019-14-14 15:34] Ben: klalaaalalaalala
[2019-14-14 16:49] Sam: hallo.
- OCR
- Transkribus
- eScriptorium
6. Sitzung: Stylo II (30.05.2024)
- Referat zum Paper
- Helena Montserrat Gomez Adorno, Germán Rios, Juan Pablo Posadas Durán, Grigori Sidorov, Gerardo Sierra: Stylometry-based Approach for Detecting Writing Style Changes in Literary Texts. In: Computación y Sistemas. Vol. 22, No. 1 (2018), S. 47–53. (doi:10.13053/cys-22-1-2882)
- Recap zu letzter Woche
- Fortsetzung des Hands-on mit Stylo anhand der gewählten Semesterprojekte
7. Sitzung: Gephi (06.06.2024)
- Gephi
- Gephi installieren
- forTEXT:
- Mareike Schumacher: Tooleintrag ›Gephi‹ (in: forTEXT. Literatur digital erforschen, 2019)
- Mareike Schumacher: Lerneinheit ›Netzwerkanalyse mit Gephi‹ (in: forTEXT. Literatur digital erforschen, 2020)
- Beispieldatei für die Einübung: dracor.org/ger/schiller-die-jungfrau-von-orleans#downloads
- Beispiele
- für stilometrische Netzwerkdiagramme
- einige Übungskorpora siehe 4. Sitzung
8. Sitzung: Arbeit an den Semesterprojekten (13.06.2024)
9. Sitzung: Autor*\innenschaft und Gattungszugehörigkeit (20.06.2024)
- Referat zum Paper
- Jacques Savoy: Elena Ferrante: A Case Study in Authorship Attribution. In: Machine Learning Methods for Stylometry. Cham: Springer 2020, S. 191–210. (doi:10.1007/978-3-030-53360-1_8)
- Besprechung der Lektüre
- Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: Philologie im Netz (PhiN). Beiheft 7/2014: Literaturwissenschaft im digitalen Medienwandel. Hrsg. von Christof Schöch und Lars Schneider. S. 130–157.
- Welche beiden Methoden zur Ergebnisverbesserung werden beschrieben?
- Inwiefern haben unterschiedliche Distanzmaße ein jeweils anderes Gewicht?
- Worin unterscheiden sich Cluster Analysis/Dendrogramm und Bootstrapping?
10. Sitzung: »Delta« in der stilometrischen Autor*innenschaftsattribution (27.06.2024)
- Referat zum Paper
- Agata Hołobut, Jan Rybicki: The Stylometry of Film Dialogue: Pros and Pitfalls. In: Digital Humanities Quarterly. Vol. 14, No. 4 (2020).
- Besprechung der Lektüre
- Andreas Büttner, Friedrich Michael Dimpel, Stefan Evert, Fotis Jannidis, Steffen Pielström, Thomas Proisl, Isabella Reger: »Delta« in der stilometrischen Autorschaftsattribution. In: Zeitschrift für digitale Geisteswissenschaften. 2017. (doi:10.17175/2017_006)
- Regulärer Ausdruck zur Beseitigung von Trennungen in OCR-Scans
find: ([a-zäöüß])¬\n([a-zäöüß]+[\.\?!;,]*)
replace: $1$2\n
11. Sitzung: Stylo III (04.07.2024)
- Referat zum Paper
- Massimo Salgaro: »Late Style« Put to the Test: Goethe’s, Musil’s, and Kafka’s Late Works. In: ders.: Stylistics, Stylometry and Sentiment Analysis in German Studies. The Operationalization of Literary Values. Göttingen: V&R unipress 2023, S. 51–79. (doi:10.14220/9783737015707.51)
- YouTube-Videos zu Stilometrie-Vorträgen von der letzten internationalen Digital-Humanities-Konferenz DH2023
12. Sitzung: Rolling Delta (11.07.2024)
- Referat zum Paper
- Daniil Skorinkin, Boris Orekhov: Hacking stylometry with multiple voices: Imaginary writers can override authorial signal in Delta. In: Digital Scholarship in the Humanities. Vol. 38, No. 3 (September 2023), S. 1247–1266. (doi:10.1093/llc/fqad012)
- Rolling Delta zur Einführung
- Mareike Schumacher: Tutorial: Die Rolling Delta Funktion in Stylo nutzen, um Autorenstil zu analysieren (YouTube-Video, 2019, 12 Min.)
13. Sitzung: Präsentation der Semesterprojekte (18.07.2024)
- Semesterprojekte
- Autorschaftssignale in den englischsprachigen Übersetzungen der Werke von Friedrich Nietzsche
- Stilometrischer Vergleich von in Versen verfassten Werken Goethes (Alexandriner, Blankvers, Hexameter, Knittel) – vgl. hier
- Stilometrischer Vergleich der englischsprachigen Übersetzungen von Vicki Baums Werken
- Stilometrische Untersuchungen zur Popliteratur
- Destratifikation englischer Übersetzungen von Prousts »À la recherche du temps perdu«
- Stilistische Änderungen in Goethes Briefen je nach Adressat\in