Distant Reading: Wie viel Distanz zum Text ist gesund?

In seinem Buch „Distant Reading“, dass ich vor kurzem hier vorgestellt habe, behauptet Franco Moretti bewusst provokant, es würde nichts nützen, immer mehr zu lesen. Statt dessen müssten Literaturwissenschaftler endlich die Kunst des nicht-Lesens erlernen. Dieser Satz hat mich nicht lange erschüttert und schnell begeistert. Ja, das nicht-Lesen war es, dass ich in meiner Doktorarbeit auch betreiben wollte. Jetzt habe ich ein erstes Distant-Reading Tool ausprobiert und möchte kurz zurückschauen, welche Ungenauigkeiten man in Kauf nehmen muss, wenn man damit arbeiten möchte. Dazu habe ich einen Text zuerst in einem Mittelweg zwischen Close und Distant Reading locker nebenbei gelesen und alle Ortsnamen, die mir aufgefallen sind, in eine Tabelle geschrieben. Danach habe ich den gleichen Text mit dem Stanford Named Entity Recognizer analysiert. Zu guter Letzt habe ich dann den Text noch einmal sogfältig mit CATMA getaggt. Die Ergebnisse dieses close- gegen not too close und distant reading möchte ich in diesem Post mit euch teilen.

Franco Moretti has stated in his book „Distant Reading“ that we should start to learn how not to read. Despite the provoking undertone this was a phrase that cought me directly and I definitely wanted to start learning how not to read. Now that I tried to use a first distant reading tool on  literary texts, I would like to reflect a little on the pros and cons of distant reading. Therefore I tried first to read a text rather fast and not too closely, then I let the same text be read by the Stanford Named Entity Recognizer and finally close read the text and tagged it with CATMA. Now I want to share my experiences with you.

Close Reading

Für meinen Methodenvergleich habe ich die ersten 100 Seiten eines Romans (also effektiv die ersten 90 Seiten, da der Text wie üblich nicht auf Seite 1 beginnt) mit Hilfe des Tools CATMA getaggt. Was hier Ausgangspunkt sein soll, war in meinem kleinen Experiment eigentlich der letzte Schritt, denn ein Close Reading kann erst einsetzen, wenn man sich bereits einige Gedanken zu den hervorzuhebenden Kategorien gemacht hat. Insgesamt habe ich auf diese Weise 91 Ortsnennungen markiert, die hier als 100% angelegt werden sollen.

Not too close Reading

Der Schritt, der hier als zweites aufgeführt wird, war eigentlich mein erster. In einem spontanen Einfall, begann ich, einfach mal drauf los zu lesen und alle Ortsnennungen in eine Tabelle einzutragen. Dies geschah auf dem Sofa, in der U-Bahn oder wo auch immer ich gerade ein paar Minuten Zeit fand. Ergebnis ist, dass ich von den 91 oben erwähnten Ortsnennungen 67 erfasst habe, also tatsächlich nur etwa 74%. Diese zugegeben recht schlechte Quote kann natürlich einerseits durch mangelnde Sorgfalt begründet werden. Allein dadurch lässt sie sich aber nicht erklären. Ein zweites Problem dessen, was ich hier „not too close Reading“ nenne ist, dass beim spontanen Draufloslesen und Annotieren Kategorien noch nicht eng genug gefasst sind. Selbst bei einer recht präzise scheinenden Kategorie wie der des Ortes gibt es immer wieder Unschärfen. Ein Beispiel wie „er wohnt in der Rothenbaumchaussee 71 in der Nähe der Hamburger Universität“ kann z.B. als eine Ortsnennung oder als zwei betrachtet werden. Untersucht man, wie ich, die Verknüpfung von Orten mit kultureller Bedeutung, so liegt es nahe, hier zwei Notizen zu machen – Rothenbaumchaussee + Wohnen und Hamburg + Universität. Beim spontanen Lesen kommt es einem aber erst einmal wie eine einzige Nennung vor.

Der große Vorteil des „not too close Readings“ gegenüber dem Distant Reading ist, dass hier in der Regel keine Fehler entstehen. So werden zwar nicht alle Erwähnungen erfasst, aber immerhin wird nichts markiert, das nicht wirklich ein Ortsname ist. Am Ende muss man also seine Tabelle, wenn sie einmal steht, nicht noch einmal auf Fehler durchsehen.

Bearbeitet man ein ganzes Korpus mit dieser Technik, so ist davon auszugehen, dass sich im Verlauf des Lesens ein Lerneffekt einstellt. Am Ende wird dies darauf hinauslaufen, dass die ersten Datensätze von schlechterer Qualität sind als die letzten. Selbst wenn man nicht von der positiven Annahme ausgeht, dass die Lernkurve immer weiter ansteigt, so kann man damit rechnen, dass immer andere Merkmale in den Fokus der Aufmerksamkeit rutschen und so zumindest von einer gewissen Heterogenität der Datensätze gesprochen werden kann.

Distant Reading

In meinem letzten Artikel habe ich den Stanford Named Entity Recognizer bereits kurz vorgestellt. Darin habe ich auch schon darauf verwiesen, dass er mit einer Genauigkeit von etwa 60-70% Entitäten erkennt. Tatsächlich hat dieses Tool in meiner Stichprobe 62 Ortsnennungen richtig erkannt. Damit liegt die Quote von 68% also genau in der erwarteten Quote. Sie liegt auch nicht allzu weit von der Genauigkeit dessen entfernt, was ich als Ergebnis durch nicht sehr aufmerksames Lesen nebenbei  herausbekam. Allerdings ist dies eine großzügige Auslegung, da darunter ein paar Kennzeichnungen sind, die nicht meinem Interesse an der Kategorie „Orte“ entsprechen und die somit für meine Zwecke auch nicht von Interesse sind. So ist z.B. „im Rinnstein“ als Ort richtig benannt, es handelt sich aber nicht um eine konkrete Ortsangabe, die auf einer Karte geolokalisiert werden könnte. Gemäß meiner Auslegung der Kategorie wurden also nur 53 Entitäten richtig herausgefiltert; etwa 58%.

Nun muss man aber auch mal lobend und staunend erwähnen, dass der Stanford NER für das Lesen des gesamten Textes (etwa 700 Seiten) schlappe 4 Minuten brauchte, während ich damit sicher zwei Wochen verbrachte. Wenn ich täglich auch nicht viel – vielleicht 15 Minuten – las, so brauchte ich insgesamt wohl immer noch ca. 52 Mal länger als die Software. Bei großen Korpora sollte darum dieser Zeitfaktor in eine Entscheidung zur Methodik mit einbezogen werden.

Der Stanford NER hat in dieser Stichprobe 33 Mal Entitäten falsch als Orte getagt, was 34% aller als Orte getaggten Worte entspricht. Diese Fehlerquote ist in meinen Augen sehr hoch. Sie ist allerdings recht leicht zu beheben, indem man die Liste der gefundenen Entitäten einfach nachbearbeitet. So wird man einige Zeit, die das Tool einem verschafft hat zwar wieder verbrauchen, wohl aber kaum so lange benötigen wie zum Lesen des Textes nötig wäre.

Anders als beim menschlichen Lesen kann man bei der Verwendung eines Computerprogrammes davon ausgehen, dass diese Quoten relativ stabil bleiben. Für die Vergleichbarkeit in einer großen Studie ist dieser Faktor sicher nicht unbedeutend. Ein nicht lernfähiger Algorithmus wie der des Stanford NER wird immer die gleiche Treffsicherheit aufweisen und immer die gleichen Fehler machen. Wenn man also die Fehler durch Nachbearbeiten der Daten ausmerzt kann man von gleichbleibend guten (oder schlechten) Datensätzen ausgehen, selbst wenn man 1.000 oder mehr Romane auf diese Weise nicht liest. Die Ergebnisse können so zumindest als recht gut vergleichbar gelten.

Wie viel Distanz zum Text kann eine literarische Analyse verkraften?

So komme ich zurück zu meiner Ausgangsfrage und dem von Moretti geforderten Erlernen des nicht-Lesens. Dazu muss ich natürlich kurz einräumen, dass Named Entity Recognition bei Weitem nicht die einzige Distant Reading Technik ist, die man auf literarische Texte anwenden könnte. Es ist auch keinesfalls die beste, da sie mitnichten zur Analyse literarischer Texte erfunden wurde. Auch ist hier sicher noch mit einiger Verbesserung im Hinblick auf Precision und Recall zu rechnen.

Innerhalb meines Projektes kommt der Faktor hinzu, dass ich die Daten zur weiteren Auswertung und Visualisierung für andere Tools kompatibel machen muss. Hier muss also das Ergebnis aus dem NER Tool mehrfach nachbearbeitet werden. Zwar habe ich für den nächsten Schritt (Visualisierung der Ergebnisse in einer interaktiven Karte) noch kein vergleichendes Experiment durchgeführt, das darauf abzielt zu testen, ob sich grundlegend in Abhängigkeit von der Lesemethode eine andere Interpretationsbasis ergibt, doch zur Zeit scheint mir der beste der Mittelweg des schnellen Lesens zu sein. Denn den für mich entscheidenden Vorteil habe ich hier noch nicht erwähnt: Man weiß selbst beim schnellen Lesen am Ende, worum es in einem Text geht. Als Ausgangspunkt für eine Interpretation kann dies von großem Vorteil sein.

Close Reading

For this comparison of reading methods, I tagged the first 100 pages of a crime novel from Hamburg very carefully with CATMA. To be honest, what comes first here was indeed my last step, because close reading cannot be done when one hasn’t already thought about the categories one wants to apply to the text. The category I chose according to my PhD project, was the mention of placenames. I found 91 mentions in a whole which served me as my 100% for the following steps.

Reading not too closely

Following a spontaneous idea, I startet to read a crime novel from Hamburg, which will probably be in my corpus, and wrote down all mentions of real places and the meaning bound to it. I did this while sitting on my sofa or in the subway, thus using even little bits of time to do so. In the end I had 67 namings of places neatly put into an xls file. This is about 74% of the whole I found by close reading. I admit that this is not really good and of course it can partly be explained by my lack of carefulness. But in addition to that there are other reasons for this rather bad outcome. If you start reading and annotating spontaneously, most of the time you will not have your categories as well defined as they could be. Even thinking them through in advance will not spare you the experience of redefining throughout your readings. Even when taking a seemingly well defined category as I did with space, you will find some namings that will not fit tidily into it. One example for ambiguity in the category of space is that sometimes you are not really sure if you are facing a single or a double naming, which is the case in the following example: „He lived in the Rothenbaumchaussee 71, which is situated in the university quarter of Hamburg“. You could decide for it being only one mention with „Rothenbaumchaussee/University Quarter“ tied to e.g. „Living Space“ but you could also go for splitting it in two like this: Rothebaumchaussee – Living Space, Hamburg – University City. When reading not too closely I tagged them as one, by closereading, I decided to go for the second approach.

Another problem I see when reflecting on this experience is, that clearly the human brain is a learning device. This means that your tagging will improve (or at least change) during your work on a corpus. In the end you will have datasets of different quality which makes them less comparable with eachother.

Distant Reading

In my last posting, I already presented the Stanford Named Entity Recognizer. In the same posting I mentioned that, used on German texts, it can reach a precision of 60-70%. Well, when I tried it on the 100 pages of my example text, it did find 62 Placenames correctly which is 68% and thus fits exactly in there. On top this sounds not too far away from what I found with my „not too close reading“ approach. But, this number is a generous way to interpret the outcome, because, again this is also a matter of categorizing. In my PhD I want to focus on the naming of concrete places which can be geolocated on a map. The Stanford NER tags some places correctly as such but they might not be concrete enough to be mapped in a second step. A good example for this is „in the gutter“ which clearly is a place but not concrete enough to map it. In the end, I had only 53 entities which I could use for further investigation; this is not more than 58%.

But, I have to mention – and I do it with the most honest admiration – that the Stanford NER took only about 4 minutes to read the full text (which is about 700 pages long). I guess, I took about two weeks for that. Eventhough I did not read a lot on a daily basis – maybe 15 minutes a day – that would still make him 52 times faster than me. Working on large corpora this defenitely could count as a big pro.

On the con side there are the mistakes of the Stanford NER. Even when reading not very patiently a human reader would probably not tag „Basel“ (a city in Switzerland) as a place name when it is used as surname of a character. Ambiguities like this one have led to a number of 33 mistakes when using the Stanford NER. This is 34% of all of his findings, which seems a lot to me. But on the other side most of those mistakes (maybe except the one of the example named above) can be corrected through checking and improving your data in the end, even if you have not read the text.

One last thing one can state is, that although computerprograms are not as accurate as human readers, they have at least the same accuracy for all of the texts in a corpus. So if you are willing to check and improve your data in order to minimize the mistakes in the end you will have comparable datasets to go on with for your study.

How distant should we read?

This leads back to the questions I had in the first place. Does it really not help to read more, as Moretti sais? Should we really learn not to read?

In order to answer these questions for myself, I first have to say that Named Entity Recognition is not the only possibility for distant reading of literary texts. It is not the best one either and it was not even made for the purpose of literary criticism in the first place. It is a linguistic tool which was developed for factual texts, not for literature. We are only just starting to apply the method to literary texts and I am sure that there still will be a lot of improvement of the existing tools.

For my own research topic, I also have to think about the interoperability of the outcome of one tool with others. Using the Stanford NER means to me, that I have to go over the data quite often. I have to run the Stanford NER first, than extract only the place mentions into a table (which can be done e.g. with CATMA) and then I have to upload the table to a GIS for doing the geolocation completion. This means that some of the time the tool saves me by reading the text for me will be spent on improving the data in the end.

Eventhough I did not yet have the time to do the same little experiment I did here with the next step in my project – the geolocalization of the extracted places – I tend to favor the second reading method. This is mostly because of one thing, I did not mention yet. If you read a text, even if it is not as carefully as it could be, in the end, you will know what it is about. In my eyes this is still the best starting point for any interpretive study one would like to do. So I would answer the questions by stating that in the end our readings should not become too distant at all. So, I would go for learning how to read fast rather than learning how not to read at all.

Of course, this will not be the end of my experimenting with reading methods, so you can be sure to read more about the topic on this blog soon.

3 Gedanken zu „Distant Reading: Wie viel Distanz zum Text ist gesund?

  1. Interessanter Ansatz (CATMA + NER)!
    Lediglich drei Anmerkungen/Bemerkungen:
    a) Moretti spricht sich letztlich nicht gegen das close reading aus, sondern baut sogar explizit auf derartigen Einzeltextlektüren auf – die Daten für seine „Graphs“ in „Graphs. Maps. Trees“ gewinnt er etwa aus ihnen -, womit das distant reading nicht die Negation des close reading, sondern eine nachgeschaltete Textuntersuchung sein kann.
    b) Weil das systematische Taggen – hier mit CATMA – Textkenntnis, d.h. bestenfalls eine erste Lektüre, voraussetzt, könnte man die so entwickelte Systematik auch in einer zweiten, händischen Lektüre ver- und anwenden und dieselbe Trefferquote erzielen; der Leser ist ja derselbe, nur das Lesewerkzeug (CATMA vs. Stift/Papier) unterscheidet sich.
    b) Der Viennavigator (TU Wien & Uni Wien), ein Projekt, das sich der Visualisierung von (konkreten) Ortsangaben in literarischen Texten widmet, könnte für weitere Überlegungen interessant sein.

    Beste Grüße
    Nico

    1. Hi, vielen Dank für deine Anmerkungen.

      Es ist wahr, dass Moretti wohl eher bewusst provozieren als das Close Reading abschaffen möchte, wenn er davon spricht, dass gelernt werden muss, wie man nicht ließt. Viele seiner eigenen Studien weisen – wie du schon sagtest – ja auch eine sehr gesunde Mischform auf. Ebenso wie vielleicht auch ihn, fasziniert mich aber der Gedanke, was passiert, wenn wir tatsächlich, wie er sagt „das Nicht-lesen lernen“. Wie weit kommen wir mit unserer digitalen Methodik eigentlich, wenn wir die Inhalte unserer Korpora nicht oder nur teilweise gelesen haben? Ich möchte eher diesen Gedanken testen als Moretti in irgendeiner Weise zu unterstellen, dass er ihn dogmatisch vertreten würde – danke also fürs Geraderücken hier!

      In der Tat ist für die Herkömmliche Nutzung von Catma Textkenntnis notwendig. Es ist eigentlich ein Close Reading Tool. Durch die Kombination mit NER Tools (oder allgemeiner NLP Tools) kann man allerdings automatisch erstellte Tags mit Catma auswerten. In der besten aller Welten kann man dann kollaborativ an einem Korpus arbeiten, dass entspechend des mitwirkenden Teams relativ groß sein kann und die automatischen Tags prüfen und ergänzen. Solche Ressourcen stehen mir leider nicht zur Verfügung. So muss am Ende ein stimmiger Kompromiss zwischen close und distant Reading und small und big Data gefunden werden.

      Die Arbeit der Kollegen in Wien werde ich mir gleich mal ansehen – das hört sich wirklich sehr spannend an und ich bin zuvor noch nicht drüber gestolpert.

      Vielen Dank noch einmal insgesamt für die Tipps!
      Beste Grüße,
      Mareike

Kommentar verfassen