CLOSURE #1 - Wildfeuer und Bateman - Zwischen gutter und closure

Zwischen gutter und closure
Zur Interpretation der Leerstelle im Comic durch Inferenzen und dynamische Diskursinterpretation

Janina Wildfeuer und John A. Bateman (Bremen)

Die Frage nach der Leerstelle zwischen den Panels eines Comics, dem gutter oder ›Panelspalt‹, wird in der Comicforschung viel beachtet, grundsätzlich allerdings sehr unterschiedlich beantwortet (vgl. Bearden-White; Barnes; Goggin/Hassler-Forest; Postema). Zwar wird der Verstehensprozess beim Comic-Lesen fast nie ohne das mentale Füllen der Leerstellen beschrieben, also immer als ein aktives Interpretieren und weitestgehend einheitlich als Prinzip der closure gesehen (vgl. McCloud), jedoch fehlt es noch an theoretischen wie empirisch nachgewiesenen Informationen über diesen Prozess. Dieser Beitrag greift das theoretische Interesse am Raum zwischen den Panels (vgl. Goggin/Hassler-Forest) sowie am unsichtbaren Zeichen in visuellen Narrativen erneut auf (vgl. Bearden-White). Wir gehen dabei von vornherein davon aus, dass diese Leerstelle Informationen vermittelt bzw. hervorruft, die für den Prozess der Bedeutungskonstruktion und die Interpretation des gesamten Comics eine wichtige Rolle spielen.

Um die Bedeutung des gutters empirisch bestätigen zu können, wählen wir eine für die Comicforschung neue Methode, deren Grundlage die Verbindung linguistischer, multimodal analytischer sowie logischer und formaler Beschreibungsansätze ist (vgl. Bateman/Wildfeuer 2014a; 2014b). Im Mittelpunkt steht dabei die Frage nach der kognitiven Konstruktion des Inhalts zwischen den Panels. Wir werden mithilfe einer semiotisch-abduktiven Analyse die notwendigen Inferenzen der Rezipient_innen während des Comiclesens und insbesondere ›zwischen‹ den Panels herausarbeiten. Solche Inferenzen werden heute nicht nur in pragmatisch, d. h. sprachhandlungstheoretisch ausgerichteten, textuellen Untersuchungsansätzen als grundlegende Analyseeinheiten gesehen, sondern auch als maßgebliche Bestandteile von rezeptionsästhetischen Herangehensweisen. Dort wurden sie bereits von Wolfgang Iser hervorgehoben, um objektiv und systematisch über Leerstellen in Texten nachdenken zu können. Textinterpretation versteht er als dynamischen Prozess der Bedeutungsrekonstruktion, bei dem vor allem die Interaktion zwischen dem Objekt selbst und den Rezipient_innen in den Vordergrund rückt:

Selbst wenn man unterstellt, daß jede Rezeption einen hohen Grad subjektiver Prägnanz besitzt, so besagt diese nicht, daß der rezipierte Text in eine privatistische Übergeschichte verschwindet. Denn in der Regel bleibt die subjektive Verarbeitung der Intersubjektivität zugänglich. Der Grund dafür läßt sich jedoch nur dann ausmachen, wenn man das Geschehen zwischen Text und Leser selbst in den Blick rückt. (Iser, 85)

Erst die Annahme dieser Interaktion erlaubt es, einerseits verlässliche Informationen über die textuellen und narrativen Strukturen im Text selbst sowie andererseits Details über die Prozesse der aktiven Semiose (vgl. Peirce) und kognitiven Konstruktion auf Seiten der Rezipient_innen zu erlangen.¹

Mehrere Theorien in der zeitgenössischen Sprachwissenschaft und Diskurssemantik bieten gut entwickelte Werkzeuge zur genauen und vor allem dynamischen Spezifizierung von Interpretationsmechanismen dieser Art (vgl. Hobbs; Martin/Rose). Diese Werkzeuge sind entwickelt worden, um das feinkörnige Material eines Textes mit bestimmten Schlussfolgerungsketten zu verknüpfen, denen die Rezipient_innen folgen müssen, um den Text zu verstehen. Eine solche Annäherung entspricht den allgemeinen Zielen der Diskursanalyse und stellt zugleich ein solideres Fundament für weitere empirische Forschung dar.

Unter ›multimodaler Linguistik‹ verstehen wir die Anwendung solcher Instrumentarien auf Analyseobjekte, die für ihre Bedeutungskonstruktion verschiedene semiotische Ressourcen heranziehen. Für den Comic ist dies nicht nur die einfache Kombination von Text und Bild, sondern auch der Fokus auf kleinere semiotische Eigenheiten, wie das Spiel mit Linien oder Farben, sowie größere, wie das Seitenlayout. All diese Ressourcen erzeugen gemeinsam Bedeutung und sind als eine zusammenwirkende, multimodale Einheit von den Rezipient_innen zu konstruieren. Solche Einheiten beschreiben wir weiterhin als ›Texte‹, obgleich sie sich mehrerer semiotischer Modalitäten bedienen. Daraus ergeben sich bei der Analyse Fragen nach dem Zusammenspiel von verbalem Text und Bild sowie nach der Bildung von Kohärenz und Struktur.

Bei dieser Vorgehensweise geht es nicht mehr um die einfache Decodierung semiotischer Informationen in Form denotativen Zeichenlesens, sondern um die Hinzuziehung abduktiver, d. h. anfechtbarer, Hypothesen aufgrund von Welt- und Kontextwissen. In Anlehnung an Peirce verstehen wir ›Abduktion‹ als Suche nach einer möglichen Ursache oder Erklärung, die zugleich grundlegenden logischen Prinzipien folgt, um die durch sie entstandenen Hypothesen zu verifizieren. Besonders erste Anwendungen von Methoden, die so genannte Kohärenz- oder Diskursrelationen herausarbeiten und damit die jeweiligen Inferenzen und das Füllen von Leerstellen zwischen Ereignissen explizit machen, haben bisher vielversprechende Ergebnisse erzielt.

Für größere Datenmengen von Comics als multimodale Artefakte aus visuellen und sprachlichen Zeichen gibt es jedoch bis heute kaum Anwendungen dieser Methoden, weil eine Anpassung an die medienspezifischen Eigenheiten bisher nicht vorgenommen wurde. Dieser Beitrag hat deswegen zum Ziel, aufbauend auf einer kurzen theoretischen Fundierung, die wir ausführlich in Bateman/Wildfeuer (2014a; 2014b) geleistet haben,² eine explizite Anwendung verbaler Diskurstheorien auf einen kurzen Ausschnitt aus der Graphic Novel City of Glass (Auster/Karasik/Mazzucchelli) vorzunehmen und damit zu zeigen, wie unser Zugang eine angemessene Grundlage für weitere empirische Arbeiten zu Comics im Allgemeinen schafft.

Leerstellen im visuellen und verbalen Diskurs

The ›gutter‹ between the two panels is therefore not the seat of a virtual image; it is the site of a semantic articulation, a logical conversion, that of a series of utterables (the panels) in a statement that is unique and coherent (the story). (Groensteen, 114)

In seiner viel beachteten Monografie The system of comics bezeichnet Groensteen den gutter als »that-which-is-not-represented-but-which-the-reader-cannot-help-but-to-infer« (Groensteen, 112), als kognitives, virtuelles Konstrukt also, das von den Rezipient_innen auf Grundlage der verfügbaren Informationen durch Inferenzen gefüllt werden muss. In den von uns in diesem Artikel ausgearbeiteten Termini ist dieses Füllen eine logische Ableitung (»conversion«) oder Ausarbeitung (»articulation«) einer übergeordneten Geschichte auf Basis des tatsächlich Gezeigten, d. h. auf Basis der Panels und ihrer individuellen, vorab nicht miteinander verbundenen Inhalte.

Auch McCloud, der zunächst relativ unspezifisch von »human imagination« (66) oder ›mental construction‹ (vgl. McCloud, 67) spricht, stellt im Weiteren immerhin sechs verschiedene Typen von Panel-Übergängen vor, welche die benötigten Schlussfolgerungen über den Inhalt der jeweiligen Panels und ihre mögliche Zusammengehörigkeit darstellen (vgl. McCloud, 70–72).

Abb. 1: Beispielpanelfolge zur closure-Debatte (McCloud, 68).

Wie diese aktive Teilnahme der Rezipient_innen vollzogen wird, macht McCloud mithilfe des in Abbildung 1 wiedergegebenen Beispiels deutlich. Indem dem gutter zwischen den beiden Panels ein Mord zugeschrieben wird, der in den Bildern selbst nicht dargestellt wird, wird die Leerstelle mit Informationen über das tatsächliche Fallenlassen der Axt sowie deren Schlagkraft und damit mit einer potentiell ausweitbaren semantischen Artikulation gefüllt. Bereits in der Aufeinanderfolge dieser beiden Panels und ihrer Interpretation wird deutlich, dass das erste Panel gewisse Erwartungen aufbaut, die nicht zuletzt von Spannung oder Angst getragen werden. Die Interpretation des zweiten Panels durch entsprechende Schlussfolgerungen bestätigt genau diese Erwartungen.

Zwar ist das Verhalten bei einer größeren Folge von Panels sicherlich anders zu behandeln als eine solche kurze Sequenz, jedoch ist es besonders spannend, diese durch ein einziges Panel bereits entstehenden Erwartungen, also Hypothesen über den weiteren Handlungsverlauf, als wichtigen Teil der Bedeutungskonstruktion anzunehmen und in einer Analyse der narrativen Struktur herauszuarbeiten. In dem von uns später analysierten, komplexeren Beispiel wird deutlich werden, dass bereits Hypothesen über die Verbindung zweier Panels durch die Interpretation weiterer Bildfolgen in Frage gestellt werden müssen. McCloud betont in seinen Ausführungen lediglich, dass die Interpretationen der Leerstelle zahlreich und unterschiedlich sein können und sehr stark von der subjektiven Einstellung der Rezipient_innen abhängen (vgl. McCloud, 68). Eine Möglichkeit der systematischen Erfassung dieser Interpretationen stellt er jedoch nicht vor, ebenso wenig macht er sich detailliertere Gedanken über die mentalen Prozesse, die für die Konstruktion der Bedeutung notwendig sind. Um nicht allein über subjektive Interpretationen zu sprechen bzw. um vor allem nach deren semantischer Basis zu fragen, bedarf es daher einer genaueren Analyse der von Groensteen so bezeichneten semantischen Artikulation bzw. logischen Konversion.

Für eine solche muss neben der Beschreibung der jeweiligen Inferenzen zunächst vor allem auch eine semantische Spezifikation der in den Panels dargestellten Informationen geleistet werden. Zwar gibt es Sprechblasen, deren Text auf einen Mord hinweist, allerdings werden alle weiteren Informationen nicht sprachlich realisiert und es steht in Frage, ob der sprachliche Anteil allein eine vollständige Interpretation des Gezeigten ermöglicht. Bei unserer unten durchgeführten Analyse von City of Glass ist dies sicherlich nicht der Fall. Für eine Gesamtinterpretation sowohl des Bild- als auch des Sprachanteils innerhalb einer multimodalen Analyse muss also bei den Rezipient_innen vor allem ein Bildlesen bzw. die Verarbeitung der visuellen Zeichen geschehen, um überhaupt von einem semantischen Gehalt der Panels ausgehen zu können.

Für die Berücksichtigung des sprachlichen Anteils in den captions stehen uns bereits die in der Linguistik herausgearbeiteten Methoden zur Verfügung. Daher werden wir unseren Schwerpunkt hier auf den Bildanteil legen, obwohl dieser auch immer wieder mit den captions zusammengebracht wird. Multimodale Analyseinstrumentarien, die zur Beschreibung von narrativen Prozessen in Bildern entwickelt wurden (vgl. Kress / van Leeuwen), eignen sich dazu, dieses Bildlesen, also die semantische Verarbeitung einzelner Panelinhalte, zu beschreiben. Besonders das Zusammenspiel unterschiedlicher semiotischer Ressourcen, wie Linienstärke, Farbe, Perspektive etc., das wir als ›Intersemiose‹ verstehen (vgl. Wildfeuer 2012 u. 2013), spielt hier eine wichtige Rolle und muss analytisch erfasst werden. Die dabei entstehenden unterschiedlichen Gehalte der einzelnen Panels müssen die Rezipient_innen dann in einem weiteren Interpretationsschritt sinnvoll in Verbindung setzen und zu einem kohärenten Ganzen ›artikulieren‹.

Sowohl die Prozesse der inhaltlichen Rekonstruktion als auch die sinnvolle Zusammensetzung der semantischen Gehalte stellen dann dar, was Groensteen als ›logische Konversion‹ bezeichnet hat und im Hinblick auf eine spätere Beschreibung der kognitiven Prozesse beim Füllen der Leerstelle von besonderem Interesse ist. Innerhalb diskursanalytischer Beschreibungsansätze für verbale Diskurse wird jene logische Konversion bereits detailliert vorgenommen. Nach ihrer erfolgreichen Übertragung auf den Film und aufgrund seiner starken Parallelen zu (rein) visuellen Narrativen (vgl. Bateman/Schmidt; Wildfeuer 2014a)³ erweist es sich auch für Comics und die Interpretation des gutters als angemessen, eine ähnliche Adaptation vorzunehmen, um die Inferenzen sichtbar zu machen und damit das virtuelle Konstrukt, das dem Prinzip der closure zugrunde liegt, deutlich expliziter darzustellen.

Für rein verbalsprachliche Texte ist die von Nicholas Asher und Alex Lascarides über viele Jahre entwickelte Segmented Discourse Representation Theory (SDRT), die eine so genannte logic of discourse interpretation zur Verfügung stellt, Vorreiter in der Analyse inferentieller Bedeutungskonstruktion (vgl. Asher/Lascarides 2003). Asher/Lascarides betrachten Diskurs bzw. Text grundsätzlich als eine Beschreibungseinheit oberhalb der Satzebene, die sich in Zeit und Raum entfaltet und damit eine dynamische Konstruktion ist, deren oft nicht explizit genannte Informationen die Rezipient_innen ebenso dynamisch auf Basis von Welt- und Kontextwissen inferieren. Dafür werden Bedeutungen einzelner Sätze durch Hypothesenbildung im Hinblick auf die Informationen ermittelt, die im und durch den Kontext hinzugefügt werden und so die Interpretation verändern können (vgl. Wildfeuer 2014c). In einem weiteren Schritt werden diese Bedeutungen dann mithilfe eines Sets an Diskursrelationen, die grundlegende zeitlich-räumliche oder auch kausale Verhältnisse beschreiben, miteinander verbunden. Unten werden wir einige der entsprechenden Diskursrelationen, die wir für Comics vorschlagen, einführen und ihre Anwendung in Bezug auf unseren Beispielausschnitt illustrieren. Unabhängig von der semiotischen Modalität werden diese Relationen im Allgemeinen als kognitive Einheiten verstanden – basierend auf der generellen Annahme, dass ›Kohärenz‹ keine dem Text inhärente Eigenschaft ist, sondern ihm durch die Rezipient_innen in Form von Inferenzen zugetragen wird.

Wir können die Funktions- und Anwendungsweise dieser Diskursrelationen an dem folgenden kurzen Beispiel verdeutlichen:

›Er holte aus und zielte mit der noch blutüberströmten Axt auf sein Gegenüber.
Ein greller Schrei durchbrach die Nacht.‹

Dieser Text entspricht etwa einer Verbalisierung des McCloud-Beispiels, ist aber ebenso als Auszug aus einem Kriminalroman vorstellbar. Er besteht aus zwei durch die Konjunktion ›und‹ parataktisch verbundenen Sätzen sowie einem dritten Satz, deren Bedeutungen aufgrund unseres Wortschatzes einfach zu erfassen sind. Zwar wissen wir weder Näheres über die Person (›Er‹) noch über sein Gegenüber, allerdings sind wir in der Lage, uns aus den gegebenen Informationen eine Situation zu konstruieren, welche die beiden vermutlich in Konfrontation sieht. Der dritte Satz beschreibt dann einen Umstand, der die Personen des ersten Satzes nicht näher betrifft, über den wir allerdings als Folge des bereits Beschriebenen mutmaßen. Tempus und Modus der Aussage lassen darauf schließen, dass der Schrei den Ereignissen ›Ausholen‹ und ›Zielen‹ zeitlich folgt und wir somit eine narrative Ereignisfolge haben. Zum anderen macht der Text zwar nicht explizit, dass der Schrei eine Folge des Ereignisses im ersten Satz ist, allerdings lässt sich aufgrund unseres Wissens darüber, was eine Axt bewirken kann, schlussfolgern, dass das Gegenüber von der Axt getroffen und verletzt worden sein kann und deswegen schreit. Wir setzen die beiden Sätze also miteinander in Beziehung und inferieren neben einer einfachen zeitlichen Aufeinanderfolge auch eine Ursache-Wirkung-Relation als verbindendes Element.

Dadurch füllen wir die Leerstelle inferentiell mit Informationen, die der Text selbst nicht zur Verfügung stellt. Beispielsweise fehlt es an einer den dritten Satz einleitenden Konjunktion, die eine temporale Relation, etwa durch ›dann‹ oder ›anschließend‹, vermitteln könnte. Auch wird nicht angezeigt, etwa durch ein Possessivpronomen ›sein‹, wessen Schrei zu hören ist.

Es sind demnach keine kohäsiven Gestaltungsmittel, die uns helfen, die Ereignisse miteinander zu verbinden, sondern auf der Semantik der einzelnen Ereignisse aufbauende Interpretationen ihres logischen Zusammenhangs, den wir mithilfe unseres Wissens über solche Situationen konstruieren und der uns ermöglicht, die Aufeinanderfolge der Sätze als kohärente (Kurz-)Geschichte zu rezipieren.

Wie die Sätze nun erfolgreich miteinander verbunden werden können, um eine maximal kohärente Struktur der Geschichte zu konstruieren, wird nach Asher/Lascarides durch das Inferieren von Diskursrelationen unter Zuhilfenahme logisch-formaler Bedingungen beschrieben. Diese Bedingungen geben an, in welchem Kontext und aufgrund welcher Gegebenheiten eine Diskursrelation von den Rezipient_innen interpretiert werden kann. Sie werden als so genannte Bedeutungspostulate und Defaultaxiome für jede Relation beschrieben, so dass ein explizites Set an logischen Formeln vorliegt, das helfen kann, den Inferenzprozess zur Interpretation dieser Relationen auf die notwendigen Gegebenheiten festzulegen (vgl. Asher/Lascarides 2003 sowie eine deutsche Zusammenfassung in Wildfeuer 2014c).

Tabelle 1: Übersicht über die von Asher/Lascarides beschriebenen Diskursrelationen zu Verbindungen zweier Diskurseinheiten / Aussagen ›a‹ und ›b‹.

Die sieben Hauptrelationen in der SDRT sind Narration, Explanation, Elaboration, Result, Background, Contrast und Parallel (vgl. Asher/Lascarides 2003, 145). In Tabelle 1 stellen wir diese mit den jeweils für ihre Inferenz im Kontext notwendigen Bedingungen und Verhältnisse dar. Damit eine Relation inferiert werden kann, müssen die Bedingungen und Verhältnisse zwischen den beiden zu verbindenden Einheiten gegeben sein.

Die für jede Relation gegebene Definition spezifiziert Zustände, die es einem Interpretanten ermöglichen, die unterspezifizierten Informationen, die wir auch für das sprachliche Beispiel oben aufgedeckt haben, aufgrund ihrer pragmatischen Präferiertheit im jeweiligen Kontext zu bestimmen. Das heißt, dass eine Relation aufgrund ihrer formalen Beschreibungen in einem bestimmten Kontext als angemessener gesehen werden kann und deswegen gegenüber einer anderen Relation, deren Bedeutungspostulate durch den Kontext nicht erfüllt werden, bevorzugt wird. Der Bestimmung dieser Präferiertheit und dem daraus resultierenden Interpretationsprozess liegt eine nicht-monotone Logik zugrunde, deren Schlüsse lediglich als mehr oder weniger wahrscheinlich gezogen werden können; man kann deswegen für sie keine Monotonie, d. h. keine Unwiderrufbarkeit der Inferenzen oder absolute Gültigkeit, annehmen, die auch nach Hinzufügung weiterer Informationen bestehen bleiben muss. Stattdessen vollziehen die Rezipient_innen mit jeder neuen Information weitere Wissensverarbeitungsprozesse, welche die jeweiligen Argumente in Frage stellen bzw. ihre Gültigkeit überprüfen. Diese Prozesse, die auch ›Diskursupdate‹ genannt werden, operieren mithilfe von lexikalischem und semantischem Wissen sowie kognitiven Zuständen der Rezipient_innen, die in ihrer Kombination spezifische Hinweise auf die zu inferierende Diskursrelation liefern (vgl. Asher/Lascarides 2003, 110). Die formalen Bedingungen können dabei als Standardregeln angesehen werden, welche die für eine Interpretation relevanten Informationen bestimmen. Je nach Kontext werden einfachere Relationen, die mit einer breiteren Spanne von Kontexten kompatibel sind, durch andere Relationen überschrieben, die den Kontext genauer und enger eingrenzen. Wenn also definitionsgemäß mehrere Relationen in Frage kommen, werden genauer passende bevorzugt. Daher werden sehr allgemeine Relationen, wie zum Beispiel ›Narration‹, die lediglich als zeitlich-örtliche Folge definiert wird, relativ häufig überschrieben.

Das Set an Relationen lässt sich medienspezifisch erweitern. Für den Comic-Diskurs haben wir bereits einige angepasst und auch neue aufgestellt (z. B. Enhancement oder Property), die wir in Tabelle 2 zusammenfassen. Für jede Relation, die hier mit ›C‹ (für ›Comic‹) markiert ist, stellen wir ähnlich der Formeln bei Asher/Lascarides sowohl ein Bedeutungspostulat (in den oberen Zeilen) als auch ein Defaultaxiom (in den unteren Zeilen) auf, das formal ausdrückt, welche Bedingungen für die Inferenz der Relation im Kontext und zwischen den Einheiten vorliegen müssen (vgl. Bateman/Wildfeuer 2014a).

Wir werden diese Relationen für unsere Analyse heranziehen, in diesem Zuge näher beschreiben und die verwendeten logischen Operatoren erläutern.

Tabelle 2: Die von uns für den Comic angepassen Diskursrelationen sowie ihre formalen Bedingungen (vgl. Bateman/Wildfeuer 2014a).

Schauen wir uns im Folgenden jedoch zunächst an, wie sich die verbale (Kurz-)Geschichte weiterentwickeln könnte:

›Er holte aus und zielte mit der noch Blut überströmten Axt auf sein Gegenüber. Ein greller Schrei durchbrach die Nacht. Im Regen tauchte ein Mädchen mit rosafarbenen Schuhen auf, das ängstlich in Richtung der Axt blickte.‹

Durch die Ergänzung des vierten Satzes sind wir mit neuen Informationen konfrontiert, die wir in Relation zu den vorherigen Ereignissen setzen müssen. Weil auch hier Kohäsionsmittel zwischen den Sätzen fehlen, wird den Rezipient_innen Spielraum gelassen. Dabei fällt auf, dass das Erscheinen eines Mädchens unsere Hypothese über den Schrei in Frage stellen kann. Es ist nun ebenso möglich, dass das Mädchen diesen Schrei getätigt hat, weil es etwa die Tat beobachtet hat und auch danach noch ängstlich auf die Axt schaut. Wir können demnach den vierten Satz als Zusatzinformation zu der des Schreis interpretieren, die zwar keine Erklärung gibt, aber einen möglichen Hintergrund zur Situation liefert.

Dadurch wird deutlich, was in der Diskursanalyse als ›dynamische Bedeutungskonstruktion‹ bezeichnet wird: Das Inferieren von Relationen zwischen den Satzaussagen geschieht hypothesenartig und aufgrund der bisher vorliegenden Informationen aus dem Text. Wenn diese Informationen durch neue bereichert oder verändert werden, kann es passieren, dass eine Inferenz korrigiert werden muss. Hier betrifft dies die Ursache-Wirkung-Relation zwischen dem zweiten und dritten Satz, die aufgrund des vierten Satzes nur noch bedingt aufrechterhalten werden kann. In der Diskursanalyse geht man davon aus, dass der sich dynamisch weiter entfaltende Diskurs mit neuen Informationen Hinweise und Einschränkungen für die Interpretation der Zusammenhänge liefert und die Leser_innen in ihrer Rezeption damit hinreichend leitet. Unsere Kurzgeschichte könnte beispielsweise derart weitergeführt werden, dass darin das Mädchen mit heiserer Stimme auf die Person mit der Axt einredet und der Text mit der attributiven Markierung ›heiser‹ somit einen ersten Hinweis auf die Herkunft des Schreis gibt. Die Hypothesenbildung der Rezipient_innen würde durch diesen Hinweis erneut gelenkt und die zunächst angenommene Zuweisung des Schreis zum Gegenüber verworfen.

Eine solche Lenkung nehmen wir auch bei der Interpretation multimodaler Artefakte an, in denen die medienspezifischen textuellen cues (vgl. dazu, vor allem für Film, Bordwell) herausgearbeitet werden müssen. Denn auch im Comic ist eine solche Fortführung der Geschichte durch Hinzufügung eines dritten und sogar vierten Panels denkbar, das etwa ein Mädchen im Regen zeigen könnte – so wie jenes dritte Panel in Abbildung 2 aus McCloud (160), aus dem wir für die notwendige Anpassung lediglich die caption entfernt haben.⁴

Abb. 2: Konstruierte Bilderfolge aus Panels nach McCloud (68 u. 160; caption im dritten Panel entfernt).

Das Prinzip des dynamischen Diskursaufbaus und der dadurch eintretenden Ungewissheit darüber, wem der Schrei zuzuordnen ist, gilt auch in diesem Fall. Eine Vereindeutigung der Interpretation kann nur durch weitere Informationen geliefert werden, entweder in einem Panel oder in den captions. Sowohl für den verbalen Text als auch für den Comic bedarf es genauerer Beschreibungen der Bedingungen, welche die Interpretation der Relationen zwischen den Ereignissen erleichtern bzw. überhaupt erst ermöglichen. Auch hier ist die Diskurstheorie nach Asher/Lascarides hilfreich, um Struktur und Kohärenz des jeweiligen Narrativs herauszuarbeiten (vgl. Bateman/Wildfeuer 2014a; 2014b). Ein wichtiger Mechanismus ist beispielsweise das Prinzip der maximalen Diskurskohärenz, das die jeweils im Kontext präferierte Struktur aus Relationen hervorbringt. Dieses Prinzip leitet die Interpretation insofern, als dass es die jeweils passende und auf den Kontext abgestimmte Diskursrelation zur Inferenz auswählt und als diejenige Relation bestimmt, die die maximal konstruierbare Kohärenz erreicht. Im obigen Beispiel bleibt zunächst offen, welche Diskursrelation den größten sinnvollen Zusammenhang zwischen den Sätzen herstellen kann, da nicht eindeutig nachvollziehbar ist, wem der Schrei zuzuordnen ist. Maximale Kohärenz kann hier erst erreicht werden, wenn weitere Panels an die bisherige Diskursstruktur angefügt und sinnvoll mit dem bisherigen Kontext verbunden werden.

An dem folgenden Beispiel werden wir auf dieses Prinzip zurückkommen und nachweisen, wie es das Füllen der jeweiligen Leerstellen zwischen den Panels beeinflusst.

Inferentielle Bedeutungskonstruktion in City of Glass

Die inferentielle und dynamische Bedeutungskonstruktion zwischen Panels im Comic wollen wir nun anhand einer Panel-Sequenz aus Paul Karasiks und David Mazzuchellis Comic-Adaptation City of Glass (2004) von Paul Austers gleichnamigem Roman (1985) analysieren. Diese Adaptation ist bereits ausführlich und vor allem im Hinblick auf die zahlreichen intertextuellen und interpiktorialen Bezüge analysiert worden (vgl. Platthaus, der eine frühere, aber ähnliche Version aus dem Jahre 1994 analysiert; Coughlan; Schmitz-Emans; Bachmann). Diese Autoren behaupten, dass »komplexe Strategien« (Schmitz-Emans, 385) am Werke sind, können aber nicht sagen, wie die genaue Ausarbeitung dieser Strategien aussehen soll.

Besonders die erste Seite des Comics (Abb. 3) ist in vielen Analysen besprochen worden. Diese Szene schildert einen Telefonanruf, der durch die caption im ersten Panel oben links eingeführt wird: »The telephone ringing three times in the dead of night …«. Im Panel selbst ist lediglich ein schwarzes Rechteck mit abgerundeten Ecken zu sehen, das im zweiten Panel und durch eine herausgezoomte Perspektive als Inneres einer weißen Null zu erkennen ist, die wiederum in den nächsten Panels durch einen ähnlichen Perspektivwechsel als Ziffer auf einem Wählblatt erscheint.

Abb. 3: City of Glass (Karasik/Mazzuchelli/Auster, 2).

Leser_innen interpretieren hier zunächst, so sagen es die meisten Analysen (vgl. z. B. Bachmann; Schmitz-Emans), dass es sich bei dem abgebildeten Gerät um das im Text genannte klingelnde Telefon handelt. Erst im fünften Panel wird deutlich, dass der Comic mit unterschiedlichen Darstellungsebenen spielt und einige der Bilder lediglich Details eines Abbildes eines Telefons auf einem Telefonverzeichnis zeigen, auf dem wiederum das tatsächlich (vermutlich!) klingelnde Telefon steht, dessen Hörer dann auf der folgenden Seite abgenommen wird. Es handelt sich bei dieser Darstellung also um eine explizite Täuschung der Rezipient_innen in ihrer Interpretation, eine misdirection, sowie um eine Auflösung dieser Täuschung durch anschließende Richtigstellung.

Alle Untersuchungen sind sich außerdem darin einig, dass dieser Zusammenhang zwischen den Bildern in der Szene »auch über größere Abstände« (Bachmann, 306) hinweg besteht bzw. »zusätzliche Semantisierungen« über die besonderen »Spielformen der Beziehungen zwischen Bildern differenzierend« (Schmidt-Emans, 388f.) konstruiert werden müssen. Bachmann beispielsweise analysiert den Status der Ikonizität der Panels zueinander, der die Rezipient_innen in ihrer Abfolge Hypothesen über den semantischen Gehalt der Bilder aufstellen lässt, die im weiteren Verlauf jedoch zugunsten anderer Interpretationen verworfen werden müssen. Er schreibt:

Erst der Überblick über das Panelarrangement offenbart die Verhältnisse von Ikonen erster (Bild eines Telefons) und zweiter Stufe (Bild eines Bildes eines Telefons) sowie der Panels zueinander. Konventionell verweist ein Panel in linearer Verkettung auf das folgende. Hier dagegen verweist zwar das erste Panel auf das zweite und das zweite auf das dritte, das dritte aber nicht, wie zu erwarten, (nur) auf das vierte, sondern, je nach Lesart, stattdessen oder zusätzlich auf das sechste. (Bachmann, 306f.)

Diese Zuschreibung der Ikonizität hilft zwar beim Verständnis des Panelzusammenhangs ein wenig weiter, gibt aber auch keine explizite Erklärung darüber, wie die Semantisierung und Konstruktion der Beziehungen zwischen den Bildern durch die Rezipient_innen vollzogen wird. Um es noch einmal zu betonen: Was Bachmann anbietet, ist eine Beschreibung eines bereits stattgefundenen Interpretationsprozesses – wie dieser Prozess durchgeführt wird und warum in genau dieser Form, überspringt er stillschweigend. Zwar berücksichtigt Bachmann bereits die Gesamtstruktur der Seite, spricht aber lediglich von »verschiedenen Realitäts- bzw. Darstellungsebenen« (Bachmann, 308), zwischen denen es zu unterscheiden gilt. Besonders die Beschreibung der linearen Verkettung der Panels ist diskutabel, da die Informationen auf einer Comicseite alle zeitgleich vorhanden sind und durchaus Relationen zwischen, nicht im möglichen Lesepfad aufeinander folgenden, Panels gefunden werden können. Auch die in Panel 4 zu sehenden Buchstaben »RRING« stellen beispielsweise eine Beziehung zu dem in der caption in Panel 1 gegebenen Text »the telephone ringing« auf und wirken somit auch über Panelgrenzen hinweg. Solche intersemiotischen, auch zwischen und über einzelne semiotische Ressourcen hinweg bestehenden, Relationen stärken die Kohärenz des Diskurses nur noch mehr und sind daher durchaus als Lenkungshinweise für die Rezipient_innen zu erwarten. Das Fehlen solcher Relationen würde die Interpretation seitens der Rezipient_innen erschweren und von Seiten der Forscher_innen für Beliebigkeit offen machen.

Interessanterweise stehen die Täuschung und deren Aufklärung bei Bachmann und vielen anderen Autor_innen nicht im Vordergrund. Eben jene Täuschung ist aber ein bewusst eingesetztes Verfahren, das die Leser_innen in ihrer Interpretation beeinflusst und textuelle cues einsetzt, um sinnstiftende Kohärenz zu erzeugen, die wir nun mithilfe der Analyse der Diskursrelationen nachweisen.

Abb. 4: Erste Zeile der Comicseite aus City of Glass (Auster/Karasik/Mazzucchelli, 2). Auf die angegebenen Labels kommen wir in der Analyse weiter unten zurück.

Das in den ersten drei Panels zu erkennende Herauszoomen (Abb. 4) stellt auf der visuellen Ebene keine typische narrative Folge von Ereignissen dar. Narration wird häufig als die am einfachsten und ohne großen inferentiellen Aufwand zu interpretierende Diskursrelation gesehen, weil sie lediglich eine zeitliche (und räumliche) Aufeinanderfolge der Ereignisse erfordert. Die Bilder in den Panels lassen aber keine Ereignisse im eigentlichen Sinne erkennen. Zwar bieten die captions wie eine voice-over-Narration Informationen über Geschehnisse (das Klingeln eines Telefons und das Sprechen einer Stimme am anderen Ende), auch das Wort ›telephone‹ wird im Bildanteil wieder aufgenommen, und die Stimme (›voice‹) lässt sich mit dem Kontext eines Telefonats erklären. Hierbei handelt es sich um kohäsive intersemiotische Bezüge zwischen der visuellen Ebene und den verbalen captions. Bild und Text realisieren in ihrem Zusammenspiel die jeweiligen Objekte der Diegese. Allerdings wird beispielsweise nicht deutlich, wer mit dem Pronomen ›he‹ bezeichnet wird, da (noch) keine visuelle Entsprechung gefunden bzw. kein Bezug zur visuellen Ebene hergestellt werden kann. Die captions stellen somit weder eine genaue Beschreibung der Bilder dar noch geben sie notwendige Hintergrundinformationen, sondern lassen großen Spielraum für Interpretationen.

Das visuelle Herauszoomen ist dagegen ein typisches Verfahren der ›Elaboration‹, also einer Verbindung von Elementen, die in ihrer Abfolge jeweils ein Mehr an Informationen bzw. eine Spezifizierung dieser Informationen vermittelt. Das langsame Sichtbarmachen weiterer Details des Telefons (bzw. des Bildes eines Telefons) stellt eine solche Spezifizierung dar, indem erst nach und nach deutlich wird, um was für ein Objekt es sich handelt.

Die Abfolge der Panels erfüllt die beiden folgenden logischen Formeln, die als Bedeutungspostulat und Defaultaxiom, also als Beschreibung der im Diskurs notwendigen Gegebenheiten zur Inferenz der Elaboration-Relation vorgesehen und in Tabelle 2 oben (C.MP.Elaboration und C.A.Elaboration) zu entnehmen sind (vgl. Asher/Lascarides 2003 für verbalen Diskurs, Wildfeuer 2014a für Film sowie Bateman/Wildfeuer 2014a für Comic):

Die erste Formel besagt, dass für die Interpretation bzw. Annahme einer Elaboration-Relation (hier markiert durch ϕ_Elaboration) zwischen zwei Elementen, die sehr allgemein mit π_i und π_j beschrieben werden, eine Teil-Ganzes-Beziehung (Part of) zwischen den beiden Diskurseinheiten (als Ereignisse im Diskurs dann mit e_{π_i}, e_{π_j} markiert) bestehen muss. Der Pfeil in der Mitte der Formel ist eine ›materielle Implikation‹, die diese Folge formal ausdrückt.

Die zweite Formel fordert außerdem ein Spezifizierungsverhältnis zwischen den (aufgrund anderer Beschreibungsmodalitäten und -logiken hier mit α und β gekennzeichneten) Einheiten im Kontext. Sie lässt sich folgendermaßen lesen: Eine zunächst unterspezifizierte, also noch nicht bekannte Relation (durch das Fragezeichen gekennzeichnet) zwischen den Elementen α und β im Kontext λ kann zusammen mit (∧) einem Spezifizierungsverhältnis zwischen den beiden Elementen normalerweise (d. h. abduktiv angenommen: >) als eine Elaboration-Relation zwischen diesen beiden Elementen in diesem Kontext genauer spezifiziert werden.

Asher/Lascarides geben für Elaboration an, »that the events described in [β] describe in more detail those described in [α] […] to reflect its semantic function of changing granularity of description« (Lascarides/Asher 2007, 8). Ein solches Spezifizierungsverhältnis in Form von zusätzlichen Informationen, zum Beispiel durch weitere Detailaufnahmen oder das Ein- und Auszoomen der Panelperspektive und damit durch eine Veränderung in der Beschreibungsdimension, nehmen wir auch für Comics an. Ähnlich wie im Film (vgl. Wildfeuer 2014a, 66f.) gehen wir dabei davon aus, dass vor allem Perspektivwechsel und Zoomtechniken einen solchen Effekt herbeiführen. Dabei ist irrelevant, ob es sich um ein Herein- oder Herauszoomen (wie im obigen Comic-Beispiel) handelt, da in jedem Fall ein Mehr an bzw. eine Veränderung der Informationen gegeben ist, das auch in der Gleichzeitigkeit der Panels auf einer Seite erkennbar ist und nicht, wie beispielsweise im Film, in der Folge der einzelnen Bilder oder Einstellungen interpretiert wird. Im Vergleich zu den anderen Diskursrelationen, die zeitlich-räumliche oder kausale sowie textuell parallele oder kontrastive Verhältnisse aufzeigen (siehe Tabelle 1), kann Elaboration genau dann inferiert werden, wenn die Beschreibungsparameter zwischen zwei Einheiten so verändert werden, dass auch der daraus entstehende Informationsgehalt ein neuer oder andersartiger ist.

Asher/Lascarides zufolge kann im Falle der ersten zwei Panelgrenzen jeweils von einer Elaboration-Relation gesprochen werden. Diese Relationen stellen damit dasjenige abstrakte Konstrukt dar, das für das Füllen der Leerstelle zwischen den Panels von den Leser_innen gebildet wird. Sie dienen damit der Bildung der Hypothese, dass es sich bei den Einzelheiten um Details eines konkreten Telefons handelt. Auch wenn dieses Telefon bereits in der caption des ersten Panels sprachlich explizit gemacht wird und so die intersemiotische Identifizierung bereits mit der Rezeption der ersten Panels erfolgreich stattfinden kann, stellt die Detailaufnahme gewisse Erwartungen an die folgenden Panels auf. Ähnlich wie im McCloud-Beispiel oben wird die Inferenzziehung demnach auch hier bereits im ersten Panel durch eine Semantisierung des visuellen Gehaltes aktiviert.

Wir stellen die sich aus den Elaboration-Relationen ergebende Diskursstruktur formal in Abbildung 5 dar. π₀ labelt darin die sich aus den Diskursrelationen ergebende Gesamtstruktur mit den einzelnen Einheiten bzw. Panels, die jeweils mit einem weiteren Label (π_i) gekennzeichnet werden.

Abb. 5.: Diskursstruktur der ersten Zeile der Comicseite aus City of Glass (Auster/Karasik/Mazzuchelli, 2).

Die Struktur in Abbildung 5 stellt das Ergebnis des von uns beschriebenen Interpretationsprozesses dar, wobei einige Details nicht berücksichtigt werden: Beispielsweise spielen intersemiotische Bezüge zwischen Text- und Bildebene (wie die zwischen »telephone« und den visuellen Details des Telefons) an dieser Stelle keine Rolle, sondern sind Teil des vorangehenden Analyseprozesses, den wir hier nicht ausführlich beschreiben können (vgl. Bateman/Wildfeuer 2014a; 2014b).

Weil der Comic explizit mit den Darstellungsmöglichkeiten spielt und zwei Versionen des Telefons (eine reale, eine abgebildete) einsetzt, sind grundsätzlich unterschiedliche Interpretationswege möglich, die davon abhängen, wann diese Täuschung tatsächlich erkannt wird. Unsere Modellierung stellt im Folgenden nicht nur diese Interpretationswege explizit dar, sondern macht deutlich, wie (und wann) die Interpretationen durch die unterschiedlichen möglichen Auflösungen der Täuschung zustande kommen. Wir gehen hier von zwei im Detail voneinander abweichenden Interpretationen aus.

Interpretationsweg 1:

Zum einen ist es möglich, das vierte Panel, welches das Telefon nun in Gänze präsentiert, als eine weitere Elaboration zu inferieren, die wiederum das Ergebnis eines Zooms und somit eine Spezifizierung des vorherigen Telefons als Diskursreferenten zeigt. Folglich besteht zu diesem Zeitpunkt weiterhin die Hypothese, dass auch das vierte Panel ein reales Telefon zeigt, dessen Klingeln durch die Buchstabenfolge »RRING« repräsentiert wird. Die Diskursstruktur zu diesem Zeitpunkt besteht aus einer einfachen Kette von drei Elaboration-Relationen bis hin zur Diskurseinheit π₄.

Abb. 6.: Zweite Zeile der Comicseite aus City of Glass (Auster/Karasik/Mazzucchelli, 2).

In der weiteren Rezeption wird dann deutlich, dass π₅ nicht mehr das gleiche Telefon zeigt, sondern lediglich eine Abbildung eines solchen Telefons auf einem Telefonverzeichnis (Abb. 6). Diskurstheoretisch muss der Zusammenhang zwischen (π₄) und (π₅) also anders interpretiert werden als durch eine Elaboration. Allerdings lassen sich ebenso wenig eine zeitlich-räumliche Folge oder eine kausale Relation erkennen, auch die Bedingungen für die Weitergabe von Hintergrundinformationen (wie in einer Background-Relation) sind nicht erfüllt. Stattdessen sind die beiden Panels vor allem strukturell sehr ähnlich, da sie beide ein Telefon bzw. ein Abbild eines Telefons zeigen. Da jedoch ein signifikanter Unterschied in der tatsächlichen Darstellung dieses Telefons besteht, nämlich in der Tatsache, dass das eine ein in der dargestellten Welt reales Telefon, das andere lediglich ein Abbild ist, ähneln sich die beiden Panels semantisch nur bedingt und stellen eher einen Kontrast dar. Das Verhältnis zwischen den beiden Panels 4 und 5 erfüllt damit die Bedingungen für eine Contrast-Relation, die folgendermaßen ausgedrückt werden kann:

Für eine Contrast-Relation zwischen zwei Einheiten π_i und π_j ist es notwendig (ausgedrückt mit dem Operator □), dass die Diskursrepräsentationen dieser Einheiten (K) (vgl. zur ausführlichen Rekonstruktion dieser Diskursrepräsentationen Bateman/Wildfeuer 2014a; 2014b), durch »a partially isomorphic mapping« (Asher/Lascarides 2003, 168) miteinander verbunden sind (Operator ∼). Die semantische Unähnlichkeit ist als Bedingung in der zweiten Formel angegeben, die ähnlich wie die zweite Formel für Elaboration folgendermaßen gelesen werden kann: Eine zunächst unterspezifizierte, also noch nicht bekannte Relation zwischen den Elementen α und β im Kontext λ kann zusammen mit (∧) semantischer Unähnlichkeit zwischen den beiden Elementen normalerweise (>) als eine Contrast-Relation zwischen diesen beiden Elementen in diesem Kontext inferiert werden. Asher/Lascarides führen dazu aus, dass ein gemeinsames Thema vorhanden sein muss, das im Beispiel zumindest in der Darstellung eines Telefons gegeben ist, diese allerdings auf unterschiedlichen Ebenen oder, wie Bachmann es formuliert, in Ikonen erster und zweiter Art stattfindet (vgl. Bachmann, 308).

Die Inferenz der Contrast-Relation beeinflusst die Hypothesenfindung und -bestätigung der bisherigen Zusammenhänge maßgeblich. Denn durch den Wechsel der Darstellungsweise des Telefons wird deutlich, dass die bisherige Struktur (die Darstellung eines realen Telefons) kontrastiv zu der durch Panel 5 entstehenden Darstellung einer Abbildung eines Telefons verläuft. Die Elaboration-Relationen zwischen den ersten vier Panels bilden somit eine jetzt abgeschlossene Einheit, der nun π₅ zur Seite gestellt wird. Diese abgeschlossene Einheit labeln wir als eine dem Gesamtdiskurs untergeordnete Teilstruktur π‘. Die Einbindung der Einheit π₅ in den Gesamtdiskurs und kontrastiv zu π‘ wird durch das so genannte Context Change Potential (vgl. Asher/Lascarides 2003, 42) ermöglicht. Dabei verändert sich die Diskursstruktur dynamisch, indem die Anknüpfung des fünften Panels nicht direkt an das zuletzt angefügte Panel 4, sondern an die Teilstruktur π‘ erfolgt, die folglich als andere Darstellungsebene verstanden wird. Wir stellen diese Veränderung in der Diskursstruktur in Abbildung 7 dar.

Abb. 7.: Sich dynamisch verändernde Diskursstruktur der ersten fünf Panels aus City of Glass.

Asher/Lascarides bezeichnen diese dynamische Veränderung auch als discourse pop, da sozusagen eine Umkehrung der gesamten Struktur erfolgt und eine Abhängigkeit bzw. Unterordnung entsteht. Eine solche Umkehrung und Neuinterpretation haben wir bereits für den Film ausführlich beschrieben, hier sind es vor allem Traum- und andere Projektionssequenzen, die erst im Nachhinein als solche erkannt werden und deren Struktur deswegen neu konstruiert werden muss. Typische Beispiele hierfür sind die Anfangsszenen aus vanilla sky und a single man (vgl. Wildfeuer 2014a, 110–122 und Wildfeuer 2014b). In allen Fällen handelt es sich wie in dem Comic-Beispiel um eine explizite Täuschung der Rezipient_innen, die erst durch die Hinzufügung weiterer Informationen erkennbar und interpretierbar wird.

An die so entstehende Struktur kann dann auch das folgende sechste Panel angeknüpft werden, indem zwischen Panel 5 und Panel 6 eine weitere Elaboration-Relation inferiert wird. Das Herauszoomen aus der Darstellung des Telefons auf dem Telefonregister stellt ebenfalls eine Spezifizierung dar, die weitere Informationen über das Objekt gibt und zugleich das tatsächliche Telefon erscheinen lässt und damit die vorherige Interpretation sowohl bildlich als auch sprachlich auflöst. Der dafür benötigte cue ist in der diskursiven Struktur durch die notwendige Inferenz der Contrast-Relation verankert.

Interpretationsweg 2:

Ein weiterer Interpretationsweg stellt sich ein wenig anders dar und vollzieht den discourse pop (siehe oben) bereits bei Anfügung von Panel 4 an die vorhergehende, in Abbildung 5 gegebene Diskursstruktur. Diese Interpretation wird vor allem durch die grafische Ebene beeinflusst, auf der möglicherweise bereits in Panel 4 eine Veränderung der Darstellungsebene erkannt wird. Während die ersten drei Panels eine detaillierte, tiefenwirksame Zeichnung des Telefons enthalten, ist das Bild des Telefons in Panel 4 deutlich abstrakter. Es wäre demnach auch denkbar, bereits in der Verknüpfung von Panel 3 und 4 einen Kontrast in der Darstellung des realen Telefons sowie der Abbildung eines Telefons zu erkennen.

Dieser Interpretation folgend beschreibt Bachmann die Zuweisung der linearen Verkettung der einzelnen Panels untereinander, wenn er schreibt, dass »das dritte [Panel] aber nicht, wie zu erwarten, (nur) auf das vierte, sondern, je nach Lesart, stattdessen oder zusätzlich auf das sechste« (Bachmann, 306) verweist. Ihm zufolge lassen die Details im dritten Panel sowie die Dreidimensionalität der Darstellung darauf schließen, »dass das Telefon im dritten Panel das ›reale‹ ist« (Bachmann, 307). Damit Bachmanns Interpretation funktioniert, muss bereits mit Panel 4 eine Contrast-Relation inferiert und die Diskursstruktur wie in Abbildung 8 konstruiert sein. Panel 5 kann dann ebenfalls durch Elaboration mit der bisherigen Struktur verbunden werden, weil auch zwischen der ersten Abbildung und der zweiten auf dem Telefonverzeichnis ein Zoom- bzw. Spezifizierungsverhältnis besteht. Ähnlich kann mit Panel 6 verfahren werden.

Abb. 8.: Zweite dynamische Interpretationsmöglichkeit für City of Glass.

Beide möglichen Interpretationswege machen deutlich, dass der Wechsel in der Darstellungsweise des Telefons die vorangegangenen Interpretationen, wie in der Rezeption des McCloud-Beispiels, in Frage stellt. Durch Aufdeckung der Täuschung ist tatsächlich nicht mehr eindeutig erkennbar, ob die vorher gezeigten Details des Telefons nicht bereits Details der Abbildung eines Telefons sind. Auf die sich dynamisch entwickelnde Diskursstruktur hat dies entscheidenden Einfluss, denn die bisher aufgestellten Hypothesen müssen erneut hinterfragt und verifiziert werden. Hierbei hilft in beiden Fällen die caption in Panel 5, die sprachlich sehr explizit die Frage nach der Realität zum Ausdruck bringt: »… that nothing was real …«. Die Intersemiose von Text und Bild in diesem Panel lässt folglich ebenfalls darauf schließen, dass hier mit unterschiedlichen Realitäts- und Darstellungsebenen gearbeitet wird und sich die vorherigen Interpretationen verändern. Diese Veränderungen mit unserem Instrumentarium zu beschreiben, hilft uns, die so dringend benötigte semantische Basis für die Vielzahl der Interpretationen herauszuarbeiten und diese zu reduzieren. Diese semantische Basis ergibt sich zum einen aus den konkreten Herausforderungen des Comic-Diskurses an die Rezipient_innen, Kohärenz zwischen den Einheiten des Diskurses herzustellen. Nur die Interpretation der für den Kontext plausibelsten Relationen, hier Elaboration und Contrast, kann diese Kohärenz gewährleisten, da die formalen Bedingungen für alle anderen Relationen nicht erfüllt sind. Zum anderen geben multimodale bzw. intersemiotische Interpretationen weitere Hinweise für das Inferieren der Diskursstruktur. So spielt etwa das onomatopoetische »RRING« in Panel 4 eine wichtige Rolle, indem es eine auditive Ebene eröffnet, die nur das Klingeln eines realen Telefons darstellen kann: Abbilder von Telefonen dagegen können nicht klingeln. Die multimodale Bedeutungskonstruktion lässt demnach aufgrund der Zuweisung einer Text-Bild-Relation innerhalb von Panel 4 darauf schließen, dass der Wechsel der Darstellungsebene erst im Übergang zu Panel 5 erfolgt und damit die erste von uns vorgestellte Lesart plausibler ist.

So ist es innerhalb dieser Struktur und entgegen der Annahme Bachmanns dann durchaus nachvollziehbar, dass das dritte Panel mit dem vierten kohärent verbunden werden kann. Mit dem sechsten Panel dagegen kann das dritte aufgrund seiner semantischen Abweichung und der von Bachmann selbst herausgearbeiteten anderen Darstellungsebene (nämlich der Ebene des Bildes eines Telefons), die in unserer Interpretation als untergeordnete Teilstruktur verstanden wird, nicht mehr sinnvoll verknüpft werden. Dies bestätigen auch andere Interpretationen, zum Beispiel bei Coughlan oder Lefèvre, vor allem aber lassen sich zur Stärkung dieser Hypothese keinerlei Hinweise im Text finden.

Dieses Beispiel steht damit exemplarisch für eine dynamische und sich damit stetig verändernde Hypothesenbildung innerhalb multimodaler Artefakte, deren Beschreibung bislang nur annäherungsweise möglich ist. Die lineare Rezeption der Panels der von uns ausgewählten Comicseite erfordert ein ständiges Hinterfragen und Neuanordnen der bereits bekannten und hinzugekommenen Informationen, um einen sinnvollen Zusammenhang konstruieren zu können. Diskurstheoretisch sind die Verweise bzw. Relationen zwischen den Panels aufgrund unterschiedlicher von uns herausgearbeiteter Hinweise in der linearen Abfolge geklärt. Damit liegen Hypothesen vor, die in einer empirischen Überprüfung des von den Rezipient_innen tatsächlich gefundenen Interpretationsweges dann bestätigt werden dürften.

Zwischen den Linien, mitten im Diskurs

Viele Interpretationen und Rezensionen zur Comic-Adaptation City of Glass heben unentwegt den besonders hohen und anspruchsvollen interpretatorischen Aufwand hervor, der für die Rezeption notwendig ist. Immer wieder ist die Rede von spezifischen Darstellungsformen, einer ausgefeilten Struktur sowie der besonderen Komplexität, die den Rezipient_innen eine mühevolle Interpretation bescheren (vgl. u. a. Platthaus; Bachmann). Warum diese so mühevoll scheinen und welche Inferenzen bzw. kognitiven Operationen dafür notwendig sind, ist in vielen Untersuchungen bislang außen vor geblieben.

Die von uns vorgenommene Analyse kann diesen interpretatorischen Aufwand nicht nur bestätigen, sondern sogar mithilfe des diskursanalytischen Instrumentariums explizit machen. Indem sie die unterschiedlichen Prozesse der Hypothesenbildung aufzeigt, weist sie die vielerorts benannte Täuschung der Leser_innen erstmals konkret im multimodalen Text und damit im Material selbst nach und bestätigt damit die hervorgehobene Ambiguität (vgl. Schmitz-Emans). Allerdings ermöglichen die Auflistung der unterschiedlichen cues sowie die Einschränkung der jeweiligen Inferenzleistungen aufgrund der durch den Kontext gegebenen Bedingungen keineswegs eine eindeutige Interpretation. Im Gegenteil: Die Informationen können zwar durch klar identifizierbare cues kohärent miteinander verbunden und zu einer sinnvollen Geschichte zusammengebracht werden, allerdings bleiben unterschiedliche Lesarten offen.

Insbesondere die diskursive Gestaltung der Seiten beeinflusst diese Lese- und Interpretationswege. Das vielerorts hervorgehobene, nahezu klassische 3x3-Layout und das einheitliche Format der Panels wirken hierbei unterstützend für eine kohärente Interpretation. Auch die für die gestalterischen Besonderheiten notwendigen komplexen Interpiktorialitätsbezüge, wie sie Bachmann herausarbeitet, sind gleichermaßen hilfreiche Interpretationsmuster, ohne deren Hinzuziehung das Gesamtverständnis der Geschichte nicht erfassbar ist. Die Analyse der diskursiven Struktur ermöglicht allerdings erstmals, die in anderen Arbeiten oftmals genannten, aber nicht weiter beschriebenen Inferenzen mithilfe des Instrumentariums an Diskursrelationen explizit zu machen und – vor allem – zu objektivieren.

Auf dieser Basis kann ein allgemeines Verständnis des Comics vorausgesetzt werden, in dem die Bildübergänge nicht, wie Platthaus (97f.) es formuliert, allein subjektiv und durch Spekulation gefüllt werden. Stattdessen – und auch das formuliert Platthaus – gilt

das Prinzip des Comics: Seine Lücken im Erzählfluß klagen die Fortschreibung durch den Leser ein. Gleichzeitig aber tritt jede Seite mit dem Anspruch auf, vollständig zu berichten. Jede Comicseite ist wie ein Gerüst, über das der Leser eine glatte Fläche mauern muß, und jeder Comic ist eine ›Stadt aus Glas‹, die dazu aufruft, sie zu durchschauen und ihr gerade damit den Charakter der Durchsichtigkeit zu nehmen. (Platthaus, 98)

Jene tatsächlich notwendigen und vom Text hervorgerufenen Inferenzen sichtbar und damit das Prinzip closure explizit zu machen, kann bereits wertvolle Informationen liefern, muss im Weiteren aber vor allem mit empirischen Analysen gestützt werden. Das diskurssemantische Instrumentarium kann, wie wir gezeigt haben, und sollte ausführlich auf das Medium ›Comic‹ übertragen werden, um so die von McCloud beschriebenen Übergänge und Füllungen des berühmten gutter adäquat theoretisch beschreiben zu können und empirisch nachweisbar zu machen.⁵

_______________________________________________________

Bibliografie

Asher, Nicholas u. Alex Lascarides: Logics of Conversation. Cambridge: Cambridge Univ. Press, 2003.
Auster, Paul (W), Paul Karasik (A) u. David Mazzucchelli (A), David: City of Glass. The Graphic Novel. New York: Picador, 2004.
Bachmann, Christian: Der Comic als Labor semiotischer Interpiktorialitätsforschung. Paul Karasiks und David Mazzucchellis City of Glass. In: Interpiktorialität. Theorie und Geschichte der Bild-Bild-Bezüge. Hg. v. Guido Isekenmeier. Bielefeld: transcript, 2013, S. 299–318.
Barnes, David: Time in the Gutter: Temporal Structures in Watchmen. In: KronoScope 9,1–2 (2009), S. 51–60.
Bateman, John A. u. Karl-Heinrich Schmidt: Multimodal Film Analysis. How Films Mean. London, New York: Routledge, 2012.
Bateman, John A. u. Janina Wildfeuer: A multimodal discourse theory of visual narrative. In: Journal of Pragmatics (2014a) <http://dx.doi.org/10.1016/j.pragma.2014.10.001>. Letzter Zugriff am 03.11.2014.
Bateman, John A. u. Janina Wildfeuer: Defining units of analysis for the systematic analysis of comics: a discourse-based approach. In: Studies in Comics 5.2 (2014b) [im Erscheinen].
Bearden-White, Roy: Closing the Gap. Examining the Invisible Sign in Graphic Narratives. In: International Journal of Comic Art 11,1 (2009), S. 347–362.
Bordwell, David: Making Meaning. Inference and Rhetoric in the Interpretation of Cinema. Harvard: Harvard Univ. Press, 1989.
Christiansen, Hans-Christian: Comics and Film. A Narrative Perspective. In: Comics Culture. Analytical and Theoretical Approaches to Comics. Hg. v. Anne Magnussen u. Hans-Christian Christiansen. Arhus: Museum Tusculanum Press, 2000, S. 107–122.
Coughlan, David: Paul Auster’s City of Glass. The Graphic Novel. In: Modern Fiction Studies 52,4 (2006), S. 832–854.
Goggin, Joyce u. Dan Hassler-Forest: The Rise and Reason of Comics and Graphic Literature. Critical Essays on the Form. Jefferson u. London: McFarland, 2010.
Groensteen, Thierry: The System of Comics. Jackson: Univ. Press of Mississippi, 2007.
Hobbs, Jerry R.: Literature and Cognition. Standford: Lecture Notes, 1990.
Iser, Wolfgang: Der Akt des Lesens. Theorie ästhetischer Wirkung. Stuttgart: Fink, 1976.
Kress, Gunther R. u. Theo van Leeuwen: Reading Images. The Grammar of Visual Design. New York: Routledge, 1996.
Lascarides, Alex u. Nicholas Asher: Segmented Discourse Representation Theory: Dynamic Semantics with Discourse Struc-ture. In: Computing Meaning: Bd. 3. Hg. v. Harry Bunt u. Reinhard Muskens. Dordrecht: Springer 2007, S. 87–124.
Lefèvre, Pascal: The construction of space in comics. In: Image and Narrative. Online Magazine of the Visual Narrative, Issue 16 (2007). <http://www.imageandnarrative.be/inarchive/house_text_museum/lefevre.htm>. Letzter Zugriff am 01.08.2014.
Martin, James R. u. David Rose: Working with Discourse: Meaning beyond the Clause. London: Continuum, 2003.
McCloud, Scott: Understanding Comics. The Invisible Art. New York: Harper Perennial, 1993.
Peirce, Charles Sanders: The Collected Papers of Charles Sanders Peirce. Hg. v. Charles Hartshorne u. Paul Weiss. Cambridge: Belknap Press of Harvard Univ. Press, 1979.
Platthaus, Andreas: Im Comic vereint. Eine Geschichte der Bildergeschichte. Frankfurt a. M. u. Leipzig: Insel, 2000.
Postema, Barbara: Narrative Structure in Comics. Making Sense of Fragments. Rochester u. New York: RIT Press, 2013.
Saraceni, Mario: Relatedness: Aspects of Textual Connectivity in Comics. In: The Graphic Novel. Hg. v. Jan Baetens. Leuven: Leuven Univ. Press 2001, S. 167–179.
Schmitz-Emans, Monika: Literatur-Comics. Adaptationen und Transformationen der Weltliteratur. Berlin u. New York: de Gruyter, 2012.
Wildfeuer, Janina: Intersemiosis in Film: Towards a New Organisation of Semiotic Resources in Multimodal Filmic Text. In: Multimodal Communication 1,3 (2012), S. 276–304.
Wildfeuer, Janina: Trompeten, Fanfaren und orangefarbene Tage. Zur Intersemiose in Die fabelhafte Welt der Amélie. In: Multimodale Bilder. Zur synkretistischen Struktur des Filmischen. Hg. v. Lars Grabbe, Patrick Rupert-Kruse u. Norbert M. Schmitz. Darmstadt: Büchner, 2013, S. 81–101.
Wildfeuer, Janina: Film Discourse Interpretation. Towards a New Paradigm for Multimodal Film Analysis. London u. New York: Routledge, 2014a.
Wildfeuer, Janina: Coherence in Film. Analysing the Logical Form of Multimodal Narrative Discourse. In: Multimodal Epistemologies: Towards an Integrated Framework. Hg. v. Arianna Maiorani u. Christine Christie. London u. New York: Routledge, 2014b, S. 260–274.
Wildfeuer, Janina: Formale Zugänge zur Diskursanalyse. In: Zeitschrift für Semiotik 34, 3–4 (2014c).

Filmografie

a single man (USA 2009, R: Tom Ford).
vanilla sky (USA 2001, R: Cameron Crowe).

Abbildungsverzeichnis

Abb. 1: Beispielpanelfolge zur closure-Debatte (McCloud, 68).
Abb. 2: Konstruierte Bilderfolge aus Panels nach McCloud (68 u. 160; caption im dritten Panel entfernt).
Abb. 3: City of Glass (Karasik/Mazzuchelli/Auster, 2).
Abb. 4: Erste Zeile der Comicseite aus City of Glass (Auster/Karasik/Mazzucchelli, 2).
Abb. 5: Diskursstruktur der ersten Zeile der Comicseite aus City of Glass (Karasik/Mazzuchelli/Auster, 2).
Abb. 6: Zweite Zeile der Comicseite aus City of Glass (Auster/Karasik/Mazzucchelli, 2).
Abb. 7: Sich dynamisch verändernde Diskursstruktur der ersten fünf Panels aus City of Glass.
Abb. 8: Zweite dynamische Interpretationsmöglichkeit für City of Glass.

1] Es ist hier unbedingt die Nebenbemerkung wert, dass sich zum Beispiel in Neil Cohns Buch The Visual Language of Comics (2013) unter dem Eintrag closure ein direkter Querverweis auf den Eintrag inference befindet und closure selbst keine Indexierung nachweist. Auch Mario Saraceni schreibt von »closure or inference« (175) und setzt die beiden Bezeichnungen äquivalent zueinander.
2] Die beiden sich im Erscheinen befindenden Aufsätze stellen erstmals eine umfangreiche Theorie zur multimodalen Analyse visueller Narrative und insbesondere des Comics vor, die zum einen die spezifischen Details der semiotischen Ressourcen und ihrer kontextabhängigen Interpretation in den Vordergrund stellt, zum anderen ein Set von Diskursrelationen für die Analyse der Leerstelle im Comic zur Verfügung stellt. Einige dieser Relationen werden wir im Folgenden aufgreifen und ohne größeren logisch-formalen Kontext für die Analyse des hier in Rede stehenden Beispiels aufarbeiten.
3] Die spezifischen Eigenschaften von Film und Comic werden oft als sehr ähnlich bezeichnet, vor allem im Hinblick auf die Erzählstruktur (vgl. z. B. Christiansen). So werden Frames im Film und Panels im Comic ähnlich neben- und nacheinander gereiht, können Farben, Schattierungen sowie die Montage eine wichtige Rolle spielen. Beide Texte sind multimodal höchst interessant und vermitteln ihre Inhalte ähnlich komplex. Es liegt demnach nahe, Strategien der Kohärenzbildung im Film auch für den Comic anzunehmen und diese detailliert zu analysieren.
4] Es handelt sich hierbei um eine von uns konstruierte Bildfolge aus Panels, die bei McCloud vorhanden, aber nicht zusammengehörig sind, deren Gestaltung deswegen nicht ganz kohärent ist und hier lediglich zur Illustration unseres Beispiels dient. In einer optimierten Folge von Panels würde der Hintergrund des dritten Bildes dem der vorhergehenden Panels angepasst sein, so dass der Kontrast weniger stark auffällt. Auch die Mimik des Mädchens könnte der Situation und der sprachlichen Realisierung angepasst werden, um eine präzisere Lenkung des Interpretationsprozesses zu erzielen.
5] Diese Arbeit wurde durch ein Forschungsprojekt der Zentralen Forschungförderung der Universität Bremen sowie eine DAAD-Projektförderung im projektbezogenen Personenaustausch mit The Polytechnic University Hongkong (PPP Hongkong, Projektnr. 56156404) ermöglicht. Wir danken für diese Unterstützung.