LIBAC: Korpuslinguistik – Begleitmaterialien

Ein Bigramm ist eine Wortfolge w1 w2, die aus zwei festen Wörtern w1 und w2 besteht. Ein paar Beispiele: “ganze Welt“, “viel schwieriger“, “sondern auch“. Die Kohäsion (oft auch bezeichnet als Assoziationsstärke) eines Bigramms (oder allgemeiner: von N-Grammen oder anderen Arten von Wortkombinationen) drückt aus, wie fest die beiden Wörter „zusammenkleben“, wie sehr sie also „bevorzugen“, gemeinsam aufzutreten – und zwar nicht nur irgendwie gemeinsam, sondern genau in der Reihenfolge w1 w2.

Es gibt zahlreiche Maße (aus der Statistik und der Informationstheorie), die Korpuslinguisten und Computerlinguisten zur Berechnung der Kohäsion von Bigrammen verwenden, darunter insbesondere die folgenden:

log-likelihood ratio (LLR) (Dunning 1993)
pointwise Mutual Information, meist einfach: Mutual Information (kurz: MI)
t-Test
Chi-Quadrat-Test (χ2-Test) (externer Online-Rechner)
Fisher-Yates-Test, auch bekannt als: exakter Fisher-Test, exakter Chi-Quadrat-Test (externer Online-Rechner)
Dice-Koeffizient (Dice 1945)
logDice-Koeffizient (Rychlý 2008)

Der Online-Rechner unten berechnet von diesen Kohäsionsmaßen nur die ersten beiden und das letzte.

Aus theoretischer Perspektive sind diese Kohäsionsmaße unterschiedlich gut geeignet für die Berechnung von kohäsiven Bigrammen, da sie unterschiedliche formale Annahmen machen, die für sprachliche Daten nicht oder nur näherungsweise erfüllt sind. Unabhängig von diesen unterschiedlichen Annahmen betonen die Maße unterschiedliche Aspekte des „Zusammenklebens“. Eine ausführliche Beschreibung und formale Definition dieser und anderer Kohäsionsmaße finden Sie u.a. in der Dissertation von Stefan Evert.

Online-Rechner: Kohäsion

Mit diesem Online-Rechner können Sie die Kohäsion eines Bigramms w1 w2 ermitteln (LLR, MI und logDice).
Sie können den Rechner außerdem auch für die Kohäsion von Wortkombinationen verwenden, die aus zwei Wörtern bestehen, welche nicht unmittelbar aufeinanderfolgen, sondern mit einem festen Abstand, z.B. ein Wortpaar der Form w1 ___ w2, mit genau einem dazwischen liegenden Wort. Solche Wortpaare werden als collocational frameworks (Renouf/Sinclair 1991) und phrase frames (Stubbs 2004) bezeichnet, oder allgemeiner auch als positional n-grams.
Nicht verwenden sollten Sie den Rechner hingegen für Wortkombinationen, die zwar aus zwei Wörtern bestehen, bei denen der Abstand dieser Wörter aber variieren darf – sog. Kollokationen höherer Ordnung (Keibel/Belica 2007) bzw. concgrams (Cheng/Greaves/Warren 2006) – für solche Wortkombinationen müsste die Berechnung der Kohäsionsmaße angepasst werden.

1 Die Korpusgröße N wird hier lediglich als Schätzwert für die Anzahl M aller im Korpus vorkommenden Wortfolgen (Tokens) der Form x y verwendet. Dabei wird diese Anzahl durch die Korpusgröße stets etwas überschätzt – sofern Sie nur an Wortpaaren interessiert sind, die innerhalb desselben Satzes liegen (was normalerweise der Fall sein dürfte). Denn in einem Satz, der aus k Worttokens besteht, gibt es nur k-1 Wortfolgen der Form x y. Gibt es in dem analysierten Korpus also S Sätze, dann gilt: M = N - S. Da die durchschnittliche Satzlänge in schriftsprachlichen Korpora typischerweise recht hoch ist (meist liegt sie deutlich oberhalb von 10 Worttokens/Satz), ist S deutlich kleiner als N und kann bei der Berechnung von M i.A. vernachlässigt werden. Falls Sie aber die Anzahl Sätze S in Ihrem Korpus kennen, können Sie statt der Korpusgröße N in diesem Feld auch den Wert N-S eintragen.

Berechnung der Kohäsion/Assoziationsstärke von Bigrammen

Online-Rechner: Kohäsion