Berechnung der Kohäsion/Assoziationsstärke von Bigrammen

Ein Bigramm ist eine Wortfolge  w1 w2, die aus zwei festen Wörtern w1 und w2 besteht. Ein paar Beispiele: “ganze Welt“, “viel schwieriger“, “sondern auch“. Die Kohäsion (oft auch bezeichnet als Assoziationsstärke) eines Bigramms (oder allgemeiner: von N-Grammen oder anderen Arten von Wortkombinationen) drückt aus, wie fest die beiden Wörter „zusammenkleben“, wie sehr sie also „bevorzugen“, gemeinsam aufzutreten – und zwar nicht nur irgendwie gemeinsam, sondern genau in der Reihenfolge  w1 w2.

 mehr 



Online-Rechner: Kohäsion

Mit diesem Online-Rechner können Sie die Kohäsion eines Bigramms  w1 w2  ermitteln (LLR, MI und logDice).
Sie können den Rechner außerdem auch für die Kohäsion von Wortkombinationen verwenden, die aus zwei Wörtern bestehen, welche nicht unmittelbar aufeinanderfolgen, sondern mit einem festen Abstand, z.B. ein Wortpaar der Form  w1 ___ w2, mit genau einem dazwischen liegenden Wort. Solche Wortpaare werden als collocational frameworks (Renouf/Sinclair 1991) und phrase frames (Stubbs 2004) bezeichnet, oder allgemeiner auch als positional n-grams.
Nicht verwenden sollten Sie den Rechner hingegen für Wortkombinationen, die zwar aus zwei Wörtern bestehen, bei denen der Abstand dieser Wörter aber variieren darf – sog. Kollokationen höherer Ordnung (Keibel/Belica 2007) bzw. concgrams (Cheng/Greaves/Warren 2006) – für solche Wortkombinationen müsste die Berechnung der Kohäsionsmaße angepasst werden.



1  Die Korpusgröße N wird hier lediglich als Schätzwert für die Anzahl M aller im Korpus vorkommenden Wortfolgen (Tokens) der Form  x y  verwendet. Dabei wird diese Anzahl durch die Korpusgröße stets etwas überschätzt – sofern Sie nur an Wortpaaren interessiert sind, die innerhalb desselben Satzes liegen (was normalerweise der Fall sein dürfte). Denn in einem Satz, der aus k Worttokens besteht, gibt es nur k-1 Wortfolgen der Form  x y. Gibt es in dem analysierten Korpus also S Sätze, dann gilt:  M = N - S. Da die durchschnittliche Satzlänge in schriftsprachlichen Korpora typischerweise recht hoch ist (meist liegt sie deutlich oberhalb von 10 Worttokens/Satz), ist S deutlich kleiner als N und kann bei der Berechnung von M i.A. vernachlässigt werden. Falls Sie aber die Anzahl Sätze S in Ihrem Korpus kennen, können Sie statt der Korpusgröße N in diesem Feld auch den Wert N-S eintragen.





 zur Startseite