Ein Bigramm ist eine Wortfolge
w1 w2,
die aus zwei festen Wörtern
w1
und
w2
besteht.
Ein paar Beispiele: “ganze Welt“, “viel schwieriger“, “sondern auch“.
Die Kohäsion (oft auch bezeichnet als Assoziationsstärke) eines Bigramms
(oder allgemeiner: von N-Grammen oder anderen Arten von Wortkombinationen)
drückt aus, wie fest die beiden Wörter „zusammenkleben“, wie sehr sie also „bevorzugen“, gemeinsam aufzutreten –
und zwar nicht nur irgendwie gemeinsam, sondern genau in der Reihenfolge
w1 w2.
mehr |
Mit diesem Online-Rechner können Sie die Kohäsion eines Bigramms
w1 w2
ermitteln (LLR, MI und logDice).
Sie können den Rechner außerdem auch für die Kohäsion von Wortkombinationen verwenden, die aus zwei Wörtern bestehen, welche nicht unmittelbar aufeinanderfolgen, sondern mit einem festen Abstand, z.B. ein Wortpaar der Form
w1 ___ w2,
mit genau einem dazwischen liegenden Wort.
Solche Wortpaare werden als collocational frameworks (Renouf/Sinclair 1991) und phrase frames (Stubbs 2004) bezeichnet, oder allgemeiner auch als positional n-grams.
Nicht verwenden sollten Sie den Rechner hingegen für Wortkombinationen, die zwar aus zwei Wörtern bestehen, bei denen der Abstand dieser Wörter aber variieren darf – sog. Kollokationen höherer Ordnung (Keibel/Belica 2007) bzw. concgrams (Cheng/Greaves/Warren 2006) – für solche Wortkombinationen müsste die Berechnung der Kohäsionsmaße angepasst werden.
1 Die Korpusgröße N wird hier lediglich als Schätzwert für die Anzahl M aller im Korpus vorkommenden Wortfolgen (Tokens) der Form x y verwendet. Dabei wird diese Anzahl durch die Korpusgröße stets etwas überschätzt – sofern Sie nur an Wortpaaren interessiert sind, die innerhalb desselben Satzes liegen (was normalerweise der Fall sein dürfte). Denn in einem Satz, der aus k Worttokens besteht, gibt es nur k-1 Wortfolgen der Form x y. Gibt es in dem analysierten Korpus also S Sätze, dann gilt: M = N - S. Da die durchschnittliche Satzlänge in schriftsprachlichen Korpora typischerweise recht hoch ist (meist liegt sie deutlich oberhalb von 10 Worttokens/Satz), ist S deutlich kleiner als N und kann bei der Berechnung von M i.A. vernachlässigt werden. Falls Sie aber die Anzahl Sätze S in Ihrem Korpus kennen, können Sie statt der Korpusgröße N in diesem Feld auch den Wert N-S eintragen.
zur Startseite |