Errata und Kommentare zu den einzelnen Kapiteln des Buchs
Kap. 6. Korpusfrequenzen analysieren
- S. 79:
Kasten „Beispiel“:
Wenn Sie die beiden Beispielkorpora BRZ08 und NUN08 mit COSMAS II analysieren,
werden Ihnen dort die Korpusgrößen 26.391.354 und 11.629.975 Tokens genannt,
während wir die Korpusgrößen im Buch mit 25.938.449 und 11.509.961 Tokens angeben.
Diese Abweichung ist kein Fehler, sondern hat damit zu tun, dass wir für die Analysen in diesem Kapitel
überwiegend nicht auf COSMAS zurückgreifen konnten (weil einige der benötigten Werkzeuge dort nicht implementiert sind).
Bei unseren Analysen haben wir aber einen anderen Tokenisierer verwendet als COSMAS,
der u.a. Ziffernfolgen nicht als Wörter betrachtet.
Dieser Unterschied ist die Hauptursache für die im Buch niedrigeren Korpusgrößen.