Cyril Belica: Kookkurrenzdatenbank CCDB - V3.3
Zum Download:
Paper A
Paper A
Paper B
Flyer
Eine korpuslinguistische Denk- und Experimentierplattform
für die Erforschung und theoretische
Begründung von systemisch-strukturellen Eigenschaften
von Kohäsionsrelationen zwischen
den Konstituenten des Sprachgebrauchs.
© 2001-2007
Institut für Deutsche Sprache, Mannheim.
Informieren Sie sich bitte vor der Nutzung über die damit
verbundenen Urheberrechte.
Für die Weiterentwicklung von Methoden der Kookkurrenzanalyse
ist es von grundlegender Bedeutung, die zur Zeit noch
weitestgehend unbekannten systemisch-strukturellen Eigenschaften
von Kohäsionsrelationen zwischen Wörtern oder Wortgruppen
der deutschen Sprache möglichst weit aufzudecken,
zu systematisieren und theoretisch zu begründen.
Als empirische Basis für dieses Forschungsvorhaben wurde im
Programmbereich Korpuslinguistik des
Instituts für Deutsche Sprache
auf der Grundlage eines Korpus der Gegenwartssprache von ca.
2,2 Milliarden laufenden Textwörtern eine Kookkurrenzdatenbank
zu über 220.000 Wörtern aufgebaut. Diese enthält für
jedes Wort die Ergebnisse von bis zu fünf verschiedenen
Kookkurrenzanalysen (mit unterschiedlicher Parametereinstellung)
in Form von Hierarchien von ähnlichen Verwendungen (Clustern).
Es werden bis zu 100.000 Verwendungen pro Wort und Analyse
gespeichert.
Die laufenden Forschungsarbeiten konzentrieren sich auf die
Untersuchung der Ähnlichkeit von Kookkurrenzprofilen
(Modul Related Collocation Profiles),
auf die Modellierung semantischer Verwandtschaft (Modul
Modelling Semantic Proximity), auf die Ermittlung
und Visualisierung von relevanten Gebrauchsaspekten (Modul
SOM: Self-Organizing Maps) und auf die Kontrastierung
von Beihnahe-Synonymen (Modul Contrasting Near-Synonyms).
Neben ihrem eigentlichen Zweck, der Erforschung der Eigenschaften
von Kohäsionsrelationen für die Weiterentwicklung von
korpuslinguistischen Analyse- und Erschließungsmethoden, eignet sich
die Datenbank womöglich auch als Hilfsmittel bei der lexikografischen
Arbeit. So kann man darin in der Regel - unter Berücksichtigung
des zugrunde liegenden Korpus, der gewählten Analyseanordnung
und der Tatsache, dass es sich hierbei um die Veröffentlichung
von Zwischenergebnissen laufender, nicht abgeschlossener
Forschungsarbeiten handelt - schnell den ersten flüchtigen
Überblick über das Kookkurrenzverhalten einzelner Lexeme
gewinnen. Wir weisen allerdings ausdrücklich darauf hin,
dass die lexikografisch motivierte Nutzung dieser Datenbank
unseres Erachtens die interaktive, parametrisierbare, dynamische,
auf beliebige benutzerdefinierte virtuelle Korpora und auf
komplexe Suchanfragen aufsetzende explorative Anwendung unserer
Korpuserschließungsmethoden - wie sie über das Serviceangebot des IDS
verfügbar sind - nicht ersetzen kann. Für diese Zwecke
und in diesem Nutzungskontext stellen wir die Kookkurrenzdatenbank
auch der Öffentlichkeit an dieser Stelle teilweise zur
Verfügung.
Hinweise zur Bedienung
-
Vorsicht: große Datenmengen! Hier werden Sie entweder einen
großen Bildschirm und einen wirklich schnellen Internetzugang
(besser) oder viel Geduld brauchen (weniger gut :-).
-
Die CCDB dient projektintern als empirische Grundlage für
die Formulierung von neuen sprachgebrauchsbezogenen
linguistischen Hypothesen, deren Modellierung und Implementierung.
Sie integriert Early-Beta-Implementationen von Ergebnissen
laufender Forschungsarbeiten, ist daher kein Endbenutzerprodukt
und auch kein Serviceangebot des Instituts.
Mit hohem Bedienungskomfort ist hier nicht zu rechnen.
Aus zeitlichen Gründen können wir leider auch keine
Benutzerbetreuung anbieten. Über eine hierdurch angeregte
wissenschaftliche Diskussion oder Rückmeldung würden
wir uns aber natürlich freuen.
-
Klick auf das rote Pluszeichen +
in der ersten Spalte der Clusterübersicht - Konkordanzen
anzeigen.
-
Für IDS-externe Nutzer: urheberrechtlich geschützte
Konkordanzzeilen, die bei der Analyse mitberücksichtigt wurden,
dürfen wir leider nicht einblenden. Stattdessen erhalten
Sie nur die Information über die Länge des jeweils
unterdrückten Blockes, zum Beispiel
"12 ©-Konkordanzen".
-
Für alle Nutzer gilt: "Die kommerzielle Nutzung dieser
Datenbank ist nicht erlaubt."
Urheberrechte
Die Kookkurrenzdatenbank CCDB, die zugrundeliegenden
korpuslinguistischen Analysemethoden
und die mit deren Hilfe erstellten Internetseiten sind Werke im Sinne des
§ 2 UrhG,
da sie wesentliche individuelle Züge eigener geistiger
Schöpfung tragen und in ihrer Gesamtheit einzigartig sind.
Das zulässige Zitieren kleiner Teile in einem eigenen selbständigen Werk
(§ 51 UrhG)
erfordert stets die Angabe der Quelle
(§ 63 UrhG)
in einer geeigneten Form
(§ 13 UrhG).
Wir erwarten in diesem Zusammenhang folgende Quellenangabe:
Belica, Cyril: Kookkurrenzdatenbank CCDB.
Eine korpuslinguistische Denk- und Experimentierplattform
für die Erforschung und theoretische
Begründung von systemisch-strukturellen Eigenschaften
von Kohäsionsrelationen zwischen
den Konstituenten des Sprachgebrauchs.
© 2001-2007
Institut für Deutsche Sprache, Mannheim.
Eine Verletzung des Urheberrechts kann Rechtsfolgen nach sich ziehen
(§ 97 UrhG).
Bei der Veröffentlichung hierauf aufbauender Forschungsergebnisse
bittet der Autor um eine entsprechende kollegiale Information an
belica@ids-mannheim.de.
Dieser Hinweis wurde verfasst mit freundlicher Unterstützung von
http://www.traumhaft-schoen.de
Keywords:
Institut für Deutsche Sprache Mannheim Germany
collocation analysis computational lexicography corpus
IDS Deutsch Text Texte Korpus Korpora Linguistik Sprache
Kollokationsanalyse Kookkurrenzanalyse Konkordanz
Korpuslinguistik Lexikografie Lexikographie Gebrauchsmuster
German texts text corpus corpora linguistics language resources
linguistics corpus pattern analysis concordance COSMAS
semantic relatedness word sense disambiguation
semantic proximity model
clustering related contexts
contrasting synonyms antonyms
identifying similar words and contexts