Marc Kupietz & Beata Trawiński

Neue Perspektiven für kontrastive Korpuslinguistik: Das Europäische Referenzkorpus EuReCo

IVG-Kongress, Sektion C11: Kontrastive Korpuslinguistik, Palermo, 2021-07-26

Ziele des Vortrags sind …

die Anforderungen an Sprachkorpora für die kontrastive Linguistik (und den Sprachvergleich generell) aufzuzeigen
auf Problematiken der vorhandenen Lösungen und Ressourcen hinzuweisen
neue Perspektiven zu skizzieren, die das Europäische Referenzkorpus EuReCo für kontrastive Korpuslinguistik eröffnet

Hintergrund

große Bedeutung von Korpora für die linguistische Forschung, sowohl im einzelsprachlichen als auch sprachübergreifenden Kontext
die Anzahl der linguistischen Studien, die auf Korpusdaten basieren, steigt
die Anzahl (und die Größe) von Korpora wächst
der Linguist steht oft vor der Wahl zwischen mehreren unterschiedlichen Korpustypen
verschiedene Optionen für die sprachübergreifende Forschung →

Korpora für den Sprachvergleich

1. Einsprachige Korpora

Einsprachige Korpora

Texte in nur einer Sprache
in der Regel originalsprachig, daher von hoher Qualität
seit den 1960er-Jahren ( DeReKo seit 1964)
Beispiele für große nationale Referenzkorpora:
- DeReKo , ANC, BNC, CNC, NKJP, RNC, HNC, CoRoLa ...
in der Regel linguistisch annotiert (sprachspezifisch)

Einsprachige Korpora
in sprachvergleichender Forschung

als Belegquelle, auch für quantitative Untersuchungen, z. B.
- Augustin (2017): Verschmelzung von Präposition und Artikel im Deutschen ( DeReKo ) und Italienischen (CORIS: Corpus di italiano scritto, PAISÀ-Korpus)
- Taborek (2018, 2020): Funktionsverbgefüge im Deutschen ( DeReKo ) und Polnischen (NKJP)
GDE-N: DeReKo , BNC, COCA, GloWBe, FRANTEXT, ABU, NKJP, HNC (Gunkel et al. 2017)
GDE-V: einsprachige Korpora für einzelne Fallstudien

Methodische Frage

Inwiefern sind einzelsprachliche Ergebnisse kontrastiver Studien, die monolinguale Korpora heranziehen, vergleichbar?
- Die Ergebnisse sind auf einer Metaebene (theoretischer Ebene / Ebene der Generalisierungen) vergleichbar.
- Auf der empirischen Ebene (Datenebene) sind sie weniger vergleichbar.
- Grund: Diversität von monolingualen Korpora

Beispiel: Die einsprachigen Korpora in der Studie
… zum DE, SW, NL – Hartmann/Mucha/Trawiński/Wöllstein (im Erscheinen)

Zusammenfassung: Einsprachige Korpora

geringe Übereinstimmung bezüglich der Größe, Texttypen, Themen etc. (auch morphosyntaktischer Annotation)
jedoch hohe sprachliche Qualität

2. Parallele Korpora

Parallele Korpora

Parallelkorpora bestehen aus Originaltexten in einer Sprache (Quellsprache) und ihren Übersetzungen in anderen Sprachen (Zielsprachen)
Texte in allen Sprachen auf Satzebene aligniert
teilweise linguistisch annotiert (sprachspezifisches PoS-Tagging)
seit den 1990er-Jahren

Große mehrsprachige Parallelkorpora

Vorteile von Parallelkorpora

Paralleldaten: Sequenzen von sprachlichen Einheiten (Wörter, Sätze) in zwei oder mehreren Sprachen,
- die Übersetzungsäquivalente voneinander sind und als solche die gleiche Bedeutung transportieren
- in den gleichen Kontexten verwendet werden
- in den gleichen Texttypen aus den gleichen Zeiträumen etc. vorkommen
perfekte Grundlage für die Ermittlung der funktionalen Äquivalenz zwischen sprachlichen Strukturen (James 1980, Chesterman 1998) → tertium comparationis
Einblicke in sprachübergreifende Ähnlichkeiten und Unterschiede, die bei der Arbeit mit einsprachigen Korpora übersehen werden könnten

Linguistische Arbeiten
kontrastiv, sprachtypologisch, translatorisch

Johansson (2007), Altenberg und Granger (2002), Granger (2010), Languages in Contrast (International Journal for Contrastive Linguistics) etc.
Cysouw und Wälchli (2007) etc.
Granger et al. (2003) etc.

Probleme mit Parallelkorpora

relativ geringe Größe
- je mehr Sprachen, desto kleiner und weniger differenziert ist das Korpus
unausgewogen in Bezug auf Originaltexte und Übersetzungen
spezifische Eigenschaften von Übersetzungen (ein dritter Code)

Beispiel: Die Paralleldaten in der Studie
… zum Imperativ im DE, EN, PL, CZ – Trawiński (2016a, b)

Merkmale von Übersetzungen: Laviosa (1998)

relativ geringer Anteil von lexikalischen Wörter gegenüber Funktionswörtern
relativ hoher Anteil von hochfrequenten Wörtern gegenüber niedrigfrequenten Wörtern
häufige Wiederholung von häufigsten Wörtern
niedrige Varietät bei häufigsten Wörtern

Merkmale von Übersetzungen: Backer (1995)

Vereinfachung
- Übersetzungen neigen dazu, eine einfachere Sprache zu verwenden
Verdeutlichung
- Übersetzungen zeigen die Tendenz, Dinge zu verdeutlichen
Normalisierung
- Übersetzungen neigen dazu, typische Mustern der Zielsprache zu verfolgen und diese dadurch übermäßig zu gebrauchen

Merkmale von Übersetzungen: Teich (2003)

shining-through (Übersetzungen lassen die Quellsprache durchscheinen)
Normalisierung (Übersetzungen gehorchen der zielsprachigen Norm mehr als vergleichbare zielsprachige Originaltexte)
Fallstudien für das Sprachenpaar Deutsch-Englisch: Passiv, Transitivität etc.

Zusammenfassung: Parallele Korpora

hohe Vergleichbarkeit in Bezug auf Größe und Inhalt (aber nicht in Bezug auf morphosyntaktische Annotation)
geringere Qualität des linguistischen Materials

3. Vergleichbare Korpora

Bedarf an vergleichbaren Korpora

monolinguale und parallele Korpora allein eignen sich nicht für feiner granulare linguistische Forschung
- da es ihnen entweder an Vergleichbarkeit oder an linguistischer Qualität mangelt
mögliche Abhilfe:
- Kombination aus parallelen und einsprachigen Korpora verwenden
- Nachteile:
  - (quantitative) Befunde nicht unmittelbar einschätzbar
  - datengeleitete Modelle u. U. irreführend
Desiderat: vergleichbare Korpora hoher Qualität

Vergleichbare Korpora
Definition (McEnery & Xiao 2007)

»a comparable corpus can be defined as a corpus containing components that are collected using the same sampling frame and similar balance and representativeness […], e.g. the same proportions of the texts of the same genres in the same domains in a range of different languages in the same sampling period«
frühes prominentes Beispiel:
- International Corpus of English (ICE) (Greenbaum 1991)

Praktische Vergleichbarkeit
ebenfalls relevant

durch reichhaltige Metadaten
- deren Kategorien aufeinander abbildbar sein sollten
durch linguistische Annotationen
- die idealerweise auch aufeinander abbildbar sein sollten
  ➞ Universal Dependencies
durch entsprechende Recherche-Tools
- die alle diese Möglichkeiten nutzbar machen

Gibt es vergleichbare Korpora?
… mit breitem Abdeckungspektrum, die auch Deutsch beinhalten?

in Zukunft:
- International Comparable Corpus (ICC)
  (Kirk et al. 2017, Čermáková et al. 2021)
- 2017 gestartet Initiative mit IDS-Beteiligung
- Ziel: Aufbau vieler kleiner Korpora mit kontrollierter Zusammensetzung nach dem Vorbild des ICE
derzeit nur Webkorpora:
- Aranea - Familie vergleichbarer Gigaword-Webkorpora (Benko 2014)

Aranea im Einsatz
mit der NoSketch-Engine

Aranea
Familie vergleichbarer Gigaword-Webkorpora (Benko 2014)

enthält mehr als 20 Sprachen
große Korpora kontrollierter Größe:
120M und 1.2G Wörter
Nachteil:
- die Vergleichbarkeit der Zusammensetzung ist nicht kontrolliert
- und kann nicht leicht kontrolliert werden, da Texten aus dem Web notorisch die erforderlichen Metadaten fehlen
die Verfügbarkeit vergleichbarer Universa-Korpora, die auch Deutsch enthalten, ist nicht ideal.

4. EuReCo

EuReCo - European Reference Corpus

2013 vom IDS und den Akademien in Polen, Rumänien und Ungarn gegründete offene Initiative
Pilotprojekte (Humboldt-Institutspartnerschaften):
- DRuKoLA: Rumänisch-Deutsch (2016-2018): CoRoLa (Tufiş et al. 2019)
- DeutUng: Ungarisch-Deutsch (2017-2021): HNC (Váradi 2002)
EuReCo -Kern: 2 zugrundeliegende Ideen bzw. Annahmen

1. Dedizierte Vergleichskorpora ökon. unpraktikabel

selbst einsprachige Universalkorpora sind oft nicht realisierbar
- oder werden nicht dauerhaft gepflegt / erweitert
mehrsprachige dedizierte Vergleichskorporpora würden die ohnehin unrealistischen Kosten vervielfachen
dedizierte Vergleichskorpora können nicht von Grund auf neu aufgebaut und dauerhaft gepflegt werden

Vergleichskorpora auf Basis vorhandener Korpora!
EuReCo's Ansatz

es existieren einige National/Referenzkorpora für Sprachen in Europa
- BNC, CNC, CoRoLa, DeReKo , HNC, NKJP, …
diese werden z. T. gepflegt und erweitert
- oder es gibt zumindest eine nachhaltige Institution, die sich verantwortlich fühlt
lieber vorhandene Korpora benutzen als neue aufbauen

Erwartete Vorteile des EuReCo-Ansatzes

ökonomischer, skalierbarer und nachhaltiger
- zumal man auch von laufenden und zukünftigen Erweiterungen und Verbesserungen dieser Korpora profitieren kann
hohe linguistische Qualität und ausreichende Größe bei Nationalkorpora zu erwarten

2. Allgemeine Vergleichbarkeit ist nicht erreichbar

Korpora können bei sinnvoller Größe und Streuung nicht allgemein perfekt vergleichbar sein
- es wird sich immer ein Kriterium geben, anhand dessen die Korpora nicht vergleichbar sind
- ob eine Ungleichverteilung bzgl. einer Variable relevant ist, hängt von der spezifischen Fragestellung ab
allgemein vergleichbare Korpora sind kein sinnvolles Ziel
bei einigen Fragestellungen ist Vergleichbarkeit nicht relevant
- stattdessen oft: Größe

2b. Allgemeine Repräsentativität ist nicht möglich

wichtiger: einzelsprachliche Korpora können nicht allgemein repräsentativ sein
- da Grundgesamtheit=Sprache nicht allgemein definierbar ist
- ob ein Korpus ausreichend repräsentativ ist, hängt von Fragestellung und Sprachdomäne ab
allgemein vergleichbare und jeweils repräsentative Korpora sind keine sinnvolle Zielsetzung

EuReCo: dynamisch definierbare, virt. Vergleichskorpora!
in Analogie zu DeReKo's Urstichproben-Ansatz (Kupietz 2016)

sind EuReCo -Nutzer*innen dazu eingeladen …
vordefinierte (Vergleichs-)korpora zu verwenden oder
sich selbst bzgl. der jeweiligen Fragestellung
geeignet repräsentative und vergleichbare Korpora
zu definieren

Grundlegender Ansatz
(Cosma et al. 2016) vgl. McEnery & Xiao (2007)

man zieht Sub-Korpora aus den einsprachigen Korpora
so dass diese bzgl. Metadaten-Variablen wie:
- Themenbereich
- Texttyp
- Veröffentlichungsdatum
- …
möglichst ähnliche Text-/Tokenverteilungen aufweisen

Verfeinerung: Iterativ (und fragestellungsspezifisch)
zur schrittweisen Annäherung an ausreichende Vergleichbarkeit

man beginnt wie beschrieben
führt vergleichende Fallstudien durch
falls die Befunde Artefakte von Vergleichbarkeitskriterien zu sein scheinen, verfeinert man die Abbildung und mit 2 neu beginnen

Grundsätzlich mit KorAP-VC-Builder möglich
aufgrund fehlender Downsamplingfunktion aber noch nicht praktikabel

Erstes Rumänisch-Deutsches EuReCO-Vergleichskorpus
Kupietz et al. 2020

kontrollierte Variable: thematische Domäne
für das Rumänische: CoRoLa komplett
für das Deutsche:
- Zufallsstichprobe aus DeReKo
- mit gleicher Text/Token-Verteilung zu thematischen Domänen
  wie CoRoLa
- aktuelle Version über KorAP abfragbar

Thematische Zusammensetzung des Korpus
(nach oberster Ebene der DeReKo-Taxonomie)

Zusammensetzung nach Veröffentlichungsjahr
DeReKo/Deutsch-Anteil: nicht kontrolliertes Ergebnis der Stichprobenziehung

Vergleichskorpus mit KorAP verwendbar
➞ KorAP auf DRuKoLa-VC – ➞ KorAP auf CoRoLa: https://korap.racai.ro/

Auch HNC teilweise über KorAP abfragbar
https://korap.nlp.nytud.hu/

🢧

Exemplarische Vergleichsstudien
z.B. zu Korrelaten (Molnar 2015, Hartmann et al. 2017, Kupietz et al 2020)

5. Laufende Arbeiten

Vergleich von syntagmatischen Mustern
und Verwendungskontexten: Deutsch-Rumänisch

anhand von Kookkurrenzanalysen (Taborek 2018, 2020)
z. B. zu Funktionsverbgefügen
- in Abhängigkeit von textexternen Variablen
gleichzeitig dabei auch:
- Untersuchung von »Vergleichbarkeit«
- Erweiterung der KorAP-Unterstützung
- ggf. Weiterentwicklung der Methodik zu syntagm. Mustern (Belica & Perkuhn 2015) ➞ Abhängigkeit von textexternen Variablen

Kokkurrenzanalyse mit KorAP's R-Bibliothek
noch nicht im UI unterstützt, aber mit R-Bibliothek (Kupietz et al. 2020b) sehr flexibel

library(RKorAPClient)
source("demo/ca.R")
corola <- new("KorAPConnection", KorAPUrl = "https://korap.racai.ro/")
dereko <- new("KorAPConnection", verbose = T)
vc_drukola <- "referTo drukola.20180909.1b_words"
 
in_NN_setzen <- collocationAnalysis(
  dereko,
  node = "focus(in [tt/p=NN] {[tt/l=setzen]})",
  vc = vc_drukola,
  leftContextSize = 1, # bezieht sich auf {} in focus()
  rightContextSize = 0
)
 
pune_in_NN <- collocationAnalysis(
  corola,
  node = "focus({[drukola/l=pune] în} [drukola/p=noun])",
  leftContextSize = 0,
  rightContextSize = 1
)

Beispiel-FVG-Vergleich Rumänisch-Deutsch

<pune> în <NN> / CoRoLa
NN	logDice	DE (~DeepL)
pericol	11,16	Gefahr
aplicare	10,74	Anwendung
mișcare	10,63	Bewegung
discuție	10,07	Diskussion
funcțiune	9,97	Funktion
evidență	9,64	Hervorhebung
practică	8,95	Praxis
executare	8,85	Ausführung
scenă	8,81	Szene
vânzare	8,51	Verkauf
circulație	8,44	Umlauf
valoare	8,31	Wert
slujba	8,24	Job
lumină	7,88	Licht
vedere	7,26	Blick
discuția	7,11	Diskussion
joc	7,10	Spiel
libertate	7,04	Freiheit
relație	6,87	Beziehung
balanță	6,79	Gleichgewicht
situația	6,55	Situation
borcane	6,48	Gläser
serviciul	6,41	Service
umbră	6,23	Schatten
legătură	6,20	Link
primejdie	6,13	Notruf
posesie	6,03	Besitz
față	6,02	Gesicht

in <NN> <setzen> / vc_drukola
<NN>	logDice
Gang	10,84
Szene	10,59
Brand	10,12
Kenntnis	9,55
Bewegung	9,44
Verbindung	9,16
Marsch	9,07
Kraft	8,41
Beziehung	7,80
Umlauf	7,70
Anführungszeichen	7,40
Flammen	6,59
Relation	6,39
Untersuchungshaft	6,38
Klammern	6,12
Betrieb	5,92
Stand	5,90
Erstaunen	5,75
Bezug	5,51
Vollzug	5,13
Anführungsstriche	5,06
Gänsefüßchen	4,74
Auslieferungshaft	4,42
Parallele	4,39
Vergleich	4,38
Verkehr	4,28
Pose	4,15
Positur	4,10

➞ Kohäsionsstärken stark abhängig von Domäne
Kollokatrangfolgen zu »pune în …« in Domäne = / ≠ Recht: ϱ(N=39) << 0,58

Domäne = Recht
pune în …	logDice
pericol	11,79
mișcare	11,10
aplicare	10,76
funcțiune	10,58
discuție	10,54
executare	9,79
liberă	9,07
vânzare	8,78
circulație	8,71
discuția	8,05
vedere	8,05
practică	8,01
întârziere	7,56
evidență	7,32
libertate	7,18
corespondență	7,16
posesie	6,86
vînzare	6,77
serviciul	6,73
valoare	6,69
echivalență	6,60
dezbaterea	6,29
sarcina	6,27
posesia	6,09
dezbatere	6,00
plicuri	5,94
primejdie	5,87
comun	5,76

Domäne ≠ Recht
pune în …	logDice
aplicare	11,09
evidență	10,92
pericol	9,96
practică	9,61
discuție	9,59
mișcare	9,54
scenă	9,41
valoare	9,25
funcțiune	8,87
circulație	8,70
slujba	8,69
vânzare	8,49
lumină	8,38
situația	8,20
relație	7,75
joc	7,59
balanță	7,16
libertate	7,14
gardă	7,02
primejdie	6,90
umbră	6,86
ordine	6,79
contact	6,69
dificultate	6,67
pagină	6,64
gând	6,54
legătură	6,47
față	6,46

Eine vorläufige Erkenntnis

beim Vergleich syntagmatischer Muster spielt die Korpus-Zusammensetzung selbst eine größere Rolle als die Vergleichbarkeit
leicht andere Situation als im Varietätenvergleich (vgl. Heid 2011)

6. Schlussfolgerungen und Ausblick

Zusammenfassung

wir brauchen Korpora für den Sprachvergleich
je nach Fragestellung sind parallele, einsprachige, vergleichbare Korpora oder eine Kombination aus diesen geeignet
großes, übergreifendes Ziel:
EuReCo bietet einen realistischen Lösungsansatz
- durch die virtuelle Vereinigung bestehender großer Korpora
- nutzer-definierte, dynamische Konstruktion vergleichbarer Korpora

Geplante nächste EuReCo-Schritte

vollständige HNC-Integration (bis Ende 2021)
ICC-Integration
Integration weiterer großer Korpora
- NKJP anvisiert!
KorAP-Weiterentwicklung

Vergleichbarkeit?

ob Korpora ausreichend vergleichbar sind, kann nicht allgemein entschieden werden, sondern ist u.a. von der Fragestellung abhängig
dynamisch definierbare virtuelle Vergleichskorpora, sind dazu ein guter Lösungsansatz
- zumal dabei auch die Zusammensetzung insgesamt anpassen kann
wichtig ist vor allem auch die tatsächliche Vergleichbarkeit mithilfe eines (einheitlichen) Werkzeugs und (abbildbaren) Metadaten und Annotationen

Vielen Dank für Ihre Aufmerksamkeit!

Referenzen

Augustin, Hagen (2017):

Verschmelzung von Präpositionen und Artikel. Eine kontrastive Analyse zum Deutschen und Italienischen. Reihe: Konvergenz und Divergenz 6.

Bański, Piotr/Bingel, Joachim/Diewald, Nils/Frick, Elena/Hanl, Michael/Kupietz, Marc/Pęzik, Piotr/Schnober, Carsten/Witt, Andreas (2013):

KorAP: the new corpus analysis platform at IDS Mannheim. In: Vetulani, Zygmunt/Uszkoreit, Hans (eds.): Human Language Technologies as a Challenge for Computer Science and Linguistics. Proceedings of the 6th Language and Technology Conference. S. 586-587 - Poznań: Fundacja Uniwersytetu im. A., 2013.

Belica, Cyril & Perkuhn, Rainer (2015):

Feste Wortgruppen/Phraseologie I: Kollokationen und syntagmatische Muster. In U. Haß & P. Storjohann (Hrsg..), Handbuch Wort und Wortschatz (pp. 201-225). Berlin, München, Boston: De Gruyter. https://doi.org/10.1515/9783110296013-009

Benko, Vladimír (2014):

Aranea: Yet Another Family of (Comparable) Web Corpora. In Petr Sojka, Aleš Horák, Ivan Kopeček and Karel Pala (Eds.): Text, Speech and Dialogue. 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. LNCS 8655. Springer International Publishing Switzerland, 2014. pp. 257-264. ISBN: 978-3-319-10815-5 (Print), 978-3-319-10816-2 (Online). BibTeX PDF

Borin, Lars/Forsberg, Markus/Roxendal, Johan (2012):

Korp – the corpus infrastructure of Språkbanken. In Proceedings of LREC 2012. Istanbul: Elra, 474–478

Brandt, Patrick unter Mitwirkung von Felix Bildhauer (2019):

Alternation von zu- und dass- Komplementen: Kontrolle, Korpus, und Grammatik. In: Fuß, Eric/Konopka, Marek/Wöllstein, Angelika. Grammatik im Korpus. Korpuslinguistisch-statistische Analysen morphosyntaktischer Variationsphänomene. Tübingen: Narr.

Brandt, Patrick/Trawiński, Beata/Wöllstein, Angelika (2017):

(Anti-)Control in German: Evidence from Comparative, Corpus- and Psycholinguistic Studies. In: Linguistische Berichte (Sonderheft). Hamburg: Buske.

Čermáková, A., Jantunen, J., Jauhiainen, T., Kirk, J., Křen, M., Kupietz, M., & Uí Dhonnchadha, E. (2021):

The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora. Research in Corpus Linguistics, 9(1), 89-103.

Chesterman, Andrew (1998):

Contrastive Functional Analysis. Amsterdam/Philadelphia: John Benjamins Publishing Company.

Cosma, Ruxandra/Cristea, Dan/Kupietz, Marc/Tufiş, Dan/Witt, Andreas (2016):

DRuKoLA – Towards Contrastive German-Romanian Research based on Comparable Corpora. In: Bański, Piotr/Barbaresi, Adrien/Biber, Hanno/Breiteneder, Evelyn/Clematide, Simon/Kupietz, Marc/Lüngen, Harald/Witt, Andreas: 4th Workshop on Challenges in the Management of Large Corpora. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slowenien. Paris: European Language Resources Association (ELRA), 2016. pp 28-32.

Cysouw M./Wälchli B. (2007):

Parallel texts: using translational equivalents in linguistic typology. STUF - Sprachtypologie und Universalienforschung 60(2), 95–99.

Gîfu, D., Moruz, A., Bolea, C., Bibiri, A. & Mitrofan, M. (2019):

The Methodology of Building CoRoLa. Revue roumaine de linguistique (3), 241-253.

Granger, S./Lerot, J./Petch-Tyson, S. (Eds.) (2003):

Corpus-based Approaches to Contrastive Linguistics and Translation Studies. Amsterdam / Atlanta: Rodopi.

Granger, S. (2010):

Comparable and translation corpora in cross-linguistic research. Design, analysis and applications. Journal of Shanghai Jiaotong University.

Gray, Jim (2003):

Distributed Computing Economics. Technical Report MSR-TR-2003-24, Microsoft Research.

Greenbaum, Sidney (1991):

ICE: The international corpus of English. English Today, 7(4), 3-7.

Gunkel, Lutz / Murelli, Adriano / Schlotthauer, Susan / Wiese, Bernd / Zifonun, Gisela (2017):

Grammatik des Deutschen im europäischen Vergleich – Das Nominal. Unter Mitarb. v. Günther, Christine / Hoberg, Ursula. Reihe: Schriften des Instituts für Deutsche Sprache 14.

Hartmann/Mucha/Trawiński/Wöllstein (in Vorbereitung):

Antikontrolle und Satzwertigkeit. In Beata Trawinski und Angelika Wöllstein (ed.): Perspektiven im Sprachvergleich. Pilotstudien zu einer Grammatik des Deutschen im Europäischen Vergleich. Reihe: Konvergenz und Divergenz. De Gruyter.

Hartmann, J. M., Schlotthauer, S., Trawiński, B. & Wöllstein, A. (2017):

Sprachvergleich: Einblicke in die aktuelle kontrastive Forschung am IDS: Nominal- und Verbgrammatik. Presentation at the Kick-off of the project DeutUng, 19.10.2017, University of Szeged (Hungary).

Heid, Ulrich (2011):

Korpusbasierte Beschreibung der Variation bei Kollokationen: Deutschland - Österreich - Schweiz - Südtirol. In: Engelberg, Stefan/Holler, Anke/Proost, Kristel (Hrsg.): Sprachliches Wissen zwischen Lexikon und Grammatik. – Berlin, Boston: de Gruyter, 2011. S. 533-557. (Institut für Deutsche Sprache. Jahrbuch 2011), https://doi.org/10.1515/9783110262339.533

James, Carl (1980):

Contrastive Analysis. London: Longman.

Johansson, S. (1999):

Corpora and contrastive studies. In P. Pietilä & O-P. Salo (Hrgs.) Multiple Languages – Multiple Perspectives. AFinLA Yearbook 1999 / No. 57, 116-125.

Johansson, S. (2007):

Seeing through multilingual corpora. On the use of corpora in contrastive studies. Amsterdam: Benjamins.

Kirk, John/Čermáková, Anna (2017):

From ICE to ICC: The new International Comparable Corpus. In Bański et al. (eds.): Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC-5+BigNLP) 2017 including the papers from the Web-as-Corpus (WAC-XI) guest section

Koehn, Philipp (2005):

Europarl: A Parallel Corpus for Statistical Machine Translation. MT Summit 2005.

Kupietz, Marc (2016):

Constructing a Corpus. In: Durkin, Philip: The Oxford Handbook of Lexicography. (= Oxford handbooks in linguistics). Oxford: Oxford University Press, 2016. S. 62-75.

Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010):

The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (eds): Proceedings of the seventh conference on International Language Resources and Evaluation (LREC 2010). S. 1848-1854 - ELRA.

Kupietz, Marc/Witt, Andreas/Bański, Piotr/Tufiş, Dan/Cristea, Dan/Váradi, Tamás (2017):

EuReCo – Joining Forces for a European Reference Corpus as a sustainable base for cross-linguistic research. In: Bański, Piotr et al. (eds.): Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC-5+BigNLP) 2017 including the papers from the Web-as-Corpus (WAC-XI) guest section. Birmingham, 24 July 2017. Mannheim: Institut für Deutsche Sprache, 2017. pp. 15-19.

Kupietz, Marc/Diewald, Nils/Trawiński, Beata/Cosma, Ruxandra/Cristea, Dan/Tufiş, Dan/Váradi, Tamás/Wöllstein, Angelika (2020):

Recent developments in the European Reference Corpus EuReCo. In: Granger, Sylviane/Lefer, Marie-Aude (Hrsg.): Translating and Comparing Languages: Corpus-based Insights. (= Corpora and Language in Use, Proceedings 6). Louvain-la-Neuve: Presses universitaires de Louvain, 2020. S. 257-273.

Kupietz, Marc/Diewald, Nils/Margaretha, Eliza (2020b):

RKorAPClient: An R Package for Accessing the German Reference Corpus DeReKo via KorAP. In: Calzolari, Nicoletta/Béchet, Frédéric/Blache, Philippe/Choukri, Khalid/Cieri, Christopher/Declerck, Thierry/Goggi, Sara/Isahara, Hitoshi/Maegaard, Bente/Mariani, Joseph/Mazo, Hélène/Moreno, Asuncion/Odijk, Jan/Piperidis, Stelios (Hrsg.): Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC), May 11-16, 2020, Palais du Pharo, Marseille, France. Paris: European Language Resources Association, 2020. S. 7016-7021.

McEnery, Anthony & Xiao, Richard (2007):

Parallel and comparable corpora: What are they up to? In G. James and G. Anderman (eds): Incorporating Corpora: Translation and The Linguist. Clevedon: Multilingual Matters. 18-32

Molnár, Valéria (2015):

The Predicationality Hypothesis. The Case of Hungarian and German. In É. Kiss, K., Surányi, B. & É. Dékány (eds). Approaches to Hungarian 14. Papers from the 2013 Piliscsaba Conference. Amsterdam: Benjamins, 209–244.

Rapp, Irene/Laptieva, Ekaterina/Koplenig, Alexander/Engelberg, Stefan (2017):

Lexikalisch-semantische Passung und argumentstrukturelle Trägheit – eine korpusbasierte Analyse zur Alternation zwischen dass-Sätzen und zu-Infinitiven in Objektfunktion. Deutsche Sprache 45(3). 193-221.

Taborek, Janusz (2020):

Kookkurrenz und syntagmatische Muster der Funktionsverbgefüge aus kontrastiver deutsch-polnischer Sicht am Beispiel in Not geraten.

[in:] De Knop, Sabine & Manon Hermann (Hrsg.), Funktionsverbgefüge im Fokus: Theoretische, didaktische und kontrastive Perspektiven, Berlin u.a.: de Gruyter, 211-233

Taborek, Janusz (2018):

Korpusbasiertes kontrastives Beschreibungsmodell für Funktionsverbgefüge.

In: Schmale, Günter (ed.): Lexematische und polylexematische Einheiten des Deutschen (Reihe Eurogermanistik), Tübingen: Stauffenburg, 135-154.

Taborek, Janusz (2018b):

Funktionsverbgefüge in bilingualen deutsch-polnischen Wörterbüchern. Korpusbasierte Analyse – syntagmatische Muster – Äquivalenz.

[in:] Jesenšek, V./Enčeva, M. (eds.), Wörterbuchstrukturen zwischen Theorie und Praxis. Herbert Ernst Wiegand zum 80. Geburtstag gewidmet. (= Lexikographica.Series Maior). Berlin: de Gruyter,197-214.

Teich, Elke (2003):

Cross-Linguistic Variation in System and Text: A Methodology for the Investigation of Translations and Comparable Texts. Berlin: Mouton de Gruyter.

Tufiș, Dan/Barbu Mititelu, Verginica/Irimia, Elena/Păiș, Vasile/Ion, Radu/Diewald, Nils/ Mitrofan, Maria/Onofrei, Mihaela (2019):

Little strokes fell great oaks. Creating CoRoLa, the reference corpus of contemporary Romanian. In: Cosma, Ruxandra/Kupietz, Marc (eds..), On design, creation and use of the Reference Corpus of Contemporary Romanian and its analysis tools. CoRoLa, KorAP, DRuKoLA and EuReCo, Revue Roumaine de Linguistique, 64(3). Bucharest: Editura Academiei Române.

van Noord, Gertjan/Bouma, Gosse/van Eynde, Frank/de Kok, Daniel/van der Linde, Jelmer/ Schuurman, Ineke/Sang, Erik Tjong Kim/Vandeghinste, Vincent. (2013):

Large Scale Syntactic Annotation of Written Dutch: Lassy. In Peter Spyns and Jan Odijk (eds.), Essential Speech and Language Technology for Dutch: the STEVIN Programme, 147–164, Springer.

Váradi, T. (2002):

The Hungarian National Corpus. In Rodríguez, M. & Araujo, C. (eds) Proceedings of LREC 2002, Las Palmas / Paris: ELRA, 385–389.

Anhang

Mehrsprachige Korpora

Es ist oft gesagt worden, dass wir durch Korpora Muster in der Sprache beobachten können, die wir vorher nicht kannten (...) Meine Behauptung ist, dass dies insbesondere für mehrsprachige Korpora gilt. Wir können sehen, wie sich Sprachen unterscheiden, was sie gemeinsam haben und - vielleicht irgendwann - was Sprache im Allgemeinen charakterisiert.

Johansson (2007)

Fallstudie:
(Nicht-)finite Komplementierung und Kontrolle

vergleichende Studie: Deutsch-Schwedisch-Niederländisch
- Hartmann/Mucha/Trawiński/Wöllstein (in Vorbereitung)
- Ausgangsbasis: Wöllstein (2015), Brandt/Trawiński/Wöllstein (2016), Brand (2019)
Gegenstand:
- Strukturen mit Verben, die propositionale / verbhaltige finite und nicht-finite Komplemente selegieren
Fragestellung:
- Gibt es eine Korrelation zwischen Präferenzen für (nicht-)finite Komplementierung und Kontrollverhältnissen?

Fallstudie: Hintergrundannahmen

Referentielle Kohäsion und Ereignisintegration (Givón 1990:527)
- The more the two events coded in the main and complement clauses share their referents, the more likely they are to be semantically integrated as a single event; and the less likely is the complement clause to be coded as an independent finite clause.
In Bezug auf das Deutsche (Rapp et al. 2017:197):
- Je mehr das einbettende Verb lexikalisch zu semantischer Kontrolle tendiert, desto häufiger treten zu-Infinitive auf.
- Je weniger das einbettende Verb lexikalisch zu semantischer Kontrolle tendiert, desto häufiger treten dass-Sätze auf.

Fallstudie: Die Korpora

Korpora:
- DeReKo / KoGra-DB (IDS Mannheim, Kupietz et al. 2010)
  - → Deutsch
- Språkbanken / Moderna (Göteborg, Borin et al. 2012)
  - → Schwedisch
- LASSY Large (Groningen / Lueven, van Noord et al. 2013)
  - → Niederländisch
Untersuchungsgegenstand: Distribution von verschiedenen Verbklassen mit verschiedenen Komplementtypen:
- mit finiten Komplementen
- mit infiniten Komplementen mit einem Komplementierer
- mit infiniten Komplementen ohne einen Komplementierer

Ergebnisse für das Deutsche

Verbkategorien 1: Schwedisch

Verbkategorien 2: Schwedisch

Verbkategorien 3: Schwedisch

Ergebnisse für das Schwedische

Ergebnisse für das Niederländische

Zusammenfassung und Fazit

Die Korpusuntersuchungen zeigen, dass es eine Korrelation zwischen Selektionspräferenzen und Kontrollverhältnissen gibt
- die Ergebnisse bestätigen die Hypothese der referentiellen Kohäsion und Ereignisintegration
- und zeigen, dass diese eine sprachübergreifende Gültigkeit hat
Methodische Frage: Sind die Ergebnisse für das Deutsche, das Schwedische und das Niederländische vergleichbar?
Die Antwort: ja und nein
- die Ergebnisse sind auf einer Metaebene (Ebene der Generalisierungen) vergleichbar
- auf der empirischen Ebene (Datenebene) sind sie weniger vergleichbar

Beispiel: Die einsprachigen Korpora in der Studie
… zum DE, SW, NL – Hartmann/Mucha/Trawiński/Wöllstein (im Erscheinen)

Korpus	Worttoken	Satztoken	Texttypen (verschiedene Themenbereiche)	PoS-Tagging
DeReKo (Subkorpus KoGra-DB)	4.3 G	200 M	170 Kategorien: Presse, Roman, Gedicht, Krimi, Belletristik, Dissertation, Wettervorhersage, Werbebroschüre, Horoskop, Leserbrief, Reiseführer etc.	TreeTagger (STTS), Con- nexor, Xerox
Språkbanken (Subkorpus Moderna)	13.3 G	953 M	Presse, Zeitschrift, Protokolle, Literatur, Bloggmix, Twittermix, Wikipedia	SUC MSD-Tagset, UD
LASSY (Korpus Large)	0.8 G	52 M	18 Kategorien: Verwaltungstexte, juristische Texte, Zeitschrift, Protokolle (Europarl), Web, Wikipedia, Thronreden der Königin Beatrix etc.	CGN-Tagset, D-Coi/SoNaR

Kleine parallele Ressourcen (Auswahl)

Kontrastive und typologische Studien

Bengt Altenberg (1999). Adverbial connectors in English and Swedish: Semantic and lexical correspondences. In Hasselgård & Oksefjell (eds.) Out of Corpora. Amsterdam: Rodopi, 249-268.
Hilde Hasselgård (2007). Using the ENPC and the ESPC as a parallel translation corpus: adverbs of frequency and usuality. Nordic Journal of English Studies 6:1.
Sandrine Zufferey & Bruno Cartoni (2012). English and French causal connectives in contrast. Languages in Contrast, Volume 12, Issue 2, 2012, pages 232 –250.

Typologische Studien

Johan van der Auwera & Ewa Schalley & Jan Nuyts (2005). Epistemic possibility in a Slavonic parallel corpus – a pilot study. In: P. Karlik & B. Hansen (eds.), Modalität in slavischen Sprachen. Neue Perspektiven. München: Sagner, pages 201–217.
Federica da Milano (2007). Demonstratives in parallel texts: A case study. Sprachtypologie und Universalienforschung 60(2), pages 135–147.
Bernhard Wälchli (2007). Advantages and disadvantages of using parallel texts in typological investigations. Sprachtypologie und Universalienforschung 60(2), pages 118–134. (a case study of multi-verb constructions in the motion event domains BRING and RUN)

Diskussionen

Cysouw M., Wälchli B. (2007). Parallel texts: using translational equivalents in linguistic typology. STUF - Sprachtypologie und Universalienforschung 60(2), 95–99.
Granger, S.; Lerot, J.; Petch-Tyson, S. (Hrsg.) (2003). Corpus-based Approaches to Contrastive Linguistics and Translation Studies. Amsterdam / Atlanta: Rodopi.
Granger, S. (2010). Comparable and translation corpora in cross-linguistic research. Design, analysis and applications. Journal of Shanghai Jiaotong University.
Johansson, S. (1999). Corpora and contrastive studies. In P. Pietilä & O-P. Salo (Hrgs.) Multiple Languages – Multiple Perspectives. AFinLA Yearbook 1999 / No. 57, 116-125.
Johansson, S. (2007). Seeing through multilingual corpora. On the use of corpora in contrastive studies. Amsterdam: Benjamins.

Fallbeispiel: Imperativ

Die zugrunde liegende Annahme: Imperative werden kanonisch in Äußerungen verwendet, die direkte Befehle, Bitten, Anweisungen, Ratschläge usw. ausdrücken.
erfordern ein Agens: eine Entität, die zum bewussten und vorsätzlichen Handeln fähig ist
- → wir können nur jemanden auffordern, etwas zu tun, der über das Handeln eine direkte Kontrolle hat (Potsdam 1996, Jensen 2003)
Erwartete Korpusdistribution: Imperativ-Markierungen kommen bei agentivischen Verben signifikant häufiger vor als bei nicht-agentivischen Verben

Fallbeispiel: Imperativ

Zwei Ziele:
- die Agentivitätshypothese auf der Basis von Korpusdaten zu überprüfen
- die sprachübergreifende Gültigkeit der Hypothese zu überprüfen
4 Sprachen: Englisch, Deutsch, Polnisch und Tschechisch
- Spielt der Verwandschaftsgrad eine Rolle?

Datenquelle: InterCorp 6. über KonText

Vorgehen

Extraktion von imperativischen Wortformen mit Hilfe von CQP-Abfragen
Identifizierung und Auswahl von 50 häufigsten Lemmata (Minimalfrequenz 10) aus allen den Imperativformen zugrunde liegenden Lemmata
Abbildung aller ausgewählten Lemmata (sprachspezifisch) auf abstrakte Ereigniskonzepte, die auf FrameNet-Frame-Index basieren (Baker et al., 1998)

Die relevanten Konzepte

MOTION (go / gehen, come / kommen etc.)
COMMUNICATION (say / sagen, listen / hören etc.)
GIVING/TAKING (give / geben, take / nehmen)
PERCEPTION (see / sehen, look / schauen etc.)
AWARENESS/COGITATION (understand / verstehen, think /denken etc.),
REMEMBERING (remember / erinnern, forget / vergessen etc.)
INTENTIONALLY-ACT (make / machen, do / tun etc.)
WAITING (wait / warten etc.)
BE (be / sein)
STOP/START (stop / aufhören, start / beginnen etc.)
GETTING (get / kriegen)
INGESTION/COOKING (eat / essen, drink / trinken etc.).

Verteilung über Konzepte

Die Gesamtverteilung

Die Ergebnisse bestätigen die Hypothese der Agentivität:
- Imperativ-Markierungen werden deutlich häufiger bei agentivischen als bei nicht-agentivischen Verben verwendet.

Sprachvergleich

Fallbeispiel: Passiv (Teich 2003)

Passiv ist im Englischen typischer als im Deutschen
Passivalternativen (man, sich lassen, -bar sein) sind im Deutschen typischer als im Englischen

Fallbeispiel: Passiv (Teich 2003)

Hypothesen für E-ORI-G-TL
In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI)
In Übersetzungen vom Englischen ins Deutsche liegt Normalisierung im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Fallbeispiel: Passiv (Teich 2003)

Hypothesen für G-ORI-E-TL
In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI)
In Übersetzungen vom Deutschen ins Englische liegt Normalisierung im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Fallbeispiel: Passiv (Teich 2003)

Schwaches shining-through in G-TL
Keine Normalisierungs-Effekte in G-TL

Fallstudie: Passivalternativen (Teich 2003)

kein shining-through in E-TL
Normalisierung in E-TL

Mögliche Anfragen

[drukola/m=pos:particle & drukola/m=type:negative] {,5} decît

Thematische Zusammensetzung des Korpus
nach CoRoLa-Taxonomie

Chart

Flache quantitative Merkmale

Flache quantitative Merkmale: Wortarten

Grafiken alle mit KorAP-R-Client-Package generiert

library(RKorAPClient)
library(tidyverse)
library(highcharter)
library(kableExtra)
 
D <- new("KorAPConnection", verbose=T)
B <- D
DRuKoLAVC <- "referTo+drukola.20180909.1b_words"
baseVC = "corpusSigle=/U[0-9][0-9]/ | corpusSigle=/W.D17/"
R <- new("KorAPConnection", KorAPUrl = "http://89.38.230.10:5555/", verbose=T)
Dsize <- corpusStats(D, vc=DRuKoLAVC)@tokens
Rsize <- corpusStats(R)@tokens
Bsize <- corpusStats(D, vc=baseVC)@tokens
queryResultToHtml <- function(r) {
  link <- slice(r, which.min(f))$webUIRequestUrl # use the query with less results
  text_spec(round(r[1,]$f,2), color="blue", link=link, tooltip = r[1,]$query %>% str_replace_all('"', '&#34;')) %>% str_replace(">", 'target="korap">')
}
 
add_comp <- function(.data, cat, n1, n2, b1) {

Herausforderungen bei der Konstruktion
von »drukola-1b«

automatische und dynamische Konstruktion des Vergleichskorpus noch nicht mit KorAP möglich
- Downsampling-Funktion fehlt noch
Texttypen unterschiedlich klassifiziert und sehr unterschiedlich verteilt
Thementaxonomien jeweils 2 Ebenen aber unterschiedlich definiert
- DeReKo basierend auf Open Directory Project (dmoz) (Weiß 2005, Klosa et al. 2012)
- CoRoLa (Tufiş et al 2016) basierend auf Universal Decimal Classification (UDC) und Wikipedia top-level Domains (Gîfu et al. 2019)

Konstruktion von »DRuKoLA-1b«

Übersetzung der Thementaxonomie von CoRoLA auf die von DeReKo
- z.B. Religion ➞ Staat/Gesellschaft:Kirche, Art and Culture ➞ Kultur, Medicine ➞ Gesundheit-Ernährung:Gesundheit
für 89% der CoRoLa-Texte konnten Abbildungen gefunden werden
- einige Kategorien unvollständig, andere ungenau abgebildet
DeReKo groß genug, um CoRoLa's Themenverteilung vollständig zu imitieren
statt jeweils as CoRoLa und DeReKo eine Stichprobe zu ziehen, wurde nur aus DeReKo eine Stichprobe gezogen

Neue Perspektiven für kontrastive Korpuslinguistik: Das Europäische Referenzkorpus EuReCo

Ziele des Vortrags sind …

Hintergrund

Korpora für den Sprachvergleich

Korpora für den Sprachvergleich

1. Einsprachige Korpora

Einsprachige Korpora

Einsprachige Korpora in sprachvergleichender Forschung

Methodische Frage

Beispiel: Die einsprachigen Korpora in der Studie … zum DE, SW, NL – Hartmann/Mucha/Trawiński/Wöllstein (im Erscheinen)

Zusammenfassung: Einsprachige Korpora

2. Parallele Korpora

Parallele Korpora

Große mehrsprachige Parallelkorpora

Vorteile von Parallelkorpora

Linguistische Arbeiten kontrastiv, sprachtypologisch, translatorisch

Probleme mit Parallelkorpora

Beispiel: Die Paralleldaten in der Studie … zum Imperativ im DE, EN, PL, CZ – Trawiński (2016a, b)

Merkmale von Übersetzungen: Laviosa (1998)

Merkmale von Übersetzungen: Backer (1995)

Merkmale von Übersetzungen: Teich (2003)

Zusammenfassung: Parallele Korpora

3. Vergleichbare Korpora

Bedarf an vergleichbaren Korpora

Vergleichbare Korpora Definition (McEnery & Xiao 2007)

Praktische Vergleichbarkeit ebenfalls relevant

Gibt es vergleichbare Korpora? … mit breitem Abdeckungspektrum, die auch Deutsch beinhalten?

Aranea im Einsatz mit der NoSketch-Engine

Aranea Familie vergleichbarer Gigaword-Webkorpora (Benko 2014)

4. EuReCo

EuReCo - European Reference Corpus

1. Dedizierte Vergleichskorpora ökon. unpraktikabel

Vergleichskorpora auf Basis vorhandener Korpora! EuReCo's Ansatz

Erwartete Vorteile des EuReCo-Ansatzes

2. Allgemeine Vergleichbarkeit ist nicht erreichbar

2b. Allgemeine Repräsentativität ist nicht möglich

EuReCo: dynamisch definierbare, virt. Vergleichskorpora! in Analogie zu DeReKo's Urstichproben-Ansatz (Kupietz 2016)

Grundlegender Ansatz (Cosma et al. 2016) vgl. McEnery & Xiao (2007)

Verfeinerung: Iterativ (und fragestellungsspezifisch) zur schrittweisen Annäherung an ausreichende Vergleichbarkeit

Grundsätzlich mit KorAP-VC-Builder möglich aufgrund fehlender Downsamplingfunktion aber noch nicht praktikabel

Erstes Rumänisch-Deutsches EuReCO-Vergleichskorpus Kupietz et al. 2020

Thematische Zusammensetzung des Korpus (nach oberster Ebene der DeReKo-Taxonomie)

Zusammensetzung nach Veröffentlichungsjahr DeReKo/Deutsch-Anteil: nicht kontrolliertes Ergebnis der Stichprobenziehung

Vergleichskorpus mit KorAP verwendbar ➞ KorAP auf DRuKoLa-VC – ➞ KorAP auf CoRoLa: https://korap.racai.ro/

Auch HNC teilweise über KorAP abfragbar https://korap.nlp.nytud.hu/

Exemplarische Vergleichsstudien z.B. zu Korrelaten (Molnar 2015, Hartmann et al. 2017, Kupietz et al 2020)

5. Laufende Arbeiten

Vergleich von syntagmatischen Mustern und Verwendungskontexten: Deutsch-Rumänisch

Kokkurrenzanalyse mit KorAP's R-Bibliothek noch nicht im UI unterstützt, aber mit R-Bibliothek (Kupietz et al. 2020b) sehr flexibel

Beispiel-FVG-Vergleich Rumänisch-Deutsch

➞ Kohäsionsstärken stark abhängig von Domäne Kollokatrangfolgen zu »pune în …« in Domäne = / ≠ Recht: ϱ(N=39) << 0,58

Eine vorläufige Erkenntnis

6. Schlussfolgerungen und Ausblick

Zusammenfassung

Geplante nächste EuReCo-Schritte

Vergleichbarkeit?

Vielen Dank für Ihre Aufmerksamkeit!

Referenzen

Anhang

Mehrsprachige Korpora

Fallstudie: (Nicht-)finite Komplementierung und Kontrolle

Fallstudie: Hintergrundannahmen

Fallstudie: Die Korpora

Ergebnisse für das Deutsche

Verbkategorien 1: Schwedisch

Verbkategorien 2: Schwedisch

Verbkategorien 3: Schwedisch

Ergebnisse für das Schwedische

Ergebnisse für das Niederländische

Zusammenfassung und Fazit

Beispiel: Die einsprachigen Korpora in der Studie … zum DE, SW, NL – Hartmann/Mucha/Trawiński/Wöllstein (im Erscheinen)

Kleine parallele Ressourcen (Auswahl)

Kontrastive und typologische Studien

Typologische Studien

Diskussionen

Fallbeispiel: Imperativ

Fallbeispiel: Imperativ

Datenquelle: InterCorp 6. über KonText

Vorgehen

Die relevanten Konzepte

Einsprachige Korpora
in sprachvergleichender Forschung

Beispiel: Die einsprachigen Korpora in der Studie
… zum DE, SW, NL – Hartmann/Mucha/Trawiński/Wöllstein (im Erscheinen)

Linguistische Arbeiten
kontrastiv, sprachtypologisch, translatorisch

Beispiel: Die Paralleldaten in der Studie
… zum Imperativ im DE, EN, PL, CZ – Trawiński (2016a, b)

Vergleichbare Korpora
Definition (McEnery & Xiao 2007)

Praktische Vergleichbarkeit
ebenfalls relevant

Gibt es vergleichbare Korpora?
… mit breitem Abdeckungspektrum, die auch Deutsch beinhalten?

Aranea im Einsatz
mit der NoSketch-Engine

Aranea
Familie vergleichbarer Gigaword-Webkorpora (Benko 2014)

Vergleichskorpora auf Basis vorhandener Korpora!
EuReCo's Ansatz

EuReCo: dynamisch definierbare, virt. Vergleichskorpora!
in Analogie zu DeReKo's Urstichproben-Ansatz (Kupietz 2016)

Grundlegender Ansatz
(Cosma et al. 2016) vgl. McEnery & Xiao (2007)

Verfeinerung: Iterativ (und fragestellungsspezifisch)
zur schrittweisen Annäherung an ausreichende Vergleichbarkeit

Grundsätzlich mit KorAP-VC-Builder möglich
aufgrund fehlender Downsamplingfunktion aber noch nicht praktikabel

Erstes Rumänisch-Deutsches EuReCO-Vergleichskorpus
Kupietz et al. 2020

Thematische Zusammensetzung des Korpus
(nach oberster Ebene der DeReKo-Taxonomie)

Zusammensetzung nach Veröffentlichungsjahr
DeReKo/Deutsch-Anteil: nicht kontrolliertes Ergebnis der Stichprobenziehung

Vergleichskorpus mit KorAP verwendbar
➞ KorAP auf DRuKoLa-VC – ➞ KorAP auf CoRoLa: https://korap.racai.ro/

Auch HNC teilweise über KorAP abfragbar
https://korap.nlp.nytud.hu/

Exemplarische Vergleichsstudien
z.B. zu Korrelaten (Molnar 2015, Hartmann et al. 2017, Kupietz et al 2020)

Vergleich von syntagmatischen Mustern
und Verwendungskontexten: Deutsch-Rumänisch

Kokkurrenzanalyse mit KorAP's R-Bibliothek
noch nicht im UI unterstützt, aber mit R-Bibliothek (Kupietz et al. 2020b) sehr flexibel

➞ Kohäsionsstärken stark abhängig von Domäne
Kollokatrangfolgen zu »pune în …« in Domäne = / ≠ Recht: ϱ(N=39) << 0,58

Fallstudie:
(Nicht-)finite Komplementierung und Kontrolle

Beispiel: Die einsprachigen Korpora in der Studie
… zum DE, SW, NL – Hartmann/Mucha/Trawiński/Wöllstein (im Erscheinen)

Thematische Zusammensetzung des Korpus
nach CoRoLa-Taxonomie

Herausforderungen bei der Konstruktion
von »drukola-1b«