Definition und Beispiele von Korpora in der Linguistik

Glossar grammatikalischer und rhetorischer Begriffe

Korpuslinguistik

Laut Tony McEnery et al. besteht „ein zunehmender Konsens darüber, dass ein Korpus eine Sammlung von (1) maschinenlesbar (zwei) authentisch Texte (einschließlich Transkriptionen von gesprochenen Daten), das ist (3) abgetastet sein (4) Vertreter einer bestimmten Sprache oder Sprachvarietät' ( Korpusbasierte Sprachwissenschaft , 2006). (Monty Rakusen/Getty Images)





Im Linguistik , a Korpus ist eine Sammlung von Sprachdaten (normalerweise in einer Computerdatenbank enthalten), die für Forschung, Wissenschaft und Lehre verwendet werden. Auch ein genannt Textkorpus . Plural: Korpora .

Das erste systematisch organisierte Computerkorpus war das Brown University Standard Corpus of Present-Day amerikanisches Englisch (allgemein bekannt als Brown Corpus), zusammengestellt in den 1960er Jahren von Linguisten Henry Kučera und W. Nelson Francis.



Bemerkenswerte Korpora in englischer Sprache umfassen Folgendes:

Etymologie
Aus dem Lateinischen „Körper“



Beispiele und Beobachtungen

  • „Die Bewegung ‚authentischer Materialien‘ im Sprachunterricht, die in den 1980er Jahren aufkam, [befürwortete] eine stärkere Verwendung von Materialien aus der realen Welt oder ‚authentischen‘ Materialien – Materialien, die nicht speziell für den Unterrichtsgebrauch entwickelt wurden – da argumentiert wurde, dass solches Material aufdecken würde Lernende zu Beispielen für Natürliche Sprache Verwendung aus realen Kontexten. In jüngerer Zeit das Aufkommen der Korpuslinguistik und die Einrichtung großer Datenbanken bzw Korpora unterschiedlicher Genres authentischer Sprache haben einen weiteren Ansatz geboten, Lernenden Unterrichtsmaterialien zur Verfügung zu stellen, die den authentischen Sprachgebrauch widerspiegeln.'
    (Jack C. Richards, Vorwort des Serienherausgebers. Korpora im Sprachunterricht verwenden , von Randi Reppen. Cambridge University Press, 2010)
  • Kommunikationsarten: Schreiben und Sprechen
    ' Korpora kann Sprache kodieren, die in einem beliebigen Modus produziert wird – zum Beispiel gibt es Korpora gesprochener Sprache und Korpora geschriebener Sprache. Darüber hinaus sind einige Videokorpora aufzuzeichnen paralinguistisch Funktionen wie z Geste ..., und Korpora der Gebärdensprache wurden erstellt. . ..
    „Korpora, die die geschriebene Form einer Sprache darstellen, stellen normalerweise die kleinste technische Herausforderung dar, die erstellt werden muss. . . . Unicode ermöglicht es Computern, Textmaterial in fast allen aktuellen und ausgestorbenen Schriftsystemen der Welt zuverlässig zu speichern, auszutauschen und anzuzeigen. . . .
    „Material für ein gesprochenes Korpus ist jedoch zeitaufwändig zu sammeln und zu transkribieren. Manches Material kann aus Quellen wie dem World Wide Web gesammelt werden. . .. Transkripte wie diese sind jedoch nicht als verlässliches Material für die sprachliche Erforschung gesprochener Sprache konzipiert. . . . [S]poken-Korpusdaten werden häufiger durch das Aufzeichnen von Interaktionen und deren anschließende Transkription erzeugt. Orthographisch und/oder phonemisch Transkriptionen von gesprochenem Material können zu einem Sprachkorpus zusammengestellt werden, der per Computer durchsucht werden kann.'
    (Tony McEnery und Andrew Hardie, Korpuslinguistik: Methode, Theorie und Praxis . Cambridge University Press, 2012) Konkordanz
    ' Konkordanz ist ein zentrales Werkzeug der Korpuslinguistik und bedeutet einfach, Korpussoftware zu verwenden, um jedes Vorkommen eines bestimmten Wortes oder Satzes zu finden. . . . Mit einem Computer können wir jetzt Millionen von Wörtern in Sekundenschnelle durchsuchen. Das Suchwort oder die Suchphrase wird oft als „Knoten“ bezeichnet, und Konkordanzzeilen werden normalerweise mit dem Knotenwort/-phrase in der Mitte der Zeile mit sieben oder acht Wörtern auf jeder Seite präsentiert. Diese sind als Key-Word-in-Context-Displays (oder KWIC-Konkordanzen) bekannt.'
    (Anne O'Keeffe, Michael McCarthy und Ronald Carter, „Einführung“. Vom Korpus zum Klassenzimmer: Sprachgebrauch und Sprachunterricht . Cambridge University Press, 2007) Vorteile der Korpuslinguistik
    „1992 stellte [Jan Svartvik] die Vorteile der Korpuslinguistik in einem Vorwort zu einer einflussreichen Sammlung von Aufsätzen vor. Seine Argumente sind hier in abgekürzter Form wiedergegeben:
    - Korpusdaten sind objektiver als Daten, die auf Selbstbeobachtung beruhen.
    - Korpusdaten können leicht von anderen Forschern überprüft werden und Forscher können dieselben Daten teilen, anstatt immer ihre eigenen zusammenzustellen.
    - Korpusdaten werden für Variationsstudien zwischen benötigt Dialekte , registriert und Stile .
    - Korpusdaten liefern die Häufigkeit des Vorkommens sprachlicher Items.
    - Korpusdaten liefern nicht nur anschauliche Beispiele, sondern sind eine theoretische Ressource.
    - Korpusdaten liefern wesentliche Informationen für eine Reihe von Anwendungsbereichen, wie Sprachunterricht und Sprachtechnologie (maschinelle Übersetzung, Sprachsynthese etc.).
    - Korpora bieten die Möglichkeit der vollständigen Verantwortlichkeit sprachlicher Merkmale – der Analytiker sollte alles in den Daten berücksichtigen, nicht nur ausgewählte Merkmale.
    - Computergestützte Korpora ermöglichen Forschern auf der ganzen Welt den Zugriff auf die Daten.
    - Korpusdaten sind ideal für Nicht-Muttersprachler der Sprache.
    (Svarvik 1992:8-10) Svartvik weist jedoch auch darauf hin, dass es entscheidend ist, dass der Korpuslinguist auch eine sorgfältige manuelle Analyse durchführt: bloße Zahlen reichen selten aus. Er betont auch, dass die Qualität des Korpus wichtig ist.'
    (Hans Lindquist, Korpuslinguistik und die Beschreibung des Englischen . Edinburgh University Press, 2009) Zusätzliche Anwendungen der korpusbasierten Forschung
    „Abgesehen von den Anwendungen in der Sprachforschung an sich können die folgenden praktischen Anwendungen erwähnt werden.
    Lexikographie
    Korpusbasierte Frequenzlisten und insbesondere Konkordanzen etablieren sich als grundlegende Werkzeuge für die Lexikograph . . . .
    Sprache Lehren
    . . . Die Verwendung von Konkordanzen als Sprachlernwerkzeuge ist derzeit ein Hauptinteresse beim computergestützten Sprachenlernen (CALL; siehe Johns 1986). . . .
    Rede wird bearbeitet
    Maschine Übersetzung ist ein Beispiel für die Anwendung von Korpora für das, was Informatiker nennen Verarbeitung natürlicher Sprache . Neben der maschinellen Übersetzung ist ein großes Forschungsziel für NLP Sprachverarbeitung , d. h. die Entwicklung von Computersystemen, die in der Lage sind, aus schriftlichen Eingaben automatisch erzeugte Sprache auszugeben ( Sprachsynthese ) oder die Umwandlung von Spracheingaben in schriftliche Form ( Spracherkennung ).' (Geoffrey N. Leech, „Corpora“. Die Linguistische Enzyklopädie , Hrsg. von Kirsten Malmkjær. Rouledge, 1995)