<<< [=]

3 Principoj de maŝina tradukado

3 Grundlagen der maschinellen Übersetzung

3.3 Vortaro kaj morfologio

3.3 Wortschatz und Morphologie

La plej malgranda, aŭ malalta, elemento de la homa lingvo estas la fonemo, la plej mallonga izolebla elemento de la parolado. Tiu elemento varias laŭ la lingvo, sed estas pli-malpli bone distingebla en unuopaj lingvoj. En multaj alfabetaj skriboj ĝi respondas al litero.

Das kleinste oder unterste Element einer menschlichen Sprache ist das Phonem, das kürzeste isolierbare Element der gesprochenen Sprache (Zunge). Dieses Element variiert je nach der Sprache, ist aber mehr oder weniger gut unterscheidbar in einzelnen Sprachen. In vielen alfabetischen Schriften wird es durch einen Buchstaben dargestellt.

Kriterio de fonemeco estas, ke por po du fonemoj (de iu lingvo) ekzistu du malsamaj vortoj, kiuj diferencas nur per tiu paro de fonemoj. Ekzemple en Esperanto ekzistas la vortoj "laŭa" kaj "lava", do la sonoj "ŭ" kaj "v" estas distingeblaj fonemoj. Kontraŭe la sonoj "n" kaj "ng" (kiu foje aperas en ne tute ekzakta prononco de "ng" aŭ "nk") distingas neniun vorto-paron, do "n" kaj "ng" ne estas apartaj fonemoj en Esperanto.

Kriterium für die Phonem-Eigenschaft ist, dass für je zwei Phoneme (einer Sprache) zwei verschiedene Wörter existieren, die sich nur in dem betreffenden Phonem-Paar unterscheiden. So existieren zum Beispiel im Esperanto die Wörter "laŭa" und "lava", daher bilden die Laute "ŭ" und "v" unterscheidbare Phoneme. Dagegen gibt es im Deutschen zwar zwei Formen des Lautes "ch" (wie in "ich" und "ach"), sie unterscheiden aber kein Wortpaar. Daher stellen sie in dieser Sprache keine unterschiedlichen Phoneme dar.

La morfema nivelo ne portas signifon kaj tial ne povas esti objekto de tradukado. La plej malalta/malgranda elemento, kiu portas signifon, estas nomata "morfemo" kaj normale estas sur aŭ sub la nivelo de "vortoj". Ekzemple le vorto "kaj" estas morfemo, sed la vorto "kursano" konsistas el la morfemoj "kurs", "an" kaj "o".

Die Phonem-Ebene trägt keine Bedeutung und ist daher nicht Gegenstand der Übersetzung. Das kleinste/unterste Element, das Bedeutung trägt, wird "Morphem" genannt und befindet sich gewöhnlich auf oder unter der Ebene des Wortes. So ist etwa das Wort "und" ein Morphem, wogegen das Wort "Kursteilnehmer" aus den Morphemen "Kurs", "teil", "nehm" und "er" besteht.

La morfema nivelo do estas la plej malalta nivelo, sur kiu (teorie) eblas traduki. Tamen sur tiu nivelo la diversaj lingvoj tre diferencas; eĉ en unu lingvo povas esti sam-signifaj vortoj kun malsama morfema strukturo. Tiel en Esperanto oni nun uzas la vorton "bremso", sed iam uzis la (ankoraŭ komprenatan) vorton "halt`ig`ilo".

Die Ebene der Morpheme ist daher die unterste, auf der (theoretisch) eine Übersetzung möglich ist. Allerdings unterscheiden sich verschiedene Sprachen auf dieser Ebene erheblich; sogar innerhalb derselben Sprache gibt es bedeutungsgleiche Wörtzer mit unterschiedlichem morphologischem Aufbau. So benutzte man im Deutschen einst das (französische) Wort "Trottoir" für den Begriff, den man heute als "Geh-steig" oder "Bürger-steig" bezeichnet.

En planitaj lingvoj (ekz. Esperanto) la morfemoj estas plejparte bone distingeblaj, kvankam ekzistas kontraŭekzemploj (komparu vortojn kia "cirkulero/cir`kulero" aŭ la ekzemplojn de Raymond Schwarz, kiaj "filologo/filo`logo", "digesto/di`gesto"). Sed en tre multaj lingvoj estas tute normale, ke vorto en identa skribo kaj/aŭ prononco havas malsamajn morfemajn strukturojn (komparu la Zamenhofan ekzemplon "weiß" / "wissen"), aŭ ke la vortoj egale sonantaj skribiĝas malsame laŭ la kunteksto, aŭ inverse.

In Plansprachen (wie dem Esperanto) sind die Morpheme großenteils gut unterscheidbar, obwohl es Gegenbeispiele gibt (vgl. Wörter wie "cirkulero/cir`kulero" oder die Beispiele von Raymond Schwarz, wie "filologo/filo`logo", "digesto/di`gesto"). Aber in vielen Sprachen ist es ganz normal, dass ein Wort in gleicher Schreibweise oder Aussprache unterschiedliche Phonemstruktur besitzt (wie im Zamenhofschen Beispiel "weiß" / "wissen"), oder dass gleich klingende Wörter je nach Kontext unterschiedlich geschrieben werden, oder umgekehrt.

Tiu problemo estas traktebla per vort-analizaj algoritmoj kaj, kie ili ne sukcesas, per listigo de ĉiuj variaĵoj de fonemoj.

Dieses Problem lässt sich durch Algorithmen zur Wort-Analyse und, wo diese versagen, durch Auflistung aller Variationen eines Morphems lösen.

3.3.1 Vorta kaj morfema ambigueco

3.3.1 Mehrdeutigkeit von Wörtern und Morphemen

La precipa problemo de la morfemoj estas por la tradukisto, ke depende de la kunteksto ili povas havi tute malsamajn signifojn; Tio estas la ambigueco sur la morfema (kaj vorta) niveloj, kiun ni jam konsideris. Lingvistoj distingas du specojn de morfema-vorta ambigueco: plursencecon kaj homonimecon.

Das Hauptproblem mit den Morphemen ist für den Übersetzer, dass sie abhängig vom Kontext ganz unterschiedliche Bedeutungen haben können. Das ist die Mehrdeutigkeit auf der Morphem- (und Wort-)Ebene, die wir bereits betrachtet haben. Die Linguistik unterscheidet zwei Arten von Morphem- oder Wort-Mehrdeutigkeit: Die Polysemie und die Homonymie.

  • Plursenceco signifas, ke unu vorto havas plurajn signifojn, kvankam estas ĝenerale konsentate, ke temas pri la sama vorto. Ekzemplo estas la vorto "ponto", kiu povas signifi transirejon super rivero aŭ abismo, sed ankaŭ platformon sur ŝipo (PIV listigas ok signifojn).
  • Homonimeco signifas, ke du vortoj havas la saman sonon, eble ankaŭ la saman skribon, kaj tamen estas interkonsentate, ke ne temas pri la sama vorto. Tiu distingo ofte venas de malsama etimologio aŭ gramatika kategorio. Ekzemple en Esperanto oni distingas la du vortojn "grafo" (nobelo) kaj "grafo" (matematika objekto), ĉar la unua venas el (aŭ tra) la Germana, la dua el la Greka lingvo. En la Germanlingva ekzemplo de Zamenhof ni vidis la vorton "weiß", kiu povas esti adjektivo ("blanka") aŭ verbo ([mi] "scias").
  • Polysemie liegt vor, wenn ein Wort mehrere Bedeutungen hat, obwohl es allgemein als ein und dasselbe Wort betrachtet wird. Ein Beispiel ist das Wort "Brücke", das einerseits einen Übergang über einen Fluss oder einen Abgrund, andererseits einen Aufbau auf einem Schiff (und noch anderes) bezeichnen kann.
  • Homonymie liegt vor, wenn zwei Wörter gleich klingen und vielleicht auch gleich geschrieben werden, obwohl sie allgemein als verschiedene Wörter betrachtet werden. Die Unterscheidung kommt häufig aus der Etymologie oder von unterschiedlichen grammatikalischen Kategorien. Ein Beispiel für letzteren Fall sind das Eigenschaftswort "weiß" (Farbe) und die Verbalform "(ich) weiß"   (wissen), denen wir schon in Zamenhofs Beispielsatz begegnet sind.

Por tradukado la diferenco inter plursenceco kaj homonimeco ne estas grava. Se ambigueco estas nur "ŝajna" (ne dezirata), necesas forigi ("solvi") ĝin en la analizo de tradukata teksto. Por solvi vortan ambiguecon ekzistas jenaj vojoj:

Bei der Übersetzung ist der Unterschied zwischen Polysemie und Homonymie nicht entscheidend. Wenn eine Mehrdeutigkeit nur "scheinbar" (nicht gewollt) ist, muss sie bei der Analyse des zu übersetzenden Textes entfernt ("aufgelöst") werden. Dazu gibt es bei Mehrdeutigkeit auf Wortebene verschiedene Möglichkeiten:

  1. El la gramatiko: Se vorto gramatike ne harmonias kun la resto de la frazo, ĝi ne estas kandidato por la analizo. (En interpretado, kiu devas kalkuli kun eraroj de parolantoj, tio ne absolute validas!) Do en la Zamenhofa ekzemplo la gramatiko diras, ke "weiß" en tiu pozicio ne povas esti adjektivo.
  2. El la temo de la teksto: Se teksto (aŭ ĉiuj tekstoj traktataj de sistemo) estas pri strat-konstruado, tre probable la vorto "ponto" rilatas al strata, ne al ŝipa konstruaĵo. Tion eblas konsideri per uzo de restriktita, ekzemple faka, vortaro.
  3. El la kunteksto: Se la vorto "ponto" aperas en la kunteksto "ŝtona ponto", tre probable ĝi ne estas sur ŝipo. Se ĝi aperas en la frazo "la kapitano suriris la ponton", probable ĝi estas sur ŝipo.
  • Anhand der Grammatik: Im Zamenhofschen Beispielsatz sagt uns die deutsche Grammatik, dass "weiß" in "ich weiß nicht" kein Eigenschaftswort sein kann.
  • Aus dem Thema des Textes: Wenn ein Text (oder alle Texte, die ein System behandelt, vom Straßenbau handelt, bezieht sich das Wort "Brücke" wahrscheinlich auf eine Straßenbrücke, nicht auf eine Schiffsbrücke. Das lässt sich durch Verwendung eines eingeschränkten (Fach-)Wörterbuches berücksichtigen.
  • Aus dem Kontext: Wenn das Wort "Brücke" im Kontext "steinerne Brücke" auftritt, handelt es sich wohl um eine Straßenbrücke. Steht es in dem Satz "der Kapitän betrat die Brücke", so ist es vermutlich die Brücke eines Schiffes.

La unua ekzemplo pri kunteksta sen-ambiguigo estas facile formaligebla: sufiĉas pligrandigi la uzatan vortaron por enpreni du-vortajn kombinojn ("ŝtona ponto"). La dua ekzemplo necesigas iusencan "komprenon" de la teksto; eĉ vortaro kun kompletaj frazoj ne helpas, se anstataŭ "la kapitano" staras la pronomo "li". Aliflanke la nura apero de la vorto "kapitano" proksime de "ponto" jam povus doni indikon pri la "temo" de la teksto.

Das erste Beispiel zur Disambiguierung durch Kontext lässt sich leicht formalisieren: Es genügt, das verwendete Wörterbuch um Kombinationen aus zwei Wörtern ("steinerne Brücke") zu erweitern. Das zweite Beispiel erfordert ein gewisses "Verständnis" des Textes; selbst ein Wörterbuch mit vollständigen Sätzen hilft hier nicht, wenn anstelle von "der Kapitän" das Fürwort "er" steht. Andererseits könnte schon das bloße Vorkommen des Wortes "Kapitän" in der Nähe von "Brücke" einen Hinweis auf das "Thema" des Textes geben.

>>>