Itzulpengintza automatikoari sarrera: 4 - 6

5 Analogietan oinarrituriko itzulpena

Laurogeita hamargarren hamarkadan izandako ikuspegi aldaketak onura izan zuen mikroprozesadoreak eta bilketarako unitateak merkatu egin zirelako. Horrekin, formatu elektronikodun testu bildumak areagotzen hasi ziren eta Interneti esker eskuragarri zeudenez, jadanik ahozko corporan hain emaitza onak izan zituzten aukera eta lotura metodoak probatzeko gonbidapena egin zen. Diseinaturiko sistema kopurua (Catizone eta beste batzuk 1993, Kay eta Röscheisen 1993; Vogel eta beste batzuk 1996, Wu 1996 ella Tillman eta beste batzuk 1997) areagotu egin zen, hain zen horrela, ezen arau bidezko itzulpenaren paradigmak jarraitzaile ugari galdu baitzituen analogia bidezko itzulpenaren ponerako (Jones 1992). Birpasa ditzagun ikuspegi horren lau alderdi: itzulpen estatistikoa, adibideetan oinarrituriko itzulpena, corpora paraleloen segida eta itzulpen memoriak.

Metodo estatistikoak

Estatistika itzulpen automatikoan metodo erabilgarri gisa Warren Weaver-ren hausnarketa eragin zuen 1949. Berragertu egin zen 1990ean "CANDIDE" sistemarekin, IBM.ren "Thomas J. Watson Center-reko" taldeak garaturikoa Nueva York-en (Brown et al. 1990). Hizketa antzemateko teknika estokastiken bidez lortutako arrakastaren ostean, taldeak itzulpenekin proba egitea erabaki zuen. Ikuspegia analisirako zein sortzeko estatistika ez zen beste informaziorik ez erabiltzeko proba egitearen postulatutik planteatu zen. Esperimentua Kanadako Parlamentuko Akten Hansard corpusaren gainean egin zen (hiru milioi bat esaldi ingelesez eta frantsesez). Lehenengo eta behin perpausak, hitz multzoak eta hitz solteak zerrendatu ziren geroago kalkulatu ahal izateko hizkuntza batean perpausa bateko hitz batek itzulpenean beste hitz batzuekin bat etortzeko zituen aukerak. Emaitzek ikerlariak beraiek harritu zituzten, itzulitako perpausen ia erdia jatorrizko testuan zirenak bezalakoak baitziren bahiz eta hitz ezberdinekin eratu. Sistema ez zen merkaturatu, baina ikerketak birbideratzeko gertaera historikoa suposatu zuten. Egindako azken ekarpenen artean, "University of Southern Californiako" ISI taldearena azpimarra daiteke, "EGYPT-ek" garatzen duena hain zuzen ere, alegia, corpora elebidunetik abiatuta estatistikan oinarrituriko sistemak eratzeko software pakete bat.

Adibideetan oinarrituriko itzulpena

Itzulpen estatistikoaren antzera, corpora elebidunen disponibilitatean oinarrituriko antzeko ikuspegia da "adibideetan" oinarrituriko itzulpena. Hasiera batean japoniar Makoto Nagao ikerlariak 1981ean proposatu zuen, baina teknika ez zen hamarkadaren amaiera arte probatu Kyoto-ko Unibertsitateko Nagao-k berak eta DLT (Sadler, 1989) proiektuaren taldeak Holandan batera egin arte. Hipotesiak dio, itzulita dauden testuak itzulpen berrien eredu izan daitezkeela. Metodoa testu elebidunen corpus batetik, aurretiaz lerrokatua, perpausa edo sintagmak atera eta hautatzean datza. Tsuji eta beste batzuek (1991) eta Sumita eta Iida-k (1991) horren antzeko ikuspegi hibridoak aplikatu dituzte. Adibideetan oinarrituriko itzulpena itzulpen memoriak deritzotenen garapenean oinarriturik dago (Sato eta Nagao, 1991).

Corpora paraleloen lerrotzea

Analogietan oinarritutako itzulpena corpora elebidunen menpe dago nahita nahiez, eta horrek lerrokatze teknikak itzulpen automatikoan interes handien duen ikerketa arloetako bat bilakatu du. Lerrokatzea corpus elebidunaren zatien arteko korrespondentzia erlazio esplizituak egitea da. Martinez-i (1999) jarraituz, hiru ikuspegi nagusiri buruz mintza gaitezke:

Ohar sintaktikoetan oinarritzen diren aukera teknikek aurretiaz eginiko oharrak behar dituzte (Black eta beste batzuk, 1993). Brown corpusa edo Penn Treebank-a (Marcos eta Santorini, 1991) ingeleserako erabilgarri izan dira. Beste hizkuntza batzuetan ere ezagutzen dira ohar sintaktikodun corporak: turkieran /Skut eta beste batzuk, 1997), txekieran (Hajic eta Hladká, 1998), alemaneran (Oflazer eta beste batzuk, 1999). Euskararen kasuan sintaktikoki 10.000 hitz etiketatu dira (Ezeiza eta beste batzuk, 1998). Prozesu hauek asko kostatzen dute, metrika batzuek (Voutilainen, 1997) atera duten ondorioa izan da, urte betez entrenaturiko pertsona baten lana behar dela sintaktikoki 200.000 hitzetako corpus bat etiketatzeko. Martinezek (1998 eta 1999) oso emaitza onak izan ditu etiketa sintaktikorik ez duen espainol eta euskarazko corpus batean, segmentatze elebakarraren prozesuan sartutako egitura etiketak aprobetxatzen dituzten teknikak aplikatuz. Lan era hori DEL taldeak egun Deustuko Unibertsitatean duena da.

Itzulpen memoriak

Analogietan oinarrituriko itzulpenak "itzulpenaren memoria" izenaz ezaguna den teknologian izan du bere garapenik handiena. Teknika, eskuz egin eta giza itzultzaile batek onetsiriko itzulpenak biltzean datza, ostean, antzeko testuak itzultzean berriro erabiltzeko. Teknologia honek arrakasta handia izan du merkatuan hazten ari zen software pakete kopurua dela eta; pakete horiek memorien kudeaketa moduluak dituzte datu terminologikoak, lerrokatze automatikoak eta formatuak aldatzeko filtroak sortu eta gordetzeko programez gain. Ezagunenak honakoak dira: "DÉJÀ-VU" (ATRIL), "Translator's Workbench" (TRADOS), "TRANSIT" (STAR), "SDLX", "Eurolang Optimizer" (LANT), "CATALYST"(ALCHEMY), "WORDFAST", eta abar. Gaur egun, merkatuan den liderrik argiena alemaniar TRADOS enpresarena da, gero eta hurbilago DÉJÁ-VU duelarik, halere, hurrengo urteetako konpetentzia gogorra izango da. Programa batzuek (WORDFAST), dohainik izan ohi dira bezeroak bereganatzeko. Hortaz, badirudi hainbeste beldurtzen dituen monopolioa urrun dagoela. Sanchez-Gijon (2001) eta Nogueira-k (2002)emaitza interesgarri eta balorazio pertsonalak izan dituzten azterketa konparatiboak egin dituzte.


Joseba Abaitua, 2002ko urtarrila Itzulpengintza automatikoari sarrera: 4 - 6