Itzulpengintza automatikoari sarrera: 1 - 3

2 Itzulpen automatikoaren dimentsioak

Dimentsioak deritzegu itzulpen automatikoa erabiltzean kontuan hartu beharreko alderdiei. Dimentsio horiek programen diseinu eta aplikapenean aukeren espazioaren koordenadak taxutzen dute. Sei dimentsioz mintzatuko gara:

Testu motak

Itzultzaileak ondo baino hobeto dakite itzulpen bakoitza mundu bat dena. Testu mota asko dago eta bakoitzak bere berezitasunak ditu. Ez da gauza bera asanblada baterako deialdia, kirol kronika bat edo Francisco Umbralen zutabe bat itzultzea. Ezberdintasun horiei aurre egin ahal izateko genero, erregistro, estilo edo mota bezalako kontzeptuetara jo ohi da (Trosborg, 1997). Nozio horien arteko ezberdintasunak ez daude beti argi, baina ezinbestekoak dira eskuz zein mekanikoki itzultzeko.

Nozio horiek guztiak elkartu eta nahastu egiten dira testu jakin bat deskribatzean. Itzulpen automatikoaren ikuspuntutik, mota eta generoari buruzko eztabaida Kay-ren (1992) hizkuntza singularra eta ez-singularraren arteko desberdintasunera murriztu da, Melby-k hizkuntza berezituak eta hizkuntza arruntaren artean ematen duenaren oso antzekoa (edo hizkuntza estatikoa eta dinamikoaren artekoa, beste autore batzuen ustetan).

Lexikoaren dentsitatea

Hizkuntza berezituak eta hizkuntza arruntaren arteko ezberdintasuna beste bi nozio garrantzitsurekin zerikusia du, pikortatzea, Melbyrena ere, eta Laviosaren (1998) dentsitate lexikalarena. Pikortatzearen definizioa testua bana daitekeen unitate lexikalen tamainan oinarrituta dago. Pikortatze handiagoa duten testuak hitz konbinaketa gehiago dutenak dira: formulak, esaldi eginak, izen bereziak, termino konposatuak. Testu baten dentsitatea alderantziz proportzionala da pikortatzearekiko. Zenbat eta dentsitate handiagoa orduan eta pikortatze txikiagoa. Dentsitate altua azaltzen duten testuak normalean eremu berezietakoak izaten dira. Aldizkari ofizialetan argitaratzen diren arau eta agindu askoren pikortatzea eta dentsitatea 100ekoa da, izan ere, administrazio formula bakarraz osatuta baitaude (etxe bat eraikitzeko lizentzia ematea esaterako).

Laburbilduz esan dezakegu,

Pikortatze nozioak itzulpenaren teorian oso ezaguna den arazo batekin zerikusi du, hain zuzen ere, testua itzulpen unitateetan banatzearena (Bennet, 1994). Garrantzitsua da unitateak ezberdintzea duten luzera kontuan izanik, alegia, osatzen duten hitz kopurua eta duten kohesioa edo elkarrekin zein banatuta interpretatzeko den aukera:

  1. Kategoria morfosintaktikoak: itzulpen automatikoaren sistema guztietako oinarrizko unitatea hitza izan ohi da (edo lexia sinplea). Kategoria morfosintaktikoek hitzen gaineko abstrakzioak ezartzeko aukera ematen dute (hura, Det.; begi, I.; zoriontsu, Adj.; jan, A.) eta egitura sintagmatikoetako gramatiken oinarri dira: IS=Det. Iz.
  2. Azpi-kategoriak: Kategoria bakoitzaren barruan konpartimentu asko dago, gehienak hizkuntza ezberdinen artean dibergente. Azpi-kategorizatze ereduek dibergentzia horiek zehazteko aukera ematen dute: subj. (x) obj. (y) / subj. (y) obj. (x) .
  3. Kokapenak: Kategoriek eta azpi-kategoriek kokapen sintagmatiko partikularrak azaltzen dituzte sarritan: fast waltz, rapid movement, quick action, speedy recovery.
  4. Lexia konplexuak (hitz konposatuak): lexikalizatzen duten hitzen konbinaketak, comida rápida/ fast food; begietako mugimendu azkarrak /rapid eye movement.
  5. Lokuzioak: preposizio multzoak edo lotura finkoak: after all/ när allt kommeromkring, still / a pesar de todo.
  6. Esapide idiomatikoak: Malgutasun sintaktikoa duten multzo sintagmatikoak dira: estaba más loca que una cabra / she was as nutty as a fruitcake.
  7. Formulak: atsotitzak ditu, más vale pajaro en mano que ciento volando; arte lanen izenburuak, pelikulak Monthy Pyton and the Holy Grail / Los caballeros de la mesa cuadrada; eta diskurtsoaren bestelako elementu finkoak, esaterako idazki ingeles baten zatia: To do all such other things as are incidental or conductive to the above objects or any of them.

Abaituak (2001) proposatzen duen sailkapenak hitz-elkarketen unitateak ditu (a-c), edo kohesio txikiagokoak, zati osoaren esanahia esanahi partzialetatik abiatuta uler baitaiteke, eta kohesio handiagoa dutenak (d-g). Itzulpen automatikorako sistema batek lehenengo eta behin unitate handiak identifikatu behar ditu hitzak banan-banan tratatzen hasi aurretik.

Alde linguistiko eta kulturala

Itzultzeak duen zailtasunean nabarmen eragingo duen hirugarren alderdi bat hizkuntzen arteko alde linguistiko eta kulturala da. Itzultzaile mekaniko baten diseinurako ezinbestekoa den dimentsio hau, xelebrea bada ere, ez da kontuan hartu izan orain dela gutxi arte. Egun baino ezin uler dezakegu EUROTRA bezalako proiektuek sekulako porrota pairatu izana izandako diseinugileen sineskortasuna zela kausa, ez baitziren dimentsio hori ikusteko gai, edo euren metodologian zuten fede itsuagatik (euren harrotasun zientifikoagatik alegia). Urteak pasa ahala, ulertezina dirudi sistema bakarra ez bazen, gutxienez bi azpi-sistema erabilgarri, Batasunean ordezkaturiko europar hizkuntza familia handi bietara egokituak, gauzatu ez izana: latinoa (italiera, frantsesa, espainola eta portugesa) eta germaniarra (alemana, holandarra eta ingelesa). Grekoa eta daniarra kanpoan ziren, baina azpi-sistema bietara, latinoa eta germaniarrera hurrenez hurren, arazorik gabe egokitzeko aukera izan zezaketen.

Hizkuntza latinoen arteko hurbiltasuna hain da handia, ezen sintagmaz sintagma itzultzeko sistema sinple batek emaitza onargarriak eman zitzakeen oso azkar. Hitzen ordena, egitura eta logikaren anbiguotasuna bezalako arazo larriak, edo erregistroaren egokitzapena ez ziratekeen horren larriak izango gertutasun linguistikoari esker. Berbera izan da espainoletik katalanera eta galegorako itzulpen sistemetan hain emaitza onak eta azkarrak lortzea zilegi egin duen arrazoia. Euskaratzeko estrategiak askoz ere landuagoa izan behar du halabeharrez, izan ere hizkuntza latinoen eta euskararen arteko egitura mailako ezberdintasunak, aipatutako alderdiei dagokienez, garrantzitsuak baitira.

Alde linguistikoaren arazoari kulturala gehitu beharra dago. Euskara eta japonieraren gramatikek bat datozen puntu asko dituzte, baina horrek halere, ez du esan nahi sistema bat lor daitekeenik galegoa eta espainolerako sistema lor daitekeen erraztasun berberaz. Arazo nagusia japonieratik eta japoniera itzultzeko dituzten ohitura kulturaletan dago, batez ere hizkuntzan islatzen direnetan. Ekialdeko hizkuntza honek dituen komunikazio estrategiak oso ezberdinak dira europar hizkuntzekin alderatuz gero; erregistro eta estilo kopurua korapilatu ez ezik, esateko errazen suertatzen diren esapide eta espresioek ere aldatu egiten baitira. Japonierara eta japonieratik itzultzean kontu gramatikal soilak baino zer edo zer gehiago izan behar da kontuan. Oinarri sintaktikoa duten itzulpenek, gehienetan testu desegokiak eta oro har ulergaitzak sortzen dituzte.

Garapen linguistikoa eta baliabideak

Inor ez litzateke munduan zenbat hizkuntza mintzatzen den esatera ausartuko. 6.700 inguru direla kalkulatzen da, nahiz eta kopuru zehatza hizkuntzatzat zer ulertzen den eta berori dialekto aldaeratik zelan bereizten den aintzat hartu beharra dagoen. 400 baino gehiago desagertzear daudela uste da, gehienak Australian eta Ameriketan hitz egiten dira. Europan ere badira hiltzear dauden hizkuntzak, zazpi Ethnologue (2001) katalogoaren arabera. Horietako lau Saami-ren aldaerak dira, Errusia, Norvegia eta Suediatik banatuta dauden laponiarren hizkuntza, hamarkada gutxi batzuek baino hitz egiten ez dutena.

Munduko hizkuntzetatik ehun baino baten bat gehiagotan baino ez dago zazpi milioi hiztun baino gehiago. Baina askoz gutxiago dira Interneten, informazioaren gizartean den adierazle nagusian, modu esanguratsuan azaltzen direnak.Google direktorioa erabil dezakegu hizkuntza horien presentzia neurtu eta egiaztatzeko 66 baino ez direla azaltzen. Deigarria da hiztun ugari duten hizkuntzek, vietnamera esaterako, 68 milioi pertsonek hitz egiten dutena, direktorioan 80 orrialde besterik ez izatea (hots, orrialde bat baino zerbait gehiago hiztun bakoitzeko), eta hiztun gutxiago duten hizkuntzek, milioi bat pertsonek baino gutxiagok hitz egiten duten euskara besteak beste, 4.278 orrialde izatea (Google, 2001.12.26). Horrek esan nahi du euskara hitz egiten duen pertsona bakoitzeko, vietnamera hitz egiten duen bakoitzeko baino 4.532 orrialde gehiago dagoela bere hizkuntzan. Beste hizkuntza batzuekin konparatuz gero, proportzioa egonkor mantentzen da; euskara hitz egiten duen bakoitzeko 45 orrialde gehiago hungariera hitz egiten duen bakoitzeko baino, espainolez hitz egiten duen bakoitzeko baino 21 gehiago eta hiru aldiz gehiago izatera hel daiteke alemaneraren kasuan. Datu hauek gutxi gora-beherakoak dira (ziur asko Googlea ez da oso ezaguna izango Vietnamen), baina edozelan ere, argi agertzen du hizkuntza baten garapena ez dela hiztun kopuruaren araberakoa.

Arrazoi asko dago alderdi horren garrantzia azpimarratzeko, baina bakar batean eman daitezke: itzultzaile automatikoa bezalako tresna informatikoak sortu ahal izateko baliabide linguistikoak behar dira: hiztegiak, gramatikak, analizatzaileak, ezagutza baseak eta batez ere, korpora. Baliabide horiek prest diren neurriaren arabera zuzenean eragin ahal izango da tresnak sortu ahal izateko erraztasunean. Baliabideak izateko, lehenago garapen fase askotatik igaro beharra dago, idazkera baten estandarizatzetik hasi, erabilera ahalik eta eremu gehienetan normalizatzetik pasa, eta hizkuntza ingeniaritzan ikertze talde aurreratuak sustatu arte. Hizkuntza bat ez bada bere idazkera estandarizatzeko fasetik igaro, ez dauka zentzu handirik aplikapen konputazionalen garapena planteatzeak.

Google bezalako direktorioek hizkuntzen garapen eta bideragarritasun mailaren nolabaiteko ideia eman diezagukete. Itzultzeko (bitarteko mekanikoen bidez edo eskuz eginda), hizkuntzek garapen maila baliokidea izatea funtsezkoa da, hala izan ezik itzultzailearen lana bikoiztu egingo da, lehenengo normalizatu eta gero itzuli. Arazoa era argiago batean emateko, oso ondo ezagutzen dugun kasu bat azal dezakegu. Euskal Herrian elebitasun ofiziala dekretuz agindu zenean, 1979an gutxi gora-behera, izugarrizko garapen ahalegina egin behar izan zen esparru guztietan, administratibotik hasita, baina beste guztiak ahaztu gabe, izan ere, euskara administrazioan sartu baitzen, baina baita komunikabideetan eta hezkuntzan, lehen mailatik unibertsitatera. Horrek esan nahi du hogei urtetan zehar euskal itzultzaileek funtzio bi izan dituztela, alegia, hizkuntza normalizazioa eta itzulpena.

Normalizazioak mugak dituela esan beharra dago. Hizkuntza baten garapena mailarik gorenenetara igotzea zilegi izan arren (tekniko edo zientifikoak), ez dauka inolako zentzurik hizkuntza guztiek ingelerak duen mailara iritsi nahi izatea. Hori oso ondo ulertu dute Norvegia edo Finlandia bezalako herri garatuetako hizkuntza minoritarioetako hiztunek. Hizkuntza bakoitzak bere erabilera eremu naturalak ditu. Hizkuntza minoritario bat ez du kaltetzen hizkuntza maioritario bati zenbait eremu uztea, betiere, bere hiztunen komunitateak eremurik goxoen eta ohikoenetan hizkuntzarekiko lotura galtzen ez badu. Frantzia eta Espainia bezalako herrietan frantsesa eta espainola ingelesak duen mailara berera igotzeko irrika dago, baina gaur egun horrek ez dauka zentzurik. Ez da horra iritsi behar eta gainera jadanik galduta dagoen borroka da, eta zentzu horretan euskara aipatzen dut. Garrantzitsua da lehentasunetan orden arrazional bat jartzea. Seguruenik, hizkuntza minoritario baten defentsarik onena eleaniztasunaren sustapenetik pasatuko da.

Hedabidea eta modua

Aspaldi bereizten dira itzulpen azterketetan bi jarduera ondo berezituak. Lehenengo eta behin interpretazioa edo ahozko parte hartzeen itzulpenarena. Bigarrena, testu idatzien itzulpena da. Baten zein bestearen profesionalen profila oso ezberdina izan ohi da. Interpreteek normalean pentsatzeko eta testua prestatzeko edo hiztegietan ezer begiratzeko astirik gabe itzultzen dute. Halaber, ez dute euren itzulpenak birpasatu edo zuzentzeko aukerarik. Haien lana orijinala ekoiztu ahala burutzen da eta oro har elkarreragin soziala du berarekin. Interpretea bere lana burutzen den testuinguruaren menpe dago erabat, protokolo eta arau batzuei lotuta dago. Horretaz gain, ahozko hizkuntzak idatziak ez dituen ezaugarriak ditu; bat-batekoa da, testuinguruari lotura, etenak ditu eta askotan ez-gramatikala. Testu idatzien itzultzailea aldiz, oro har era landuan idatzi diren testuen aurrean izango da, batzuetan balio literarioak ere izan ditzaketenak. Normalean badu hiztegietan edo bestelako iturrietan kontsultak egiteko aukera, bai eta itzulpenak birpasatu eta zuzentzeko ere. Eskuarki lan hori isolaturik, inguru sozialetik aldenduta egin ohi da, denbora aldetik den premiaren baldintza bakarra delarik.

Askotan ahozko testuen itzulpenaz eta idatzien itzulpenaz ezberdintasunik egiteke hitz egiten bada ere, argi dago oso mota desberdinetako arazoak azaltzen dituztela. Era berean, hedabide edo bitarteko elektronikoak ohiko ahozko eta idatzizko bitartekoen dokumentu mota eta oso behar ezberdinak sortarazi ditu. Gero eta gehiago dira modu automatikoan sortu eta aurretiaz, beste sistema automatiko batzuetan tratatuko diren ezagutzaz sortzen diren testuak. Kasu askotan, testuak kontrol baldintza zorrotzetan sortzen dira geroagoko prozesatzea erraztekotan. Hizketaren itzulpenerako programak direla (C-STAR, JANUS , VERBMOBIL, EUTRANS) eta merkatal interes handia egonagatik ere, eta industriak testu idatzien ohiko itzulpen programak hobetzen segitzen duen arren, etorkizuna testuen tratamendu automatikoa euskarri elektronikoetan egitera bideratuta dago. Zeregin horrek lokalizatze izena hartu izan du eta horretan arituko gara tartetxo batean.

Laburbilduz, itzultzeko hiru modu ezberdin ditzakegu bitartekoaren arabera:

Bereizketa eginda, esan beharra dago bitarteko elektronikoa batik bat multimedia dela, aipaturiko hiru bitarteko eta motak batera izateko gaitasuna duena.

Helburuak

Itzulpen automatikorako sistema baten diseinuan eragina duten alderdi guztiak kontuan izanik, ez da harritzekoa emaitzak beti bat ez etortzea diren asmoekin. Horregatik eta duda barik, programa bat diseinatzean kontuan hartu beharreko alderdirik garrantzitsuena, eman nahi zaion erabilera definitzea da.Garai batean, sistema asko asmo orokor batekin diseinatu izan ziren, hau da, edozein testu mota itzultzeko baliagarri; lortutako programek oso itzulpen eskasak eman izan dituzte. Haatik, aplikatzeko eremua modu zehatzago batean mugatu nahi denean eta eremu hori era egokian azaltzen denean garapenean (lexiko eta sintaxi moduluetan), emaitzak askoz hobeak izan ohi dira. Asmo orokorra duten itzulpen automatikoko sistema asko aplikapen zehatzerako egokituak izan dira geroago, esate baterako SYSTRAN kasua EB-k garatutako bertsioan.

Colin Brace-k jasotako datuen arabera, 1990eko hamarkadaren hasieran europar administrazioetako instantzietan egiten zen posta elektronikoaren erabilera orokorrarekin, SYSTAM-en erabilera areagotu zen. 1996an 200.000 orrialde baino gehiago itzuli ziren sistema horren bitartez. Soilik orrialde horien heren bat eskatu zuen Komunitateko Itzulpen Zerbitzuak (SdT), gainontzekoak hizkuntzalari ez ziren langileek beraiek itzuli zituzten departamentu ezberdinetan. SdT-ak inkesta bat egin zuen programa erabiltzen zutenen artean, eta bertan itzulpen automatikoa honako xede hauetarako erabiltzen zirela egiaztatu zen:

Sdt-ko itzultzaileek onartu zuten denbora aldetik %30a aurrezten zutela dokumentuaren ezaugarriak sistemarekin bat zetozenean (dokumentu ezaguna, hiztegia prestatuta) eta birpasa egin behar zuen pertsona horretan aspaldi ibilia zenean. Inkestak antzeman zuen hizkuntzalari ez ziren funtzionarioak itzultzaileak baino gusturago zeudela, eta arrakastaren gako nagusia berehalako disponibilitatea zela.

Hutchis eta Somers-ek (1992) honela definitzen zuten kontuaren egoera itzulpen automatikoan: "Lortu dena izan da nolabait ondo mugatuta dauden arloetan itzulpenak zirriborroan egiteko programa informatikoak garatzea. Itzulpen hauek geroago zuzen daitezke kalitatezko azken bertsioak lortzearren eta zenbateko ekonomiko baten truke. Dauden moduan ere utz daitezke, birpasatu gabe, izan ere adituek informazioa eskuratzeko irakurri eta uler baititzakete. Zenbaitetan, testu orijinalaren gaineko kontrol egokiak izanik, lor daiteke modu automatikoan, kalitate handiagoko emaitzak, zuzenketa gutxi edo bat ere behar ez duten emaitzak. Munduan itzultzen diren testu gehienek ez dute balio kultural ezta literariorik ere. Itzultzaile profesional gehienak gorantz doan itzulpen eskaera asetzen aritzen dira, agiri tekniko eta zientifikoak, merkatal transakzioak, administrazio txostenak, dokumentazio juridikoa, instrukzio gidak, medikuntza edo nekazaritza testu liburuak, industria patenteak, panfleto publizitarioak, kazetaritza erreportajeak, eta abar. Lan horren zati bat zaila izaten da eta erronka bat ere, baina portzentaia handi bat aspergarria eta errepikakorra izan ohi da, zehaztasuna eta koherentzia eskatzeaz batera. Itzulpen horien eskaera itzultzaileek duten gaitasuna baino askoz arinago ari da hazten, eta hori dela eta ordenagailuaren laguntzak berehalako laguntza argia da."


Joseba Abaitua, 2002ko urtarrila Itzulpengintza automatikoari sarrera: 1 - 3