[Publicado en http://www.fti.uab.es/tradumatica/revista/articles/jabaitua/art.htm, Tradumàtica 0, 2001]

Memorias de traducción en TMX compartidas por Internet

Joseba Abaitua
Grupo DELi
http://www.deli.deusto.es
Universidad de Deusto

Resumen

Una serie de avances combinados que han ido sucediendo en esta última década hacen presagiar que el sueño de una traducción automática de alta calidad y amplia cobertura será pronto una realidad. La solución fue sugerida hace poco por Minako O'Hagan, autora de The coming industry of teletranslation, y consiste en convertir Internet en un inmenso depósito abierto de traducciones. En este artículo se analizan las bases metodológicas así como algunas cuestiones problemáticas de la propuesta.

Introducción

En traducción automática es un lugar común afirmar que la calidad está reñida con la cobertura, es decir, que es más o menos viable desarrollar sistemas que traduzcan en ámbitos restringidos (como los partes meteorológicos), pero muy complicado, si no imposible, ampliar el ámbito sin perder calidad. La mayoría de los analistas sostienen que este problema es casi insalvable, dada la variedad de estilos, registros, interpretaciones, etc. que pueden darse en los textos sin restricciones. El mercado actual de software de traducción refleja además esta situación perfectamente. Sin embargo, la comunidad científica dispone de los conocimientos teóricos y tecnológicos para que esta limitación deje de serlo pronto. El problema que queda por resolver no es de índole científica ni tecnológica, sino logística. La solución fue sugerida recientemente en Language International 10.6 por Minako O'Hagan, autora de The coming industry of teletranslation, y consiste en convertir Internet en una inmensa memoria de traducción.

En esta ponencia voy a hablar de las condiciones que deberían darse para que esto fuera posible. Para ello, en primer lugar voy a analizar el concepto de equivalencia en traducción. Voy a contradecir algunos de los supuestos más extendidos entre los especialistas para proponer una visión alternativa más amplia. A continuación se presentarán algunas de las nociones básicas de la tecnología de memorias de traducción en TMX y aportaré algunos ejemplos. Finalizaré repasando conceptos surgidos en el campo del desarrollo de sofware, como software libre y copyleft, que se han de adoptar para que la propuesta pueda superar algunos impedimentos de orden legal, relacionados con la propiedad intelectual de textos originales y traducciones.

El problema de la equivalencia

Una de las premisas más firmes en la historia de la traducción automática ha sido considerar que la traducción es fundamentalmente un problema de equivalencia semántica. Esta premisa se asienta en el supuesto, que se remonta a Leibniz, y que recogieron Frege y Montague, padres de la semántica contemporánea, de que todas las lenguas del mundo comparten una misma subestructura lógica. Se sigue así que si fuéramos capaces de descubrir y formalizar esta subestructura, el problema de la traducción estaría resuelto.

Movida por este razonamiento, durante varias décadas la comunidad científica internacional ha centrado su atención en el problema de la equivalencia conceptual, bien a través de representaciones neutras y comunes -técnica de interlingua- o proyectando representaciones intermedias entre pares de lenguas -técnica de transferencia. Entre los modelos más utilizados para el tratamiento computacional de la semántica cabe destacar los siguientes: redes semánticas (Simmons y Slocum, 1972), preferencias semánticas (Wilks, 1973), gramáticas de caso y valencias (Somers, 1987), representaciones conceptuales (Carbonell et al, 1981; Nirenburg et al, 1985), transferencia léxica (Melby, 1988; Alonso,1990), semántica léxica (Dorr, 1993) y desambiguación léxica (Masterman, 1957; Amsler y White, 1979).

Estas citas son sólo una pequeña muestra de una vastísima producción científica que, aunque ha tenido aplicación en otras áreas de la lingüística computacional, ha sido en la traducción automática donde se ha probado de manera más intensa. Sin embargo, pese a las cotas de excelencia alcanzadas en el plano teórico, los resultados prácticos de los sistemas diseñados han sido insatisfactorios. Es una situación que sólo unos pocos observadores autorizados dentro del colectivo científico, como Melby (1995) o Kay (1997), se han atrevido a señalar, a modo de crítica velada hacia sus propios colegas. Con distintos matices, ambos autores coinciden en lo inapropiado de la metodología empleada, pero ha sido Melby quien de manera más explícita ha cuestionado la hipótesis de la universalidad conceptual entre las lenguas. Melby duda de la existencia de unidades conceptuales universales, comunes a todas las lenguas, y advierte de lo utópico de este método para la traducción automática.

Los traductores profesionales han dudado siempre de estos métodos, como queda reflejado en algunos populares foros de Internet (Lantra-l). En el campo de la traductología, además, existen estudios recientes que describen otros niveles de equivalencia de no menor importancia que el semántico. Nord (1993), como autora más destacada en el estudio de la equivalencia en traducción, propone dos dimensiones más, la equivalencia estilística y la equivalencia pragmática. Por otro lado, Hatim y Mason (1990), insisten en la importancia de considerar la traducción una cuestión de índole sobre todo pragmática, más que meramente lingüística, y proponen un nivel más abstracto de equivalencia, en el plano de los símbolos sociales y culturales, esto es, de la semiótica.

La unidad de traducción

Este debate sobre la equivalencia nos introduce de lleno en otra cuestión polémica, la unidad de traducción. Si se mantiene que traducir consiste fundamentalmente en relacionar representaciones semánticas de textos en distintas lenguas, parece obvio que la unidad de traducción debería tener una dimensión conceptual. Durante años así se ha considerado, como refleja la bibliografía especializada (Bennett, 1994). Por el lado de la traducción humana, Vinay y Darbelnet (1958) y Vázquez Ayora (1977) son dos referencias obligadas que ya incluían -con otros nombres- patrones de subcategorización, construcciones colocativas, lexías complejas y giros idiomáticos como unidades. La definición de Vinay y Darbelnet establece la unidad como "el menor segmento del enunciado en el que la cohesión de los signos es tal que no se entenderían si fueran traducidos por separado". Es decir, equipara la unidad de traducción con la unidad de significado, que a su vez se corresponde con la unidad lexicológica. Pero este enfoque es limitado y no puede dar cuenta de unidades mayores o más complejas, ni de dimensiones distintas de la semántica.

Intentando poner un poco de orden en la variedad, suelo sugerir a mis alumnos esta clasificación de unidades de traducción:

Categorías morfosintácticas: la unidad básica en todos los sistemas de traducción automática suele ser la palabra (o lexía simple). Las categorías morfosintácticas permiten establecer abstracciones sobre las palabras (el/the > Det; eye/ojo > N; happy/feliz > A; eat/comer > V;over/sobre > P) y son la base de las gramáticas de estructura sintagmática: SN :=Det N.
Subcategorías: dentro de cada categoría se da una gran variedad de comportamientos, la mayoría divergentes entre una lengua y otra. Los patrones de subcategorización permiten plasmar estas divergencias: subj(x) likes obj(y) / subj(y) gusta obj(x).
Colocaciones: categorías y subcategorías muestran con frecuencia "hábitos de colocación sintagmática" particulares: fast waltz, rapid movement, quick action, speedy recovery.
Lexías complejas (palabras compuestas): combinaciones de palabras que lexicalizan: comida rápida/ fast food; movimientos oculares rápidos/ rapid eye movement (REM).
Locuciones: grupos preposicionales o conjuntivos fijos: after all/ när allt kommer omkring, still / a pesar de todo.
Giros idiomáticos: son grupos sintagmáticos con flexibilidad sintáctica: Estaba más loca que una cabra/ She was as nutty as a fruitcake.
Fórmulas: incluye proverbios, Tanto monta, monta tanto, Isabel como Fernando; títulos de obras, películas Monthy Pyton and the Holy Grail / Los caballeros de la mesa cuadrada; y otros elementos fijos del discurso, como este extracto de una escritura inglesa To do all such other things as are incidental or conductive to the above objects or any of them.

Ante esta clasificación surgen varias cuestiones. La primera es dilucidar si todas las unidades propuestas pueden ser recogidas en los diccionarios tradicionales, dado que, al menos desde el enfoque semántico, es en ellos en los que recae la función de establecer equivalencias. El problema es que las fórmulas, por su tamaño y variedad, hacen la tarea impracticable; los giros idiomáticos suelen estar por lo general pobremente representados y, en cualquier caso, no existe diccionario bilingüe conocido que recoja toda la información lexicológica necesaria en traducción de manera sistemática, ni homogénea. De entre la multitud de diccionarios bilingües que existen, algunos contienen información de subcategorización, de colocaciones más frecuentes, de lexías complejas (sobre todo si son especializados), o de locuciones y giros idiomáticos, pero ninguno es exhaustivo. El problema de la exhaustividad en los diccionarios es un problema antiguo e insoluble. Los diccionarios en su concepción son depósitos estáticos, que requieren una laboriosa labor de compilación y validación, frente a la formación de nuevas palabras, giros y otras expresiones, que está siempre activa y es dinámica.

Otra cuestión es la composicionalidad. En el enfoque puramente semántico de la traducción la noción de composicionalidad desempeña un importante papel. Se dice que la traducción de un texto debe ser un proceso composicional, en el sentido de que la traducción de una expresión compleja es una función de la traducción de sus partes constituyentes. En la clasificación de unidades de traducción mencionada se refleja un continuo entre unidades simples y complejas. Internamente las más complejas no son composicionales y por eso deben tratarse como unidades. Las colocaciones ocupan un lugar intermedio, algunos autores sostienen que son composicionales (Pustejovsky 1993, Viegas et al 1998), lo que en teoría permitiría tratarlas de manera eficiente en los diccionarios. En la práctica sin embargo distan de estar convenientemente contempladas. Más problemático es el tratamiento de las fórmulas, que son fundamentalmente unidades semióticas y, de acuerdo con la tesis de Hatim y Mason (1990), no se someten a las reglas de la semántica ni entran en el juego de la composicionalidad. Por ello, un sistema de traducción tiene que resolver el problema de la equivalencia atacando primero la identificación de unidades por el lado de las unidades no composicionales y más complejas, y sólo recurrir a las simples después.

Corpora multilingües en TMX

Una alternativa a los diccionarios como fuente única de información son los corpora multilingües. Estos son colecciones de textos en distintos idiomas, cuyo valor se multiplica si son debidamente procesados y anotados. Para un par determinado de lenguas, si el corpus es suficientemente grande y representativo, la información que aporta puede ser tan completa o más que la del mejor diccionario. La disponibilidad creciente de texto en formato electrónico hace relativamente fácil la labor de compilar corpora y se ha avanzado mucho en el tratamiento computacional (Abaitua, 2000). Si los corpora son paralelos, es posible obtener porcentajes cercanos al 100% para la alineación tanto de palabras como de oraciones (Catizone et al. 1989; Gale y Church, 1993; Kay y Rscheisen, 1993; Martínez, 1999).

Un corpus alineado y anotado constituye una memoria de traducción. Las memorias de traducción (MMT) son una tecnología alternativa a la traducción de base semántica y tienen su origen en una propuesta de Nagao (1984) llamada traducción "por ejemplos". Los sistemas que utilizan esta tecnología no traducen mediante reglas que equiparan representaciones conceptuales, sino mediante analogías o comparaciones entre el texto que se desea traducir y los ya traducidos almacenados en la memoria. Son muy adecuados para textos que contengan un alto porcentaje de expresiones formulaicas y giros idiomáticos, como es el caso de los textos de especialidad. No sirven para textos creativos o expresivos, para los que de todas formas tampoco dan buenos resultados los métodos basados en reglas y requieren traducción humana.

En ámbitos de textos repetitivos, como son los manuales de uso y referencia, los documentos administrativos, los partes informativos (bolsa, meteorología, sucesos), pero sobre todo en el ámbito de la traducción y adaptación de productos de software (localización), las memorias de traducción suponen una interesante opción. Esto se ha reflejado en el mercado de software, que ha visto incrementar de forma significativa el número de ofertas de sistemas comerciales: Déjà-Vu (ATRIL), Translator's Workbench (TRADOS), Transit (STAR), SDLX, etc.. Grandes empresas, instituciones y muchas agencias de traducción han adquirido alguno de estos sistemas para mecanizar en parte sus proyectos de traducción y localización.

Pero los sistemas MMT tienen un inconveniente y es que antes de ser productivos y rentables, antes de que empiecen a ofrecer resultados operativos, precisan un laborioso proceso de alimentación, es decir, de construcción y optimización de la memoria. Esta tarea puede requerir considerables dosis de dedicación y esfuerzo. Un segundo problema, derivado en parte del anterior, es la dependencia del software utilizado. El coste de adquisición de los sistemas MMT es muy alto y su puesta a punto muy costosa, así que en consecuencia, es muy complicado migrar de un sistema a otro. Para paliar este inconveniente es para lo que se ha diseñado el formato TMX (translation memory exchange format; Melby, 1998). En la actualidad, la mayoría de los sistemas MMT disponen de filtros de importación y exportación a TMX.

El formato TMX está basado en el metalenguaje XML y consta de una colección sencilla de etiquetas para marcar los elementos básicos de una memoria de traducción. Es en este sentido una alternativa a otras propuestas de etiquetado conocidas, como puede ser fundamentalmente TEI (Erjavec, 1997). Como TEI es un modelo de etiquetado más genérico y también más rico, no resulta complicado pasar de un corpus TEI a una memoria en TMX.

En TMX la definición de una unidad de traducción es muy simple: cualquier cadena de caracteres entre las etiquetas <TU>...</TU>. Una <TU> puede estar formada por tantas variedades lingüísticas o estilísticas <TUV> como sean necesarias, cada una de ellas, debidamente documentada (Tabla 1). El tamaño de la unidad de traducción no está limitado, así que nada impide que toda una obra literaria pueda ser tratada como unidad de traducción, lo que Bennett (1994) llamaría macrounidad, o que tal macrounidad se segmente en tantas partes como se desee. Si el corpus está adecuadamente etiquetado, la cuestión del tamaño de los segmentos no es muy relevante. Hatim y Mason (1990) es la referencia más importante que defiende considerar el texto completo como unidad de traducción, frente a la tradición de considerar sólo las unidades semánticas, o lexicológicas, que Bennett (1994) llamaría átomos de traducción. La ventaja de utilizar corpora anotados como recurso de traducción es que es muy fácil compatibilizar ambas opciones.

Nuestro ejemplo simplificado de TMX (Tabla 1) permite contrastar distintas traducciones del Hamlet de Shakespeare. Tiene mucho sentido tomar toda la obra como unidad de traducción, sobre todo cuando una versión adquiere el rango de traducción canónica, como ha sucedido durante años con las versiones de Astrana Marín (Rupérez, 1998). Pero es posible ceñir más la segmentación, por escenas, actos, estrofas o versos, de forma que se pueda optar, venido el caso, por la traducción que se considere más apropiada.

<TU> <TUV lang="EN" creationdate="1600" creationid="William Shakespeare" changedate="1951" changeid="Peter Alexander/Collins"> <SEG> Hamlet The Scene: Denmark. Act One Secene I. Elsinore. The guard-platform of the Castle. Francisco at his post. Enter to him Bernardo [...] Exeunt marching. A peal of ordance shot off.</SEG></TUV> <TUV lang="ES" creationdate="1929" creationid="Luis Astrana Marín/Aguilar" > <SEG> Hamlet, príncipe de Dinamarca Escena: Elsinor Acto primero Escena I.- Elsinor.- Explanada delante del castillo Francisco, de centinela en su puesto.- Entra Bernardo dirigiéndose a él [...] Marcha fúnebre. Salen, llevándose los cadáveres. Después se oye una descarga de artillería.</SEG></TUV> <TUV lang="ES" creationdate="1994" creationid="José María Valverde/Planeta"> <SEG> Hamlet La acción, en Elsinor Acto primero Escena Primera Elsinor. Ante el castillo Entran Bernardo y Francisco, centinelas [...] Se van marchando; después, se disparan salvas de artillería.</SEG></TUV> <TUV lang="ES" creationdate="1994" creationid="Ángel-Luis Pujante/Espasa"> <SEG> La tragedia de Hamlet, príncipe de Dinamarca I.i Entran Bernardo y Francisco, dos centinelas [...] Salen en marcha solemne, seguida de una salva de cañón.</SEG></TUV> </TU>
<TU> <TUV lang="EN" creationdate="1600" creationid="William Shakespeare" changedate="1951" changeid="Peter Alexander/Collins"> <SEG>Exeunt marching. A peal of ordance shot off.</SEG></TUV> <TUV lang="ES" creationdate="1929" creationid="Luis Astrana Marín/Aguilar" > <SEG>Marcha fúnebre. Salen, llevándose los cadáveres. Después se oye una descarga de artillería.</SEG></TUV> <TUV lang="ES" creationdate="1994" creationid="José María Valverde/Planeta"> <SEG>Se van marchando; después, se disparan salvas de artillería.</SEG></TUV> <TUV lang="ES" creationdate="1994" creationid="Ángel-Luis Pujante/Espasa"> <SEG>Salen en marcha solemne, seguida de una salva de cañón.</SEG></TUV> </TU>
Tabla 1. Traducciones de Hamlet: ejemplos en TMX

TMX resulta interesante por tres motivos: a) la flexibilidad que ofrece para segmentar los textos en unidades variables de traducción; b) la disponibilidad de software que permite incrementar las memorias de traducción con facilidad, y c) la posibilidad de compartir e intercambiar memorias entre distintas plataformas y usuarios. Sobre esto último vamos a hablar en el siguiente apartado.

Copyleft frente a copyright

La progresiva implantación de XML, unida a la disponibilidad de traducciones en TMX, permite vaticinar que nada impedirá que Internet se convierta en un inmenso depósito abierto de traducciones. Es fácil imaginar motores de búsqueda similares en cobertura y potencia a Google, pero con un campo de acción especializado en la búsqueda en corpora multilingües. Traducir sería entonces tan sencillo como encontrar una equivalencia en la lengua deseada al texto de búsqueda.

Por supuesto antes de que esto sea una realidad deberían resolverse una serie de cuestiones que, como decíamos, no son de índole tecnológica sino logística:

El traductor humano es anterior a la máquina.
Autores, traductores y editores deben permitir la libre circulación de sus trabajos.
Textos y traducciones deben estar disponibles en Internet.

La condición primera es obvia. No quiere decir que no podamos disponer de sistemas de traducción automática para realizar traducciones en borrador sin intervención humana. Lo que decimos es que cuando uno texto no se ha traducido antes y deseamos una traducción de calidad, cuando la unidad de traducción requerida supera los límites de la unidad lexicológica, cuando los factores estilísticos y pragmáticos adquieren relevancia, etc., será necesario encomendar el trabajo primero a un traductor humano. Si esa traducción se va a reutilizar posteriormente, esto podrá hacerse mecánicamente, sin intervención humana, a través de la memoria de traducción. Idealmente -tercera condición- esto debería ser posible a través de Internet. Pero para ello, antes es necesario que se cumpla la segunda condición.

La segunda condición es la más complicada de las tres. En una discusión reciente de Internet, a través de un foro moderado por Antonio S. Valderrábanos (2000), la postura favorable a compartir las memorias de traducción recibió un apoyo más bien escaso. Esto parece querer decir que la práctica del copyright ha calado hondo entre los traductores. Y no es de extrañar, habida cuenta de que las asociaciones profesionales han puesto mucho empeño en lograr que se reconozcan los derechos de propiedad intelectual sobre las traducciones. Pero con el cambio de modelo económico y tránsito del papel al medio electrónico, estas reticencias a compartir el trabajo propio van a ser a la larga contraproducentes. La propia lógica de los hechos impondrá un cambio de planteamiento.

¿Qué modelo puede servir mejor los objetivos del depósito abierto de traducciones que perseguimos? En primer lugar, es necesario dejar bien claro que permitir la libre circulación y utilización de los textos traducidos no implica necesariamente hacer dejación de la propiedad intelectual sobre los mismos. En el campo del desarrollo de software han surgido métodos de protección de los derechos de autor que se pueden tomar prestados para nuestro caso. Frente al modelo de copyright, del que se sirven los autores de software en propiedad para restringir la distribución de sus programas, ha surgido la práctica del copyleft, que expresamente protege la libre circulación. La Fundación de Software Libre ha definido los siguientes conceptos claves:

Software libre: se refiere a la libertad de los usuarios para copiar, utilizar, estudiar, cambiar, mejorar y redistribuir el software. Los usuarios son libres de redistribuir copias, ya sea con o sin modificaciones, ya sea gratis o cobrando una cuota por la distribución a cualquiera y a cualquier lugar. El ser libre de hacer esto significa (entre otras cosas) que no tienes que pedir o pagar permisos. Pero la condición más importante es que el código fuente debe estar disponible.

Copyleft: el sofware protegido por copyleft impone una garantía sobre el software libre y es que nadie puede alterar esta condición de libre distribución del software, aunque se introduzcan cambios o mejoras. Es decir, el término copyleft garantiza la distribución mediante términos legales que dan derecho a utilizar, modificar y redistribuir el código del programa o cualquier programa derivado del mismo, con la condición de que no se alteren los propios términos de distribución. Así, el código y las libertades se hacen legalmente inseparables.

No hay que confundir estos dos términos con el de software de dominio público, que tiene un valor legal muy preciso y significa literalmente "sin copyright''. Parece que para el caso que nos interesa, el método más adecuado es el de proteger la libre distribución de traducciones mediante copyleft. Las ventajas son tan evidentes, que tarde o temprano acabará imponiéndose. A propósito de esto, traigo a colación una reseña de Francis Pisani en el Ciberp@ís (10 de mayo de 2001) sobre la obra de Eric Raymond, La catedral y el bazar. Dice Pisani:

Raymond creía que el modelo de elaboración de un proyecto informático debía parecerse a la construcción de una catedral, "cuidadosamente elaborada por sabios individuales y pequeños grupos de magos trabajando en un espléndido aislamiento, y sin publicar ninguna versión beta antes de tiempo".

Pero el éxito de Linux y de la comunidad que lo alimenta obligó al autor a considerar la superioridad del bazar, "abierto hasta la promiscuidad", en el cual las mejorías son publicadas tan pronto y tantas veces se pueda [...] Raymond muestra cómo puede ser más eficaz desarrollar software en relación con una comunidad abierta que en un sistema cerrado: la colaboración y la revisión crítica del código producido aseguran una calidad incomparable.

Existen en Internet algunos precedentes interesantes de compilaciones de obras literarias y traducciones, como son el proyecto Gutenberg o la Biblioteca Virtual Cervantes. Estas iniciativas recogen obras clásicas, para las que ya han caducado los derechos de autor. La propuesta que se hace en esta ponencia no va mucho más lejos, aunque requiere de la colaboración generosa de una masa amplia de autores y traductores, con sus derechos de propiedad todavía vigentes. Quisiera terminar haciendo mías las palabras de John Perry Barlow, impulsor de la Electronic Frontier Foundation, en relación con la propiedad intelectual:

El término propiedad intelectual es contradictorio. La información es relación, es un intercambio de significado que existe como un bucle o cinta transportadora (loop) en el espacio entre las mentes. La razón por la que tenemos copyright es porque estamos tratando con contenedores en los que introducimos información. Desde Gutenberg, la única forma de hacer portátil la información ha sido poniéndola en un objeto físico que pudiera ser vendido. Es el mismo modelo económico que una tostadora o cualquier objeto físico. Quítale el envoltorio y se acabó el modelo económico.

Agradecimientos

Este trabajo tiene el apoyo del Departmento de Educacioón, Universidades e Investigación (proyecto XML-Bi PI1999-72) y del Departmento de Industria (proyecto XTRA-Bi OD-00UD05) del Gobierno Vasco. El autor está en deuda con los integrantes de ambos proyectos: Arantza Casillas, Josuka Díaz, Thomas Diedrich, Arantza Domínguez, Alberto Garay, Josu Gómez, Carmen Isasi, Inés Jacob, Idoia Madariaga, Raquel Martínez, Koldo Ocina y José Luis Ramírez. De manera particular, el autor agradece a Josu Gómez por su contribución con algunas citas sobre TMX.

Citas

Joseba Abaitua. 2000. Tratamiento de corpora bilingües. La ingeniería lingüística en la sociedad de la información. Fundación Duques de Soria.

Juan A. Alonso. 1990. Transfer InterStructure: designing an interlingua for transfer-based MT systems. Proceedings of the Conference on Theoretical and Methodological issues in Machine Translation of Natural Languages: 189-201.

R. A Amsler y J. S. White. 1979. Development of a computational methodology for deriving natural language semantic structures via analysis of machine-readable dictionaries. Final report on NSF project MCS77-01315. University of Texas at Austin.

John Perry Barlow: http://www.eff.org/~barlow/

Paul Bennett1994. Translation units in human and machine. Babel 40:12-20.

Jaime G. Carbonell, R.E. Cullingford y A.V. Gershman. 1981. Steps towards knowledge-based machine translation. IEEE Transactions on Pattern Analysis and Machine Intelligence 3:376-392.

R. Catizione, G. Russel y S. Warwick. 1993. Deriving translation data from bilingual texts. Proceedings of the 1st International Lexical Acquisition Workshop. Detroit.

Biblioteca Virtual Miguel de Cervantes: http://cervantesvirtual.com/

Bonnie J. Dorr. 1993. Machine translation: A view from the lexicon. MIT Press.

Tomaz Erjavec . 1997. The ELAN Slovene-English aligned corpus: http://nl.ijs.si/et/Bib/MT99/

Fundación de Sofware Libre: http://www.fsf.org/

W. A. Gale y K. W. Church. 1993. A program for aligning sentences in bilingual corpora. Computational Linguistics 19-1: 75-102.

Project Gutenberg: http://sailor.gutenberg.org/

Basil Hatim e Ian Mason. 1990. Discourse and the translator. Longman.

Martin Kay. 1997. The proper place of men and machines in language translation. Machine Translation 13:3-23.

Martin Kay y M. Roscheisen. 1993. Text-translation alignment. Computational Linguistics 19-1: 121-142.

Lantra-l. Can humans help MT? http://www.geocities.com/Athens/7110/MTHUMANS.HTM

Raquel Martínez. 1999. Alineación automática de corpus paralelos: una propuesta metodológica y su aplicación a un dominio de especialidad. Tesis doctoral. Universidad de Deusto

M. Masterman. 1957. The thesaurus in syntax and semantics. Mechanical Translation 4:1-2.

Alan K. Melby. 1988. Lexical transfer: between a source rock and a hard target. COLING: 145-154.

Alan K. Melby 1995. The possibility of language. A discussion of the nature of language with implications for human and machine translation. John Benjamins.

Alan K. Melby. 1998. Data exchange standards from the OSCAR and MARTIF projects. First International Conference on Language Resources and Evaluation: 3-8. http://www.lisa.unige.ch/tmx/.

Sergei Nirenburg, Victor Raskin y A. Tucker. 1985. Interlingua design for TRANSLATOR. Proceedings of the Conference on Theoretical and Methodological issues in Machine Translation of Natural Languages: 224-244.

Christiane Nord. 1993. Traduciendo funciones. Amparo Hurtado (comp.) Estudis sobre la traducció: 97-112. Universitat Jaume I.

Minako O'Hagan. 1996. The coming industry of teletranslation: Overcoming communication barriers through telecommunication . Clevelon.

Minako O'Hagan. 1997. The coming age of teletranslations

James Pustejovsky. 1993. Type coercion and lexical selection. Semantics and the Lexicon. 73-94. Kluwer Academic Publishers.

Eric S. Raymond. 2001. The cathedral & the bazaar. O'Reilly .

Ángel Rupérez. 1998. Shakespeare revisado. Babelia-El País 8.8.1998:12.

R. Simmons and J. Slocum. 1972. Generating English discourse from semantic networks. Communications of the ACM 15-10: 891-905.

Harold L. Somers. 1987. Valency and case in computational linguistics. Edinburgh University Press.

Anna Trosborg. 1997. Text typology: register, genre and text types. Text typology and translation: 3-23. John Benjamins.

Antonio S. Valderrábanos. 2000. Yahoo! Groups: catmt: Messages: Message 181, http://groups.yahoo.com/group/catmt/message/181

Gerardo Vázquez-Ayora. 1977. Introducción a la traductología. Georgetown University Press.

Evelyne Viegas, Stephen Beale and Sergei Nirenburg. 1998. The computational lexical semantics of syntagmatic relations. Proceedings of the 36th Annual Meeting of the Association of Computational Linguistics: 1328-1332.

J.P. Vinay y J. Darbelnet. 1958. Stylistique comparée du français et l'anglais. Didier, Paris.

Yorick Wilks. 1973. An artificial intelligence approach to machine translation. R.C. Schank y K.M. Colby (comp.). Computer models of thought and language: 114-151. Freeman.