Este material está disponible para su reutilización y reciclado permanente en WWW. Página de (s) Joseba Abaitua. Dirección de contacto: abaitua@fil.deusto.es. Facultad de Filosofía y Letras, Universidad de Deusto, E-48080 Bilbao.


R3: ¡Reducir, Reutilizar, Reciclar!

[Vertederos de bytes | La información | Conocimiento compartido | Lengua y tecnología | Métodos de reciclaje | Normas y estándares | Hipertexto ]

Vertederos

El 10 de septiembre de 1996 se produjo una avalancha en el vertedero de la ciudad de La Coruña. Joaquín Serantes, trabajador de RNE, además de varias viviendas y vehículos, quedaron sepultados bajo 100.000 toneladas de basura en el barrio de O Portiño.

"Maquinaria pesada retira desde el viernes la basura acumulada en la cima del vertedero, que ejerce una gran presión sobre la montaña. El hedor de los materiales al ser removidos, trasladado por el viento a San Pedro de Visma, ha provocado trastornos intestinales a numerosos ciudadanos..."

(EFE/EL CORREO, 24-9-96; noticia ampliada en EL PAÍS, 30-9-96)

Vertederos virtuales

A menudo, cuando observo la información acumulada en mis pilas de discos y disquetes, siento una parecida sensación de trastorno intestinal. Mi disco duro (un poco como W3) se ha convertido en un inmenso vertedero de información, repleto de verborrea y ruido. Es solo basura virtual, pero, en todo caso, basura.

Voy a intentar recuperar lo que merezca la pena. Espero poder poner todo esto que sigue en orden... (¡ya se han reciclado algunas cosas!)

Este es el estado aproximado de mi propio vertedero de bytes:


d:\nlp\2areso.wp5

A vueltas con segmentos y unidades

1 El proyecto LEGEBIDUN

2.2 Lengua común y lenguajes de especialidad (Melby95)

2.3 Terminología y lexicografía (Melby95)

Experiencia del proyecto BYU (Melby95)

Analogía de la arcilla y los ladrillos (clay/stone)

1.4 Tipologia textual

3 Unidades de traducción

Vinay y Darbelnet68, Seleskovitch, Vázquez-Ayora82, Harris88, Larose89, Hatim y Mason90, Hewson y Martin91, Sager93, Bennett94, Toury95, etc.

d:nlp\2becagv1.wp5

Antecedentes y estado actual del tema (LEGEBIDUN)

Corpus, TEI, SGML, etc.

Hipótesis

Metodología

Plan de trabajo

Objetivos concretos e intereses

Bibliografía

d:\nlp\2tag.txt

Muestra BOB etiquetada

d:\nlp\2cnv.wp5

Proyecto de adaptación e integración de software informático para la traducción de textos administrativos

1 Introducción

2 La cooficialidad lingüística

3 Traducción y desarrollo lingüístico

4 Adaptación e integración de software informático para la traducción de textos administrativos

5 Fases del proyecto

d:\nlp\2jornada.wp5

Métodos básicos empleados en la traducción automática. Propuesta orientada a la traducción por ejemplos

d:\nlp\2doc.wp5

Bocetos de proyectos. Larga busca de patrocinador

- Software para el cotejo y composicion simultánea de textos legales y administrativos bilingües euskara-castellano (LEGEBIDUN)

Objetivos

Antecedentes y estado actual

Fases, etapas, etc.

Equipo investigador

Bibliografía

- Estudio contrastivo de textos legales y administrativos en el entorno iberoamericano

2 Objetivos

3 Antecedentes y justificación

3.1 Córpora textuales

3.2 Lenguajes para fines específicos

3.3 Estudio terminológico

4 Etapas

4.1 Recolección de textos

4.2 Técnicas de análisis y cotejo de textos paralelos

4.3 Estudios de gramática descriptiva

4.4 Desarrollo de software de ayuda a la escritura

5 Requisitos

d:\nlp\2uv.wp5

Curso de verano Informática e Traducción

Universidade de Vigo, xullo 1994

Charla: Situación actual y perspectivas futuras de la traducción automática

Introducción

Experiencia personal

Las expectativas

La gramática

La letra con sangre entra

Gramática nuclear

Estructura del discurso

Estudios sobre el diálogo

Lenguajes de especialidad

La terminología

Corpus textuales

La traducción por ejemplos

La traducción por probabilidades

La TA para sublenguajes (TITUS)

La TA destinada a usuarios monolingües

Las gramáticas reversibles

La estandarización lingüística

Estandarización de terminología

Estandarización de documentación

Formato, estructura, contenido

El proyecto LEGEBIDUN

d:\nlp\2sepln952.wp5

Segmentación de textos paralel para memorias de traducción

1 La traducción automática y las memorias de traducción

2 Textos paralelos

3 Etiquetado y segmentación

Referencias

d:\nlp\2sepln95.wp5

Segmentación de textos paralelos para memorias de traducción

Se repiten muchas cosas

d:\nlp\2segment.wp5

Segmentos y unidades de traducción

d:\nlp\2sevilla.doc

Tratamiento de textos administrativos bilingües

1 El proyecto LEGEBIDUN

2.2 Lengua común y lenguajes de especialidad (Melby95)

2.3 Terminología y lexicografía (Melby95)

Experiencia del proyecto BYU (Melby95)

Analogía de la arcilla y los ladrillos (clay/stone)

1.4 Tipologia textual

3 Unidades de traducción

Vinay y Darbelnet68, Seleskovitch, Vázquez-Ayora82, Harris88, Larose89, Hatim y Mason90, Hewson y Martin91, Sager93, Bennett94, Toury95, etc.

d:\nlp\abaitua.wp5

Ingeniería de la lengua y normalización lingüística

d:\nlp\asesora5.wp5

Integración de Sistemas de Adquisición de Conocimiento Léxico y Conceptual./Lexical and Conceptual Knowledge Acquisition Systems Integration.

Palabras Clave: Adquisición de Conocimiento. Bases de Datos Léxicas. Representación Conceptual. Bases de Conocimiento Léxico. Corpus. Diccionarios.

Key Words: Knowledge Acquisition. Lexical Databases. Conceptual Representation. Lexical Knowledge Bases. Corpus. Dictionaries.

Investigador responsable o coordinador del proyecto: Horacio Rodríguez Hontoria

d:\nlp\asju.wp5

Dependencias locales y anáforas vacías en euskara

d:\nlp\byte.{doc,txt,wp5}

La revolución web (el lenguaje html)

d:\nlp\ciencia.wp5

Visiones pesimistas de la ciencia y la tecnología al final del milenio

d:\nlp\coling94.wp5

Language Development and Computational Linguistics

d:\nlp\corptek.wp5

Tratamiento computacional de corpus contemporaneos en euskara

Propuesta de proyecto. Joseba Abaitua, Patxi Goenaga

Objetivos

Introducción

Antecedentes

1.1. Construcción de lexicones

1.2. Métodos estadísticos y gramática descriptiva

  1. 3. Redes neuronales y aprendizaje lingüístico
  2. Propuesta de investigación

Bibliografía

d:\nlp\corpus.wp5

Corpus en inglés:

1,1 MK: Brown Corpus.

5,0 MK: American-Heritage Intermedia.

7,3 MK: Birmingham Collection.

10,0 MK: British National Corpus.

20,0 MK: Cobuild.

Bibliografía

d:\nlp\doctor2.wp5

Propuesta de Programa de Doctorado conjunto en

LENGUA, COGNICIÓN Y COMPUTACIÓN

d:\nlp\euroeval.wp5

Evaluación de EURO

Lista de problemas lingüísticos evaluables

d:\nlp\euroinf.wp5

Boceto de informe de evaluación de EURO

d:\nlp\eurotst.wp5

Lista de oraciones para prueba de evaluación

d:\nlp\glosari.wp5

Términos en euskara

d:\nlp\glosarih&s.wp5

Glosario de (creo) Hutchins + Somers 1992

d:\nlp\imagolis.wp5

Empresas pioneras en la adopción de SGML

d:\nlp\industrp.wp5 (trasparencias)

Las industrias de la lengua

1 Documentación técnica

2 Era de la información y de las comunicaciones

3 Productos

4 Servicios

d:\nlp\infsim.wp5

Lista de empresas dedicadas a dar servicios SGML

d:\nlp\bibmetling.wp5

Bibliografía nlp

d:\nlp\lfgtrs.wp5

Transparencias "Mintegi Hain Xuxen" sobre Basque LFG

d:\nlp\miscenlp.wp5

Borrador introductorio sobre PLN

d:\nlp\dic-etrp.wp5

Diccionarios electrónicos

1 Diccionarios con base informática (CBD, Computer-based dictionaries)

2 Diccionarios digitalizados (MRD, Machine-readable dictionaries)

3 Bancos lexicales o terminológicos (TB)

4 Diccionarios computacionales (MD, Machine dictionaries)

5 Lexicones de inteligencia artificial (AIL)

d:\nlp\dic-etst.wp5

Diccionarios electrónicos (examen)

d:\nlp\indus.doc

Programas de I+D promovidos por la Comisión Europea

Desarrollo de la tecnología lingüística básica para aplicaciones informáticas que empleen lenguaje natural

El mercado mundial de la traducción (hacia 1983-90)

d:\nlp\industrp.wp5 (transparencias)

Programas de I+D promovidos por la Comisión Europea

Desarrollo de la tecnología lingüística básica para aplicaciones informáticas que empleen lenguaje natural

El mercado mundial de la traducción (hacia 1983-90)

d:\nlp\ta2.doc

La traducción por ordenador

d:\nlp\ta2trp.wp5

La traducción por ordenador

d:\nlp\proyitl.wp5

Borrador empresa servicios SGML

d:\nlp\upv-ila.wp5

Borrador proyecto Instituto de Lingüística Aplicada

d:\nlp\hiztek.wp5

Borrador empresa tecnología lingüística

Introducción

1 Objetivos

2 Marco operativo

Areas de trabajo

Procesadores de texto

Diccionarios y bases terminológicas

Traducción automática

Referencias a software lingüístico

d:\nlp\lfgamores.txt

Introducción de Gabriel Amores a su programa, en versión muy antigua

d:\nlp\sagarna.wp5

Informa a Andoni Sagarna sobre PLN en Deusto

d:\nlp\sepln92.wp5

Borrador artículo para SEPLN'92, en Granada

d:\nlp\sepln94.wp5

Notas para mesa redonda SEPLN'94, en Sevilla

d:\nlp\sgmlsof.wp5

Lista software SGML

d:\nlp\spritel.1

Captura de pantalla de sesión con ECHO

d:\nlp\terminol.doc

Borrador curso sobre terminología

Definición de Pitch

Traducción científico-técnica

La traducción automática

Consideraciones, etc.

d:\nlp\umist.wp5

Ingeniería de la lengua y normalización lingüística

1 Introducción

2 Ingeniería de la lengua y teoría lingística

3 Reflexiones y confidencias en torno a la traducción automática

4 Lengua y tecnología

5 Lengua y ocio

6 La normalización: entre el orden y el caos


Reciclaje de bytes

  1. Objetivos
  2. Metodología

Objetivos

Este proyecto de reciclaje nació con el propósito de rescatar material depositado y semiextraviado en el disco duro. El método consistía en convertir a HTML antiguos documentos en WordPerfect o Microsoft Word.

En la actualidad, las páginas se componen directamente en HTML. El autor improvisa y cambia con frecuencia sus propios estilos de composición. ¿Debería definir una plantilla, un estilo propio y normalizado? No lo sé. Prefiero, de momento, no imponerme ninguna restricción.

La ventaja de usar estilos es que garantizan la homogeneidad y coherencia de los documentos. Sin embargo, es mi propósito seguir improvisando e intentar más adelante estudiar las variaciones, antes de elegir un modelo concreto. Intención tengo de enriquecer mi telaraña con etiquetas más precisas, al estilo TEI, y espero poder automatizar este proceso con la ayuda de AWK o PERL.

Metodología

  1. La solución de utilizar HTML no es la óptima ni es definitiva, pero es apropiada por diversas razones.
  2. En cualquier caso, el objetivo es convertir el material disponible en hipertexto, por la agilidad de acceso, consulta, mantenimiento, etc.
  3. Otra cuestión vital es la reversibilidad entre formatos (HTML, SGML, LATeX, etc.). En este sentido HTML no es lo más apropiado, por su pobreza de etiquetado (es conveniente partir de sistemas más ricos hacia sistemas más pobres, ya que la riqueza del etiquetado se mantiene en el original y no a la inversa).
  4. Pero, el método inicial que se probó, manteniendo el formato del procesador de texto, resultó inoperativo por su pesadez. (Se trataba de WP51, e interesaba mantener el formato original porque así como es posible pasar, mediante HoTMetaL , de WP51 a HTML, la inversa es imposible, sólo se puede pasar a ASCII). Estos son inconvenientes totalmente provisionales, ya que las nuevas versiones de procesadores de texto vienen preparadas para realizar estas operaciones.
  5. En cualquier caso, un HTML bien estructurado, con la ayuda de un editor que obliga a mantener la sintaxis de la DTD, como HoTMetaL, no es una mala opción. De hecho yo la prefiero a la pesadez de los procesadores de texto, versiones WP6x o Word7x.
  6. Por otro lado, un etiquetado simple tiene ventajas, sobre todo para el mantenimiento.
  7. Lo ideal sería utilizar sistemas con etiquetas TEI en SGML, pero tienen el inconveniente de su complejidad.
  8. HTML es suficientemente adecuado como para ir adelantando trabajo. Parte del material está bien así, otra parte se deberá pasar a SGML (que a su vez permite la conversión a LATeX). SGML posee un mayor poder descriptivo y mayor capacidad de accesibilidad (indizaciones, modularidad, estructuración, búsqueda, etc. etc.)
  9. Es de suponer que la traducción de un SGML sencillo, como el que empleamos en nuestras páginas HTML, requerirá una fase de depuración de códigos en su transformación en una versión TEI de SGML. Los principales problemas se suponen con las etiquetas <A HREF> (enlaces dinámicos) y la reconversión de las secciones <A NAME> en entidades autónomas.

Material reciclado

  1. Information Fatigue Syndrome
  2. El Proyecto LEGEBIDUNA
  3. Segmentos y unidades de traducción
  4. La propiedad intelectual en INTERNET
  5. Lengua y tecnología
  6. La telaraña