Corpus linguistics: TEI

Cronología

  1. Antecedentes en la lingüítica de corpus: COCOA, OCP, TACT, etc. (Curso de Tony McEnery and Andrew Wilson)
  2. 1987. Se registra el Standard Generalized Markup Language (SGML) como norma ISO-8879 con el propósito de solventar los problemas de incompatibilidad en la edición electrónica. SGML está basado en un lenguaje diseñado por Charles F. Goldfarb para IBM, el Generalized Markup Language (GML).
  3. 1987. Se funda el Text Encoding Initiative (TEI), por iniciativa de la Association for Computers and the Humanities (ACL) y auspiciada por la National Endowment for the Humanities (NEH). En la asamblea constituyente se sumarán a la iniciativa la Association for Computational Linguistics (ACL) y la Association for Literary and Linguistic Computing (ALLC). El principal objetivo de TEI es establecer una colección de recomendaciones comunes para la codificación electrónica de textos de manera que se posibilite el intercambio y reutilización de recursos. Con este fin se elige la norma SGML y se nombran cuatro comités para la elaboración de recomendaciones.
  4. 1989. Tim Berners-Lee desarrolla en el CERN el HiperText Markup Language (HTML).
  5. 1992. Se desarrolla Mosaic, un sistema que permite la exploración de documentos HTML y que utiliza el protocolo HTTP para acceso remoto en Internet. Técnicos de Mosaic comercializarán posteriormente el Netescape Navigator. (Ver cronología sobre Internet)
  6. 1993. TEI publica su colección de directrices para la codificación electrónica de textos (SGML/TEI-P3). Estas directrices tienen un importante eco en la comunidad académica y científica. Comienzan a proliferar proyectos de todo orden en el área de la documentación electrónica. Editoriales, centros de documentación, bibliotecas, academias de la lengua -incluida la RAE- comienzan a adoptar las recomendaciones TEI-P3.
  7. 1995. Miembros destacados de TEI (C.M. Sperberg-McQueen y Lou Burnard) critican las limitaciones de HTML y proponen el diseño de un lenguaje más expresivo y flexible, y que aproveche mejor el potencial de SGML. Se comienza a trabajar en la definición de XML.
  8. 1997. La Modern Language Association (MLA) crea un comité para la recomendación de directrices comunes en la edición de textos. Este comité adopta SGML/TEI-P3.
  9. 1998. El W3C adopta XML como recomendación oficial. A partir de esta fecha una serie de grupos de trabajo del W3C se dedican al desarrollo de especificaciones para XML y los estándares relacionados XLL y XSL. El navegador de Microsoft Internet-Explorer permite la visualización de documentos XML.
  10. 2000. Microsoft comercializa Windows-2000 con XML como lenguaje de intercambio de datos entre sus distintas aplicaciones ofimáticas y de Internet (Ver página SGML/XML).


TEI: background documentation


MULTEXT


UNICODE

What is UNICODE?

Extract from http://www.unicode.org/unicode/standard/WhatIsUnicode.html:

Básicamente, las computadoras sólo trabajan con números. Almacenan letras y otros caracteres mediante la asignación de un número a cada uno. Antes de que se inventara Unicode, existían cientos de sistemas de codificación distintos para asignar estos números. Ninguna codificación específica podía contener caracteres suficientes: por ejemplo, la Unión Europea, por sí sola, necesita varios sistemas de codificación distintos para cubrir todos sus idiomas. Incluso para un solo idioma como el inglés, no había un único sistema de codificación que se adecuara a todas las letras, signos de puntuación y símbolos técnicos de uso común.

Además, estos sistemas de codificación presentan problemas entre ellos. Es decir, dos sistemas de codificación pueden utilizar el mismo número para dos caracteres distintos o bien utilizar números distintos para el mismo carácter. Toda computadora (especialmente los servidores) necesita ser compatible con muchos sistemas de codificación distintos; sin embargo, cada vez que los datos se traspasan entre distintos sistemas de codificación o plataformas, dichos datos siempre corren el riesgo de sufrir daños. ¡Unicode está cambiando todo eso!

Fundamentally, computers just deal with numbers. They store letters and other characters by assigning a number for each one. Before Unicode was invented, there were hundreds of different encoding systems for assigning these numbers. No single encoding could contain enough characters: for example, the European Union alone requires several different encodings to cover all its languages. Even for a single language like English no single encoding was adequate for all the letters, punctuation, and technical symbols in common use.

These encoding systems also conflict with one another. That is, two encodings can use the same number for two different characters, or use different numbers for the same character. Any given computer (especially servers) needs to support many different encodings; yet whenever data is passed between different encodings or platforms, that data always runs the risk of corruption.

Unicode proporciona un número único para cada carácter, sin importar la plataforma, sin importar el programa, sin importar el idioma. Líderes de la industria tales como Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys y muchos otros han adoptado la norma Unicode. Unicode es un requisito para los estándares modernos tales como XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., y es la manera oficial de aplicar la norma ISO/IEC 10646. Es compatible con muchos sistemas operativos, con todos los exploradores actuales y con muchos otros productos. La aparición de la norma Unicode y la disponibilidad de herramientas que la respaldan, se encuentran entre las más recientes e importantes tendencias en tecnología de software. La incorporación de Unicode en sitios Web y en aplicaciones de cliente-servidor o de múltiples niveles permite disminuir ostensiblemente los costos del uso de juegos de caracteres heredados. Unicode permite que un producto de software o sitio Web específico se oriente a múltiples plataformas, idiomas y países sin necesidad de rediseñarlo. Además permite que los datos se trasladen a través de muchos sistemas distintos sin sufrir daños.

Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language. The Unicode Standard has been adopted by such industry leaders as Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys and many others. Unicode is required by modern standards such as XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., and is the official way to implement ISO/IEC 10646. It is supported in many operating systems, all modern browsers, and many other products. The emergence of the Unicode Standard, and the availability of tools supporting it, are among the most significant recent global software technology trends. Incorporating Unicode into client-server or multi-tiered applications and websites offers significant cost savings over the use of legacy character sets. Unicode enables a single software product or a single website to be targeted across multiple platforms, languages and countries without re-engineering. It allows data to be transported through many different systems without corruption.


Corpora available through Internet

This section has been moved.

[Inicio]


Grupo DELi, Universidad de Deusto, marzo 2000.