(s) Material reciclado a partir de El lenguaje HTML, publicado por BYTE en octubre de 1995. La versión original y completa se titulaba La revolución WEB (y ha dejado de estar disponible en WP5.1 o Word 2.0, por obsoleta). Ése fue el título del IV Congreso Mundial de WWW, celebrado en 1995. Página preparada por Joseba Abaitua.

Dirección de contacto: abaitua@fil.deusto.es. Facultad de Filosofía y Letras, Universidad de Deusto, E-48080 Bilbao.

LA TELARAÑA

Presentación

Hay quien la llama "malla" (http://cvc.cervantes.es/foros/foro_esp/), y no está mal ya que permite una ingeniosa inversión de WWW en MMM -Malla Máxima Mundial, pero yo prefiero la traducción más literal de web, "telaraña".

Esta página se ha ido actualizando con información nueva, pero mantiene el mismo hilo argumental de un artículo publicado en 1995. En este sentido, persevera en el propósito de reciclar y reutilizar la información que con el paso del tiempo se va acumulando. Los contenidos abarcan principalmente cuestiones de diseño y organización del sistema de hipertexto derivado de HTML. Todo va a cambiar, y mucho, cuando los "navegadores", "visores" u "oteadores" comerciales incorporen XML.


La revolución WEB

"La meteórica popularización de la telaraña mundial World Wide Web (WWW, W3 o WEB) es tan solo la punta visible de un gigantesco iceberg con el que estamos a punto de colisionar. Se trata del más claro anticipo del proceso que va a transformar radicalmente (ya lo está haciendo) los medios para difundir y acceder a la información a escala planetaria.

"Vivimos en los albores de una nueva era en la que la información será uno de los motores de la economía mundial. En esta fase preliminar se están librando, de manera más o menos soterrada, importantes batallas. Batallas por el control de las telecomunicaciones, por el control de la industria audiovisual y editorial, por la imposición de protocolos, descodificadores, estándares; batallas, en definitiva, por el control de los elementos más estratégicos de explotación global de la información.

"En medio de la reyerta lucha, como extraordinario baluarte de libertad, la red Internet (ver A Cyberspace Independence Declaration, de John Perry Barlow), que ha saltado a las primeras páginas de los periódicos gracias al sistema de hipertexto WWW, basado en el estándar que lo ha hecho posible, el ISO 8879, conocido como Standard Generalized Markup Language (SGML)".

(Extractos de El lenguaje HTML)

El título de este apartado está tomado del eslogan que la W3C adoptó para su IV Congreso Internacional de WWW, The WEB Revolution, organizado junto con el Departamento de Informática del MIT en Boston 1995. En aquella ocasión se trataron cuestiones como la enseñanza a través de la red, la realidad virtual, la representación del conocimiento, la integración de bases de datos relacionales y orientadas a objetos, la coherencia, integridad y seguridad de acceso, así como el uso comercial de la red o protocolos de abono y cobro.

¿Cómo surgió todo?

La telaraña WWW es el producto espontáneo y casi accidental de las necesidades de comunicación entre técnicos e investigadores. La industria y la administración mostraron su interés más tarde (no siempre con buenas intenciones).

Internet no fue un alumbramiento totalmente espontáneo, fue propiciada por encargo del Departamento de Defensa de los EEUU, pero se trata de un producto científico, desarrollado fundamentalmente en el seno de la comunidad académica. Durante sus primeros 20 años de existencia (desde 1970 hasta comienzos de 1990), prácticamente Internet no ha salido del entorno científico. La explosión que ha experimentado a partir de 1993 se debe exclusivamente a la introducción del sistema de hipertexto (HTML) y consiguiente propagación de telarañas (WEB). Nos ha pillado a todos de sorpresa, pero supone el auténtico big bang de la revolución telemática.

La clave de la pervivencia de WWW en el futuro pasa por una mejora en la disponibilidad de las líneas de comunicaciones, actualmente saturadas, y depende del resultado de las batallas y de las alianzas por el control de estas líneas. El ahogamiento de la red Internet puede convertirse en un valioso argumento para el desarrollo de redes alternativas mejor controladas y comercialmente más rentables. Sin embargo, la popularidad de WWW con Internet es tan amplia que parece improbable que otras iniciativas comerciales (como puedan ser NetWare de AT&T, o Microsoft Network) vayan a arrebatarle el liderazgo.

Los proyectos NetWare de AT&T o Microsoft Network han pasado a mejor vida, sin embargo el futuro de Internet sigue siendo un enigma. Su propia naturaleza hace muy difícil el control absoluto o el monopolio, pero no cabe duda de que se trata de un sistema muy codiciado por los grandes grupos de telecomunicaciones.

El World Wide Web Consortium (W3C)

El organismo que se ha hecho cargo del mantenimiento de WWW, el World Wide Web Consortium (W3C), se financia con lo que aportan un grupo de empresas patrocinadoras y las especificaciones y el software de referencia que produce son todavía de libre distribución. La administración del W3C es responsabilidad del Departamento de Informática del Massachusetts Institute of Technology (MIT), en colaboración en Europa con el instituto de investigación francés INRIA y el Centro Europeo de Investigación Nuclear (CERN), cuyos técnicos crearon originalmente WWW.

[ Internet | Tim Berners-Lee | CERN ]


El lenguaje HTML

El principal artífice del éxito de WWW es el lenguaje de etiquetado de hipertexto HTML (Hypertext Markup Language). En esta sección hablamos de algunas de sus virtudes.

La popularización e interés que ha despertado el lenguaje HTML en tan poco tiempo (menos de un lustro) es sorprendente. Ninguno de sus diseñadores lo hubiera sospechado en el momento de su creación. HTML es una aplicación muy sencilla de las recomendaciones contenidas en el metalenguaje SGML.

Antecedentes


Complementos HTML


Versiones de HTML

Existe un grupo de trabajo de la IETF (Internet Engineering Task Force) responsable del desarrollo y homologación de las diversas versiones de HTML. Este grupo de trabajo está coordinado desde el mismo W3C y cuenta con un foro de debate interactivo en el que se invita a participar.

Uno de los problemas más importantes a los que este grupo se enfrenta es el mantenimiento de la compatibilidad de las distintas extensiones que los proveedores de software, como Netscape o Microsoft, van incorporando en sus productos.

Encontrarás información sobre las distintas versiones HTML 1.0, 2.0, HTML+ y 3.x en la propia W3C.


Propiedades de WWW

WWW es un medio de difundir la información basado en el concepto de hipertexto tremendamente eficaz. Se trata de un medio:

cooperativo
evita que se duplique la información permitiendo que todos los puntos que contienen datos complementarios estén relacionados entre sí
dinámico
se puede actualizar puntual y permanentemente
distribuido
la información no se encuentra localizada en un solo lugar, sino en todos aquellos lugares donde se produce

En este sentido, WWW añade a las propiedades del hipertexto de SGML las ventajas de la red Internet, permitiendo la integración de prácticamente todos los servicios en un mismo entorno.

En WWW se establecen enlaces ('links') -conocidos como URL (Uniform Resource Locators)- entre cualquier objeto de datos en cualquier ordenador conectado a la red de manera que el acceso y consulta son inmediatos.


Tipos de páginas

  1. Páginas de personas, asociaciones, instituciones, proyectos o empresas: Tim Berners-Lee, Jakob Nielsen's site, Lluís Màrquez, JosuKa Díaz Labrador, Real Academia Española, Association for Computational Linguistics, Text Encoding Initiative, IULA - Unitat de Recerca de Lingüística Computacional, Electronic Text Center -- University of Virginia, Edinburgh Department of Artificial Intelligence Home Page, WordNet Home Page, SoftQuad Inc.'s Welcome Page.
  2. Publicaciones periódicas: The FINITE STRING 23.2, El País, El Correo, Egunkaria, El Mundo, La Vanguardia, El Periódico, ABC, Diario Tecnologías de la Información, The Standard, CNN en español, Bolsa Madrid, The Guardian, Asahi Shinbun, CNN, Japan Times, The New York Times, The Washington Post, The Wall Street Journal, USA Today, La Nación
  3. Buscadores: Google, Aurki, Jalgi, Altavista, People Search, Otros buscadores.
  4. Portales: Vilaweb, Inicia, Telépolis, Ciudades, Navegalia, Canal21, Ya, Terra
  5. Sitios de referencia:
  6. Logs y otros sitios participativos:
  7. Comunidades virtuales: listas (Rediris, Postaria), grupos (Yahoo!), bitácoras (LiveJournal, Bitácoras.net), foros Sustatu, Barrapunto, Slashdot, redes (Orkut, Ryze).
  8. Tendencias de futuro: web semántica, OAI, RDF/RSS, Atom, Bloglines...

[ Páginas personales - Directorio de DELi - Antiguos marcadores ]


Facetas

  1. Contenidos (redactores, documentalistas, expertos)
  2. Presentación, visualización (diseñadores gráficos)
  3. Programación (buscadores, control de acceso y seguridad, generación y actualización automática)

Contenidos

  1. Contenidos estructurados (texto, tablas, jerarquías, elementos lógicos)
  2. Ayudas para la navegación (menús, barras de situación, índices, buscadores, marcos)
  3. Referencias (autor, filiación, fehca, dirección, curriculum, bibliografía)
  4. Publicidad


SGML y HTML

Como metodología de edición de textos, SGML introduce conceptos de trabajo muy avanzados.

Lo más novedoso es la idea de reemplazar los códigos y las macros procedimentales por códigos declarativos que separan el contenido (el valor funcional de los elementos de un documento) de su formato.

Así, frente a una etiqueta procedimental que señala un bloque de texto como cursiva o subrayado, sin indicar el motivo del cambio de tipografía, una etiqueta declarativa indica la condición del bloque, si se trata de una cita bibliográfica, de un extranjerismo, de un tecnicismo, o de un fragmento que se desea enfatizar.

Esta posibilidad de separar el contenido del formato permite jugar de manera muy flexible con la información. Su estructuración, actualización, selección, combinación o presentación podrán ofrecerse según más convenga en cada oportunidad.

Pero SGML, aunque conocido por la utilización generalizada de etiquetas descriptivas ('tags'), no constituye un conjunto predefinido de etiquetas, ni una sintaxis de etiquetado ('markup').

SGML es en realidad un metalenguaje que permite el diseño y control de un conjunto de etiquetas y de una sintaxis a la medida del usuario o de la aplicación. Su adaptación a las necesidades del uso se concreta en la declaración de tipo de documento (DTD).

HTML es un ejemplo de DTD; es decir, dentro de las múltiples posibilidades de SGML, la DTD de HTML describe un conjunto concreto de etiquetas de hipertexto y una sintaxis para utilizarlas en Internet.

WWW supone el mejor medio para recabar información sobre ella misma (la página del W3C citada anteriormente), así como sobre TEI (también citada) o SGML. Para SGML existen tres excelentes puntos de conexión. (En mis bookmarks se recoge una exhaustiva lista de direcciones y sitios de interés.)

Es especialmente valiosa la SGML WEB Page que Robin Cover, del Summer Institute of Linguistics (SIL), mantiene con el auspicio de la empresa líder en herramientas SGML, SoftQuad. Son también útiles la del consorcio SGML Open , que aglutina a diversos fabricantes y proveedores de SGML (ArboText, Electronic Book Technologies, Exoterica, Interleaf, Open Text o la misma SoftQuad, entre otros), así como la Guía Whirlwind de herramientas y proveedores de SGML que Steve Pepper mantiene en la empresa noruega Falch Infotek. Gran parte de las herramientas que se mencionan son de libre distribución y fácilmente obtenibles a través de estos puntos. La pujanza del estándar SGML queda también plasmada en los nuevos complementos para HTML y SGML que aportan los programas líderes en tratamiento de textos.

[En torno a SGML/XML ] [Robin Cover's SGML WEB Page] [SGML Open ] [Otros enlaces]

(Aviso: esta sección no está actualizada)

WordPro (antes AmiPro), dispone de herramientas integradas en el propio programa. Por su parte, WordPerfect ofrece Internet Publisher para HTML e Intellitag para SGML. Los usuarios de Word de Microsoft tienen menos suerte ya que deberán recurrir a herramientas externas, como HTML Assistant (que es de distribución libre). Pero el atractivo de WWW es tan poderoso y la demanda tan importante que todas estas herramientas serán dentro de muy poco moneda corriente en todos los programas de edición electrónica.

Otras aplicaciones de SGML

Pero además de HTML para WWW, existen muchas otras aplicaciones de SGML de gran envergadura y trascendencia. Varios organismos y asociaciones profesionales han establecido directrices propias que se materializan en el desarrollo de DTDs especializadas.

Así sucede con las directrices de la American Association of Publishers (AAP) -asociación de editores americanos-, en las que se contempla el etiquetado para una extensísima categoría de documentos (muchas de sus propuestas han sido reconocidas por las asociaciones de estandarización ANSI/NISO e ISO).

Un caso similar es el desarrollo del Formato de Texto Universal (UTF), promovido por el Consejo de Telecomunicaciones de la Prensa Internacional (IPTC) y la Newspaper American Association (NAA) -asociación de editores de prensa diaria americana- para el intercambio de noticias entre agencias y clientes, reemplazando los anteriores formatos IPTC 7901 y ANPA 1312.


Ventajas de SGML
(según Andy van Dan)

El lenguaje de etiquetado HTML de la WWW es en este momento la aplicación más conocida de SGML, pero no es la más importante.

SGML tiene su mayor incidencia en el sector de la publicación electrónica. Andy van Dan, pionero en el desarrollo de hipertexto, declaraba en 1994:

"Si prefiero SGML como formato para intercambiar documentos frente a estándares industriales como PostScript o RTF es porque estos últimos únicamente aportan información del formato y no de la estructura de un documento, que podría llegar a visualizarse de distinta manera en medios diferentes.

El atractivo de SGML es que permite disponer de la información que se precisa para describir el documento no como una colección de páginas ya maquetadas, sino como una estructura jerárquica de elementos multimedia."


El proyecto TEI

El proyecto del consorcio internacional para el etiquetado de textos TEI (Text Encoding Initiative) es una iniciativa que ha partido de diversas asociaciones profesionales en el campo de las humanidades.

El objetivo de TEI es fomentar el uso de etiquetas rigurosas y productivas para cualquier clase de texto, aunque su aportación más directa se produce en el campo de los textos con valor cultural y científico. Estas recomendaciones ser recogen en un compendio conocido como TEI P3 o TEI Guidelines for Electronic Text Encoding and Interchange


Enlaces TEI

[Otros enlaces relacionados con TEI]

Text Encoding Initiative
Página oficial de acceso a TEI: "The Text Encoding Initiative (TEI) is an international project to develop guidelines for the preparation and interchange of electronic texts for scholarly research, and to satisfy a broad range of uses by the language industries more generally. In the following document, we describe the TEI and how you can obtain more information about it, including the TEI Guidelines.
TEI Guidelines for Electronic Text Encoding and Interchange
Para traerse o consultar las directrices TEI.
XSL stylesheets for TEI XML
I have prepared a set of XSLT specifications to transform TEI XML documents to HTML, and to XSL Formatting Objects. I have concentrated on TEI Lite, but adding support for other modules should be fairly easy. In the main, the setup has been used on `new' documents, ie reports and web pages that I have authored from scratch, rather than traditional TEI-encoded existing material. The stylesheets have been tested with the XT, Saxon, Xalan and Oracle XSLT processors; the last of these does not support multiple file output, which means that you cannot use the `split' feature of the stylesheets to make multiple HTML files from one XML file. If you have not yet installed an XSLT processor, it is probably sensible to pick James Clark's XT (from http://www.jclark.com/xml), as it appears to be the fastest and most robust. It is up to the user to find out how to run the XSLT processor! This may be from within a Java program, on the command-line, or inside a web server. I will be very glad to discuss details of these stylesheets with anyone. Contact me (Sebastian Rahtz) as sebastian.rahtz@oucs.ox.ac.uk
The TEI Guidelines: ASCII Version
Local copy of the Table of Contents with links to every chapter of the TEI Guidelines in ASCII.
TEI-L WWW archive: introduction
This is a subject listing of the TEI-L mailing list. The original archive is maintained by the listserver at LISTSERV@UICVM.UIC.EDU. The WWW archive is kept in HTML form, as generated from the original archive.
Guidelines for Electronic Scholarly Editions (whole document)
The draft "Guidelines for Electronic Scholarly Editions" were approved in September of 1997 by the MLA's Committee on Scholarly Editions. They follow the Committee's guidelines for printed scholarly editions as closely as possible. In fact much of the text is drawn word-for-word from the latter, with additions as necessary to accommodate the capabilities of the new media.
CETH SGML sampler
A sample of SGML texts, encoded according to the TEI DTD, p3. Ofrecidos por el CETH de la Princeton Univ.
Ebenezer's software for TEI
Windows 95/NT software for creating, editing, checking, and doing other interesting things with files marked up according to the principles of the Text Encoding Initiative.


Otros enlaces relacionados con TEI

Corpus linguistics: downloads
Material de consulta en torno a TEI, MULTEXT y UNICODE.
EAGLES Home Page
Recomiendan el uso de TEI: "The Expert Advisory Group on Language Engineering Standards (EAGLES) is an initiative of the European Commission, within DG XIII Linguistic Research and Engineering programme, which aims to accelerate the provision of standards for: Very large-scale language resources (such as text corpora, computational lexicons and speech corpora); Means of manipulating such knowledge, via computational linguistic formalisms, mark up languages and various software tools; Means of assessing and evaluating resources, tools and products."
Multext Home Page
Multext encompasses a series of projects whose goals are to develop standards and specifications for the encoding and processing of linguistic corpora, and to develop tools, corpora and linguistic resources embodying these standards. Multext is developing tools, corpora, and linguistic resources for a wide variety of languages, including Bambara, Bulgarian, Catalan, Czech, Dutch, English, Estonian, French, German, Hungarian, Italian, Kikongo, Occitan, Romanian, Slovenian, Spanish, Swedish and Swahili. All Multext results are made freely and publicly available for non-commercial, non-military purposes.
NISO Home Page
HERC TEI Pilot Projects
U. Bergen. Alineador
The Legebiduna Project
The LEGEBIDUNA project concentrates on the explotation of a bitext corpus of administrative documents in both Basque and Spanish as a source for the development of simultaneous editing and translating software. This page includes discussion on legal texts, translation memory, descriptive mark-up (SGML, TEI, MULTEXT), variable translations units, and parallel text alignment.


Charles F. Goldfarb y TEI

Charles F. Goldfarb (Home Page), uno de los máximos responsables de la gestación de SGML, declaraba recientemente respecto a TEI:

"Si alguna vez alguien me pidiera una receta segura para lograr el caos, yo le sugeriría un proyecto en el que varios miles de especialistas pertenecientes a distintas disciplinas y a una docena o más de países, todos ellos muy entusiastas, recibieran el encargo de producir en un plazo menor a cinco años un documento de unas 1.200 páginas en el que se indicaran, de manera rigurosa y verificable por medios automáticos, las formas de expresar el conocimiento en cada una de sus especialidades.

Parece sociológica y tecnológicamente imposible que un equipo así llegara ni siquiera a acordar las materias de discusión del documento y mucho menos los detalles de la codificación. Sin embargo, con la misma sencillez con la que un abejorro desafía las leyes de la aerodinámica, TEI ha llevado a cabo con éxito su misión.

Las directrices de TEI son extraordinarias. Aunque nunca se pusieran en práctica, constituirían una contribución sin precedentes por el grado de detalle alcanzado en el análisis de los elementos informativos en una tipología tan amplia de textos. Y el caso es que tanto la comunidad científica como el mundo editorial ya han comenzado a utilizar estas directrices." Charles F. Goldfarb


Funcionamiento de TEI

La operatividad de TEI se ha establecido entorno a cuatro comités que comparten la responsabilidad de elaborar las directrices.

  1. El Comité de Documentación de Textos se encarga de definir las etiquetas para identificar los textos (procedencia, ubicación, clase, categoría, etc.).
  2. El Comité de Representación Textual se ocupa de describir física y lógicamente los textos. La descripción lógica abarca cuestiones como su estructura (capítulos, secciones, etc.), la tipografía, la maquetación, las notas, apéndices y referencias diversas, etc.
  3. El Comité de Análisis e Interpretación de Textos trata el desarrollo de etiquetas que permiten la descripción lingüística y literaria del texto, así como cuestiones de intertextualidad, indización, etc.
  4. El Comité de Cuestiones Metalingüísticas se ocupa de los problemas técnicos de la sintaxis utilizada en la etiquetación.

Las cuestiones dirimidas por estos comités de TEI dan idea del grado de complejidad y precisión al que se quiere llegar. La aplicación de estas directrices señala directamente a la idea que apuntábamos al comienzo, la de una transformación radical en la difusión y acceso al conocimiento.


[ Bibliotecas digitales] [ Inicio ]