Introducción a la Informática Documental

Una Introducción a la Informática Documental.

Jesús Tramullas Saz
Apuntes CCUZ, 8, Zaragoza,1995, pp.6-10


1. La documentación omnipresente.

Seguramente, en más de una ocasión se habrá preguntado como es posible que los periodistas y los medios de comunicación dispongan de información actualizada sobre cualquier cuestión candente, y sean capaces de rememorar, en un momento dado, una larga lista de milagros y pecados de algo y/o alguien. O cómo es posible que Hacienda (u otro ente público) recuerde, cuando menos le interesa a vd., aquellos datos que ahora le hacen dar mil vueltas para justificar. Fácilmente puede imaginar que esto es posible gracias a la disponibilidad, en el momento adecuado, de la información necesaria. Esta información existió, y fue útil, en un momento dado, y cuando parecía olvidada, reaparece.

Para que esto sea posible, no basta con la existencia de esa información. Tiene que haber sido tratada, procesada, mediante un conjunto de normas, que permitan su utilización posterior con una finalidad dada. Esta tarea, tan grata cuando se recuerdan los archivos de Ebla, y tan ingrata cuando se trata de algo más escabroso, está encomendada a las Ciencias de la Documentación. Normalmente se acepta que la Documentación, en su formulación científica, es fruto del trabajo del estudioso belga Paul Marie Ghislain Otlet, que a comienzos de este siglo trazó, en su Traité de Documentation (1934) los principios básicos de la moderna Documentación.


2. La cadena documental.

Como pequeña introducción, por supuesto, baste decir que toda información, para que sea susceptible de tratamiento, debe recogerse en un soporte documental. Actualmente, la Documentación hace frente a documentos sonoros, gráficos de diversos tipos, escritos, numéricos, etc, etc. Sobre estos documentos se procede a aplicar una serie de operaciones, cuyo conjunto se denomina "cadena documental", y que consiste, en resumen, en describir el documento en sus aspectos formales y de contenido, estableciendo los mecanismos necesarios para poder acceder a la información recogida en el documento desde diversas vías.

E.n la cadena documental se pueden establecer, a grandes rasgos, las siguientes fases:

  1. Recopilación, selección y adquisición de documents: en la que se trata de establecer que documentos son, o pueden ser, de interés para los usuarios reales y potenciales, y disponer de ellos de algún modo.

  2. Análisis documental: puede dividirse en análisis formal (encargado de establecer las características físicas del documento y de su soporte), y en análisis de contenido (que suele dividirse en clasificación, indización y resumen). Se trata de una fase crucial, en la que el documento debe ser incluido en un marco intelectual previamente definido, y tiene que ser transformado en una nueva creación, plasmada en lo que se llama documento secundario, precisamente a través del cual se accederá, normalmente, a los documentos originales o primarios.

  3. Búsqueda, recuperación o investigación documental: en el cual se ejecutan un conjunto de acciones encaminadas a recuperar los documentos pertinentes a una necesidad de información dada .En esta fase se utilizan los instrumentos establecidos en el análisis documental, como el resumen y los lenguajes documentales.

  4. Difusión: se trata de facilitar al usuario el producto documental, es decir, la información contenida en un conjunto de documentos que satisfacen las necesidades de aquél.

Este es el proceso que, por supuesto mas perfeccionado y completo, se sigue en una biblioteca: se analizan las necesidades y peticiones de los usuarios y se adquieren los fondos pertinentes, o se provee de otros accesos a esos fondos. Una vez recibidos, se registran, catalogan y analizan, dando lugar a un conjunto de fichas y catálogos, a través de los cuales los usuarios realizan búsquedas, y de acuerdo con el resultado de éstas solicitan la bibliografía adecuada.

Un factor decisivo en todo el proceso resulta la utilización de los llamados "lenguajes documentales". En resumen, un lenguaje documental es un conjunto de términos, relaciones entre los términos y reglas en la aplicación de esos términos, que permiten describir el contenido de un documento, de la forma más breve y exhaustiva posible. Los especialistas utilizan diferentes lenguajes documentales, adecuados a los contenidos informativos de los documentos, tanto como mecanismo de control en la caracterización de los documentos, como mecanismo de recuperación de los documentos que contengan determinada información. Un ejemplo, muy simple, de estos lenguajes documentales son los llamados descriptores o palabras clave, que cada vez se encuentran en mayor cantidad de recursos informativos, y cuya finalidad es facilitar el acceso al documento pertinente por parte del usuario. Cuanta mayor sea la calidad y precisión de un lenguaje documental, y por supuesto de su aplicación, mayor será el aprovechamiento y la satisfacción del usuario.

Como puede imaginarse, el aumento exponencial de la información en la sociedad actual implica la necesidad de lenguajes documentales avanzados, y para todo tipo de universos de discurso. La emergente disciplina llamada "Organización del Conocimiento" se encarga, entre otras cuestiones, de la investigación en mecanismos de clasificación y ordenación que cubran cualquier campo de la actividad humana


3. Documentación e informática: la "informática documental".

Tras esta breve explicación, es el momento de plantearse el objetivo y el contenido de lo que puede encontrarse definido como "documentación automatizada" o "informática documental". La informática documental es el conjunto de normas, aplicaciones y recursos, basados en un soporte informático, cuya finalidad es dar soporte a la cadena documental, así como a las actividades derivadas. Dentro de esta definición, que por fuerza debe considerarse amplia, caben desde la informatización del proceso de catalogación, hasta la recuperación de información en un OPAC (Online Public Access Catalog, o Catálogo Público de Acceso en Línea) de una biblioteca. Normalmente, se suele diferenciar un poco más, indicando que el objeto de la informática documental no es un registro, en el sentido en que pueda entenderse en un modelo relacional, sino un documento, con todo lo que conlleva la raíz latina del término.

Sirva un ejemplo para aclarar lo anterior. Si un usuario desarrolla una base de datos sobre artículos de prensa, las características del objeto, aunque pueden ser perfectamente definidas en el modelado conceptual, lo hacen de difícil tratamiento en el momento de pasar a un modelo lógico, por ejemplo relacional. La primera dificultad es la gran cantidad de texto que debe tratar el SGBD, y la segunda la gran cantidad de entidades relacionadas existentes dentro del propio documento. Para hacer frente a estas limitaciones, principalmente técnicas, se han desarrollado sistemas de gestión de bases de datos documentales, una especialización de los SGBD tradicionales, que ofrecen todas las funcionalidades de éstos, pero que orientan su objeto de trabajo a documentos con formato variable, con una estructura de campos o parágrafos flexible, y con mecanismos de control terminológico, que aseguran la correcta utilización de lenguajes documentales, así como herramientas que permiten crear relaciones entre entidades, normalmente muy limitadas. Sin embargo, debe señalarse que esta especificidad desaparecerá pronto, ya que la rápida evolución de las tecnologías de bases de datos está haciendo aparecer en el mercado productos híbridos entre relacional y documental, incluyendo capacidades multimedia y de distribución, lo que esta modificando el concepto y las técnicas de modelado de las bases de datos documentales.


4. El fichero inverso y las ecuaciones de búsqueda.

La orientación al documento que demandan las bases de datos documentales hace necesario emplear una técnica informática particular, a la que se llama tecnología del fichero inverso. Se trata de indizar, individualmente, cada una de las palabras significativas que se encuentran en un campo, creando un fichero nuevo, el fichero inverso, que contiene todas las entradas de cada una de las palabras, incorporando, y en ello reside su potencial, la posición de los términos. De esta forma, el fichero inverso contiene una entrada para cada una de las palabras que aparecen en la base de datos, y esa entrada incluye su posición absoluta, indicando el campo, subcampo, párrafo, línea, frase y posición dentro de la frase. Como puede comprenderse, esto facilita enormemente la seguridad y velocidad de respuesta cuando se ejecuta una consulta, ya que, en realidad, no se consulta el fichero que contiene los documentos, lo que daría como resultado una búsqueda secuencial exasperantemente lenta, sino el fichero inverso, sobre el cual pueden aplicarse todo tipo de técnicas mejoradas de indexación y recuperación. Una vez se obtiene la respuesta a la consulta, el propio sistema se encarga de acceder al fichero que contiene los documentos, y seleccionar y ofrecer al usuario los pertinentes.

Esta organización del contenido de los documentos permite a los usuarios de una base de datos documental formular consultas, que en el ámbito documental son llamadas ecuaciones, en las que se relacionan los términos que describen las necesidades informativas. Según esto, una ecuación de búsqueda para consultar una base de datos documental estará formada por términos, o palabras significativas, y por elementos, a los que se llama operadores, encargados de definir cuales son las relaciones que mantienen los términos entre sí. De forma general, los término pueden mantener relaciones de presencia/ausencia y de posición absoluta/relativa, dentro de los documentos.

Por ejemplo, si quisiese recuperar documentos que versasen sobre "informática documental", lo más sencillo sería ejecutar una ecuación de la forma "INFORMÁTICA AND DOCUMENTAL", utilizando uno de los operadores booleanos clásicos, que se encuentran presentes en todos los sistemas de recuperación de información. No sería necesario indicar ningún campo, ya que el sistema buscaría automáticamente en todos los campos indizados existentes. Se puede avanzar un paso más si el usuario utiliza la estructura de la base de datos, y sabe que existe un campo llamado "descriptores". Puede deducirse que en ese campo, cuyo contenido será un lenguaje documental casi con toda seguridad, se encontrarán estos descriptores, por lo que se podría ejecutar una ecuación en la que se utilizase un operador de posición absoluta, de la forma "(INFORMÁTICA AND DOCUMENTAL).DESC.". En esta ecuación, escrita para el sistema de gestión de bases documentales BRS/Search, le estaríamos diciendo al sistema que recuperase todos aquellos documentos que contengan los términos deseados, y luego seleccione aquellos en los cuales aparezcan en el campo o parágrafo DESC (descriptores). Como puede apreciarse, los operadores pueden combinarse con suma facilidad, siempre y cuando se respeten una reglas lógicas tomadas de la teoría de conjuntos. De hecho, los sistemas más avanzados permiten especificar incluso la posición relativa, o distancia, de los términos dentro de una frase, combinaciones con otras ecuaciones, diferentes niveles de anidamiento, y llegan a ofrecer términos similares a los utilizados para ampliar o restringir las búsquedas.

A pesar de lo simple que pueda parecer este tipo de recuperación de información, nada más lejano de la realidad, ya que en toda recuperación de documentos aparecen distorsiones. Cuando se recuperan documentos que contienen los términos y la relaciones indicadas en la ecuación, pero que no son pertinentes para las necesidades del usuario, se dice que se trata de "ruido"; cuando el resultado es el contrario, y quedan sin recuperar documentos pertinentes, se habla de "silencio". Ambos requieren que las ecuaciones sean formuladas nuevamente, y se ajusten más cuidadosamente los términos y sus relaciones. La experiencia del documentalista suele ser el mejor mecanismo de ajuste en estos casos, no cual no es óbice para que ésta sea una de las más importantes áreas de investigación en informática documental.


5. Las aplicaciones específicas.

La recuperación de documentos a través de ecuaciones de búsqueda es posible gracias a que existen unas aplicaciones que no sólo las ejecutan, sino que son capaces de gestionar, en el sentido más amplio, las bases de datos documentales. El proceso de especialización que dió lugar a la informática documental ha producido, a su vez, aplicaciones especializadas en diferentes aspectos, que en muchas ocasiones entrecruzan sus características:


6. Cuando los documentos ahogan: la teledocumentación.

Resulta de gran utilidad disponer de una base de datos documental que cubran las posibles necesidades de información y documentación, pero resulta evidente que, dependiendo de sus características, el mantenimiento de ésta puede llegar a resultar irrealizable. Las bases de datos documentales crecen, como la información, de forma exponencial, y se necesita que esa información sea completa y esté actualizada en muchos campos de actividad, como la economía. En un primer momento, se pensó que la capacidad de almacenamiento del CD-ROM sería la respuesta a este crecimiento. Sin embargo, se ha demostrado que no ha sido así, y además el CD- ROM debe luchar con el problema de la actualización de la información, ya que ésta se realiza, como plazo breve en estos soportes, cada tres meses. En determinadas facetas de la investigación científica y económica, este período es un mundo, y puede llegar a resultar inaceptable.

La teledocumentación ha sido definida, en ocasiones, como la fusión de informática, documentación y redes de comunicaciones. Presente en el mercado de la información desde la década de 1960, en resumen puede decirse que los usuarios acceden, a través de una terminal informática conectada a una red de telecomunicaciones, a un servidor remoto, al que se suele llamar en este ámbito "host", en el que puede encontrar numerosas bases de datos de todo tipo, permanentemente actualizadas, y consultables por el usuario mediante un lenguaje de recuperación establecido. Eso sí. previo y posterior pago de todo tipo de cuotas y cargos. Nombres famosos en el mundo documental resultan ser el gigante norteamericano Dialog, o el suizo Data-Star, o la agencia Reuters, especializada en información, actualizada en minutos, sobre economía y noticias. No debe dejar de percibirse que Internet, con todo el auge que está alcanzando, es heredera de la teledocumentación en cierto modo, y que la mayor parte de los recursos que ofrece es información documental. De hecho, aplicaciones como WAIS, Veronica o Jughead, e incluso los Robots, Wanderers y Spiders de los servidores World Wide Web, son sistemas de recuperación de información en su más exacto sentido, basados en la teoría de la búsqueda documental. Nos atreveríamos incluso a ir más allá, y señalar la Internet como una gigantesca base de datos documental distribuida, en la cual los futuros, y más necesarios, desarrollos de aplicaciones se centrarán en la localización y acceso a los documentos. La investigación en el acceso a catálogos de bibliotecas y el auge del protocolo Z.39-50 son indicadores de este interés.


7. En la frontera: el cambio de conceptos.

Como en otros ámbitos de aplicación de la tecnologías de la información, la documentación está cambiando métodos y reglas por el empuje de los nuevos medios. La investigación en documentación se centra hora en el desarrollo de nuevos y avanzados interfaces de usuario para la interrogación de las bases de datos documentales y el acceso al documento, acceso que se pretende integre todo tipo de documentos, con lo que se abre el amplio mundo de la documentación a las técnicas de multimedia. Este tipo de documentación cada vez estará más distribuido en diferentes lugares, en un intento de evitar la redundancia, uno de los mayores peligros existentes en la actualidad, lo que a su vez enlaza con el acceso integrado, los nuevos interfaces, ya citados, y la necesidad de obtener e implantar mecanismos más perfectos de recuperación de información. Los nuevos sistemas de gestión documental modificarán parte de los fundamentos teóricos de las ciencias de la documentación y la información, pero sin olvidar que, en primer y último términos, el creador y el destinatario de los documentos es el ser humano, tanto en el antiguo Sumer como en el cercano 2001. Como hace 2.400 años escribió Sun Tzu en El Arte de la Guerra,

"Pues si el principe esclarecido y el general competente derrotan al enemigo cada vez que pasan a la acción, si sus hazañas se salen fuera de lo común, es gracias a la información previa... Lo que se ha llamado información previa no puede obtenerse de los espíritus, ni de las divinidades, ni de la analogía con acontecimientos pasados, ni de los cálculos. Es necesario obtenerlo de hombres que conozcan la situación del enemigo."


8. Bibliografía.

CODINA, L., y ABADAL, E., "Gestio documental amb microordinadors: caracteristiques, estructura i tecnologia dels sistemes de gestio documental." ITEM, Revista de Biblioteconomia i Documentació, 1992, 11, pp.72-100.

COSTANZO CAPITANI, P., Manuale di base per il trattamento dell'informazione. Milano: Editrice Bibliografica, 1989.

CHAUMIER, J., Técnicas de documentación y archivo. Barcelona: oikos-tau, 1993.

CHORAFAS, D.N., Intelligent Multimedia Databases. Englewood Cliffs: Prentice-Hall, 1994.

DUVAL, B.K., y MAIN, L., Automated Library Systems. A Librarian's Guide and Teaching Manual. Wesport: Meckler, 1992.

ELMASRI, N., y NAVATHE, S.B. Fundamentals of Database Systems. Redwood City: The Benjamin/Cummings Pub.Co., 1989.

GILSTER, P., Finding It on the Internet. New York: John Wiley & Sons, 1994.

LIZASOAIN, L., Bases de datos en CD-ROM. Madrid: Paraninfo, 1992.

LOPEZ YEPES, J.(comp.) Fundamentos de Información y Documentación. Madrid: Eudema, 1989.

LOPEZ YEPES, J., La Documentación como disciplina. Teoría e Historia. Pamplona: EUNSA, 1995.

MARTIN, J., Hyperdocuments & How to Create Them. Englewood Cliffs: Prentice-Hall, 1990.

MEADOW, C.T., Text Information Retrieval Systems. San Diego: Academic Press, 1992.

MOREIRO GONZALEZ, J.A., "De la documentación a la ciencia de la información: evolución de los conceptos y aplicaciones documentales." Homenaje a Antonio de Bethencourt Massieu, Seminario de Humanidades Agustín Millares Carlo, Madrid, pp.533-557.

NEILL, S.D., Dilemmas in the Study of Information. Exploring the Boundaries of Information Science. New York: Greenwood Press, 1992.

ROWLEY, J.E., The Basics of System Analysis and Design for Information Managers. London: Clive Bingley, 1994.

TOFFLER, A., La Tercera Ola. Barcelona: Plaza y Janés, 1993.

TRAMULLAS, J., y CUBILLO, A., BRS/Search: Introducción a los sistemas de gestión de bases de datos documentales. Zaragoza: Kronos, 1995.

VICKERY, B.C., VICKERY, A., Information Science in Theory and Practice. London: Bowker-Saur, 1992.

WARNER, J., "Semiotics, Information Science, Documents and Computers." Journal of Documentation, 1990, 46, 1, p.24ss.


Ultima modificación: 16 de Abril de 1996.