Licenciatura en Periodismo
Documentación informativa
Documentación y fuentes informativas

SISTEMAS DE BÚSQUEDA Y RECUPERACIÓN EN  INTERNET (II): Motores de búsqeda

  1. Concepto y características generales
  2. Cómo funcionan
  3. Principales motores de búsqueda:
    1. Google
    2. Altavista
    3. Otros Motores de búsqueda
    4. Motores españoles
  4. Metabuscadores
EJERCICIOS:
 
     

1. Concepto y características generales: búsqueda por palabras clave

Los motores de búsqueda ó search engines se basan en un robot o software que recorre la red automáticamente para localizar documentos, los indiza y los introduce en una base de datos. Esta base de datos será interrogada por los usuarios a través de un formulario o interface web, que lanza la búsqueda, la compara con los recursos indizados en la base de datos y
devuelve como resultado un conjunto de links.

La forma de búsqueda en estos sistemas es a través de palabras clave introducidas en el formulario de consulta, permitiendo la mayoría de ellos realizar búsquedas simples y avanzadas. Las búsquedas suelen ser más exhaustivas que en los directorios, pero por el contrario devuelven entre los resultados mucho "ruido". Son útiles para responder a necesidades concretas de información.

Volver

 2. Cómo funcionan

Un motor de búsqueda en Internet se compone de diversos elementos, los cuales serán evaluables, a la hora de valorar su rendimiento o utilidad a la hora de satisfacer una demanda de información:
  1. El robot que recorre Internet para localizar direcciones y documentos y que genera una base de datos textual.
  2. Un sistema de indización automática, según distintos criterios (full-text, parcial o utilizando las etiquetas propias del lenguaje de marcas).
  3. Un motor de búsqueda o search engine
  4. Un sistema de interrogación: que incluye un lenguaje de consulta y una serie de procedimientos más o menos documentales para precisarlas.
  5. Un interface: evaluable tanto a nivel de página de consulta, como a nivel de presentación de resultados.


Volver

3. Principales motores de búsqueda

A pesar de sus limitaciones, los motores actuales cuentan con un excelente rendimiento en general y proporcionan excelentes resultados en la mayor parte de necesidades. Sin embargo, en los últimos años, se advierte una "portalización" de los motores de búsqueda, esto es, que se han añadido otros servicios además del formulario de búsqueda. Son pocos los que podríamos denominar motores de búsqueda "puros", es decir, que no tengan otro tipo de servicios añadidos. Los principales motores de búsqueda son:
  1. Google <http://www.google.com> Google es, en sólo un año, pues funciona desde 1999,  uno de los motores de búsqueda más rápidos y más utilizados en la actualidad. Tiene una forma muy particular para establecer la relevancia de los resultados: utiliza el número de enlaces de una página concreta como medida para evaluar su calidad informativa. De este modo, cada vínculo de una página a otra funciona como un voto a favor de la página receptora. Además el Google no valora todos los votos por igual: valen más aquellos vínculos, o votos, que provengan de páginas que a su vez reciban más enlaces de otras páginas. El análisis mediante vínculos permite además que Google remita a 500 millones de páginas no registradas en su base de datos, a las cuales remiten los 560 millones de páginas que sí tiene registradas. Estos 1.060 millones de páginas hacen de Google el buscador de mayor tamaño, según los análisis de la publicación especializada Search Engine Watch. Esta cifra se encuentra muy próxima al total de webs que se calcula están registradas hoy día. La popularidad de Google (disponible en 10 idiomas, entre ellos español, italiano, inglés, francés, japonés, chino y coreano) se ha extendido por la red en un tiempo récord. Las buenas noticias no han cesado en los últimos meses. Google constituye un buscador puro, sin otros servicios añadidos. Su sistema de rastreo sólo ofrece aquellas webs que contengan todas las palabras incluidas en la ventana de búsqueda. Para concretar más, deberá añadirse una nueva palabra en la ventana. El buscador se concentrará en aquellas páginas que contengan la nueva palabra dentro de las ya encontradas. Google, además, evita repeticiones en su lista de resultados. En la presentación de los resultados, Google incluye una función ( "caché" en español) que ofrece la página guardada por el buscador lo que supone un acceso más rápido, aunque existe el peligro de que no esté actualizada. La función Me siento afortunado lleva a la página que más se ajusta a su búsqueda, sin listados ni nuevas selecciones. Permite además búsquedas simples y avanzadas, la búsqueda por frase entre comillas y el operador booleano por defecto es AND.
Volver
  1. AltaVista <http://www.altavista.com>Altavista ha sido considerado, desde sus inicios, uno de los mejores buscadores de Internet. A pesar de que hoy en día le han salido serios competidores (v. gr. Google), sigue siendo uno de los robots de búsqueda más utilizados y que conserva sus prestaciones de parametrización y concreción de las búsquedas. Por ello, analizaremos en profundidad sus prestaciones y opciones ya que pueden servir de paradigma de funcionamiento de este tipo de herramientas de búsqueda. Realiza una indización por palabras, considerando como tal el conjunto de letras y/o cifras separada de otra palabra por un espacio, un signo de puntuación o un carácter no alfabético (&, %, $...). AltaVista clasifica los resultados de una búsqueda en base a un índice que incluye estos criterios:

Búsquedas simples:

(Ver, Particularidades de la búsqueda simple: http://doc.altavista.com/help/search/search_cheat.html)
Búsqueda por un enlace de hipertexto: anchor: Búsqueda de un nombre de servidor: host:
Búsqueda de una imagen image: Búsqueda en el URL de un enlace:link:
Búsqueda en el texto exclusivamente: text: Búsqueda en el título de la página:  title:
Búsqueda en en el interior de un URL: url: Búsqueda por dominio: domain:
Búsqueda de páginas semejantes: like: Búsqueda de Applets de Java: applet:

Volver

Búsquedas avanzadas :

Además de tener las mismas particularidades que las búsquedas simples, las búsquedas avanzadas de Altavista posibilitan acotar por fecha de publicación de las páginas web nuestras búsquedas; y permiten también, relacionar las palabras clave de la búsqueda a través de los siguientes operadores booleanos:
 
OPERADOR(símbolo)
EJEMPLO
BÚSQUEDA
AND (&)
informatica AND "codigo civil" 
Buscará los documentos que contengan la palabra informática y "código civil"
OR ( | )
"Digital Equipment Corporation" OR DEC
Buscará los documentos que contengan la expresión completa o la sigla o ambas a la vez
NEAR (~)
Camilo NEAR Cela 
Buscará todas las páginas que tengan la palabra Camilo a una distancia, como máximo de 10 palabras de Cela
NOT  (!)
bruselas AND NOT "coles de bruselas"
Buscará las páginas que contengan la palabra 'bruselas' excepto las que contengan la expresión del vegetal.

Otros motores de búsqueda


Volver

Motores de búsqueda en Español.

Algunos ejemplos son: Algunos de los servicios de búsqueda más portalizados, aunque conservan su motor de búsqueda por palabra-clave son:
Volver

4. Metabuscadores

Además de índices y motores de búsqueda, existen también los denominados metabuscadores, buscadores en paralelo, megamotores o metaservidores de información en Internet. Estos sistemas van más allá de los buscadores: admiten una consulta y se encargan de lanzarla a diferentes sitemas de búsquedas públicos que hay en Internet.

4.1. Concepto

Los metabuscadores ofrecen detalles de las respuestas de cada uno de los servicios, o bien el listado completo de coincidencias que constituyen (al menos en teoría) las mejores respuestas a la pregunta formulada. Generalmente no se obtiene toda la potencia de cada uno de ellos (dado que los formatos de consulta varían) pero pueden ser útiles cuando no se han tenido suerte en la búsqueda en otros servicios, para buscar por una materia poco común, o para realizar búsquedas exhaustivas.
 

4.2. MetaCrawler

El paradigma de estos sistemas de búsqueda sería Metacrawler <http://www.metacrawler.com>, que busca en 14 buscadores distintos: AltaVista, DirectHit, Excite, FindWhat, Google, GoTo.com, Infoseek, Kanoodle, LookSmart, Lycos, RealNames, Sprinks, Thunderstone y WebCrawler. Metacrawler puede buscar en páginas Web, News, etc. Metacrawler es uno de los más destacados servicios de metabúsqueda de la WWW. Cuando se plantea una búsqueda, la envía a estos buscadores, reúne los resultados, elimina duplicados, hace un control de la relevancia y ofrece una lista exhaustiva de recursos. Como la mayoría de los sistemas de búsqueda de este tipo, tiene dos formas de interrogació o usos posibles: Además, en Tools and Tips, ofrece otras opciones de búsqueda como:

4.4. Otros metabuscadores internacionales (en inglés)

4.5. Metabúsqueda en España/español.

Aunque hasta hace un año existían metabuscadores españoles que trabajaban con buscadores españoles, como era el caso de http://www.metabusca.com, este metabuscador ha sido absorbido, como otros servicios, por el portal hispano MSN http://busqueda.yupimsn.com. En la actualidad, lo más normal es que los metabuscadores en nuestro idioma tenga una interfaz en español pero que trabajen con buscadores internacionales, como es el caso de: Merece sin embargo, mención especial la versión en español del metabuscador Toda la Net <http://es.todalanet.com> que entre las múltiples opciones de metabúsqueda que tiene incluye:




EJERCICIOS
A continuación se plantean una serie de supuestos trate de resolverlos utilizando lo que ha aprendido en esta clase práctica sobre los motores de búsqueda.

Ejercicio 1:
Imagina que trabajas en el periódico de la Unversidad y tienes que documentar el aniversario de la visita que hizo Saramago a la UC3M con motivo de la creación de la cátedra de estudios portugueses el año pasado. 
Intenta localizar información biográfica sobre José Saramago, Premio Nobel de Literatura en 1998. Estaría bien que además encontrara una foto suya. Utiliza al menos 2 motores de búqueda para realizar esta consulta y compruebe si obtienes los mismos resultados buscando "saramago" que "Saramago". 

Ejercicio 2:
Con motivo del aumento de los miembros de la casa Real, te han encargado la confección del árbol genealógico de la Familia Real, al cual debe incorporar todas las fotos de sus miembros. Intenta localizar todas las imágenes, y si es posible, incorpora también la foto de los dos últimos nietos los Reyes de España: Victoria Federica, cuarta en la línea de sucesión al trono, e hija de los Duques de Lugo y de último, Pablo Nicolás. 
Si no obtiene ningún resultado ¿qué alternativas se le ocurren para encontrar dichas fotos?

Ejercicio 3:
Está preparando un reportaje sobre la enfermedad del Alzheimer y le gustaría recabar información en Internet sobre la asociación creada en España para dar apoyo a las personas afectadas por esta enfermedad y a sus familiares. Busque esa información utilizando algún sistema de búsqueda en español. 

Ejercicio 4:
El Sol es un buscador pero además un directorio de páginas web españolas, con lo cual le resultará útil para buscar páginas de nuestro país. Realice una búsqueda en <http://www.sol.es>  de páginas españolas que hablen sobre en Euro en relación con el dólar. 
Realice la misma búsqueda en Google o en Altavista y compare el nivel de exhaustividad del buscador nacional, con respecto a los internacionales y trate de obtener conclusiones de los resultados que obtiene.

Ejercicio 5:

Realiza búsquedas utilizando cualquiera de los sistemas expuestos en esta sesión práctica, sobre el precio del petróleo (o crudo) en Venezuela, que hable además del papel de la OPEP en este tema. 
¿Qué buscador/es y opcion/es de búsqueda se te ocurren para encontrar esta información?

Ejercicio 6:

Busque en el Metabuscador TodalaNet, a través de la búsqueda avanzada o del directorio, Noticias sobre la LOU
Realice la misma búsqueda en la hemeroteca del Mundo.

Envíe un artículo al Newsgroup de la clase (uc3m.bib.periodismo), del servidor de news (news.uc3m.es) que previamente habrá configurado en las preferencias de su navegador, comentando y justificando, según su opinión las ventajas de buscar en una hemeroteca o en el Metabuscador TodalaNet.

Ejercicio 7:

Recuerda el ejercicio 4 que realizaste asociado a las fuentes de información no oficial. 
Decía así:
A raíz de la guerra con Afganistán, necesitas contar con datos sobre el sector aeroespacial y defensa de los EE.UU.
Puntualmente además te han pedido que localices los beneficios de la empresa Litton Industries, Inc especializada en en
sistemas de defensa y sistemas de información de alta tecnología.
¿Cómo buscarías ahora, haciendo uso de las opciones de búsqueda de alguno de los buscadores o metabuscadores estudiados, algún informe de las inversiones de dicha empresa en el sector de la Defensa?

Ejercicio 8:

Consigue información sobre el Senador Daschle en relación con el Antrax
Utiliza metabuscadores para realizar la búsqueda y trata de distinguir la búsqueda en Noticias con la búsqueda en la Web.
¿Obtienes resultados diferentes?
¿Se te ocurre alguna forma de realizar una búsqueda que te reporte resultados científicos sobre el Antrax en vez de la información divulgativa que aparece en la Web?

Ejercicio 9:

Imagina que estás trabajando en el gabinete de prensa del Senado y te ha dado la curiosidad de saber cuántas páginas establecen un enlace a la Agenda Semanal del Senado. ¿Tendrías alguna forma de averiguarlo a través de las opciones que te ofrecen los distintos buscadores por palabra clave?

Ejercicio 10:

¿Alguno de estos servicios de búsqueda (motores y metabuscadores) le permite buscar en grupos de News? ¿Cuáles?
Intente localizar mensajes enviados a NewsGroups que hablen de la tecnología WAP.

Volver

índice
Página de recursos relacionados con esta asignatura

Para dudas, comentarios, etc. remita un mensaje a su profesor de prácticas:

Tony Hernández: tony@bib.uc3m.es
Eva Méndez: emendez@bib.uc3m.es