Buscadores e investigación científica
Jose Van Dijck, de la universidad de Amsterdam, comenta en un artículo los efectos que los buscadores tienen en la investigación científica. Para dicha autora, los buscadores genéricos y particularmente Google Académico se han convertido en elementos importantes que influyen y determinan la producción de conocimiento científico y académico, en detrimento de los habituales sistemas de captación de conocimiento como bibliotecas, centros documentales o bases de datos especializadas. Plantea la necesidad de que los investigadores hagan un uso crítico e informado de las herramientas de búsqueda y deben ser conscientes de las dimensiones políticas e ideológicas de la búsqueda automatizada.
Recordemos que las bibliotecas y los centros de documentación que desempeñaban hasta ahora esa función siempre han sido instituciones de servicio público en las que se conjugaban los valores de utilidad, fiabilidad, transparencia, independencia y el respeto a la intimidad y la confidencialidad de los usuarios. Los actuales buscadores están muy lejos de poseer estas características:
- Los contenidos de fuentes científicas son incompletas ya que diversas sociedades científicas o editores importantes en este campo como Elsevier se niegan a dar acceso a sus bases de datos.
- Desconocemos un listado de preciso de los contenidos (bases de datos, publicaciones, instituciones) que los buscadores rastrean en sus arañas.
- Los buscadores carecen de los sistemas de filtrado y selección de fuentes que realizan sistemas expertos existentes en bibliotecas y centros de documentación.
- Los algoritmos de búsqueda y sistemas de pertinencia y relevancia de los buscadores no son transparentes y públicos y tienden a favorecer sistemas de reputación según su particular sistema de clasificación y a grupos de sitios altamente relacionados entre sí.
- La recopilación de datos privilegia las fuentes en inglés y refuerza el dominio anglosajón desproporcionadamente en los resultados de búsqueda.
- La minería de datos que obtienen los buscadores comerciales pueden proporcionarle una fuente ventaja para utilizar convenientemente una información determinada en los mercados de valores, comportamientos de usuarios o valoración de productos. Monitorizar el comportamiento de búsqueda de un grupo de investigadores académicos de algun campo específico puede darle pistas a la compañía propietaria del buscador de cuáles podrían ser las tendencias en investigación o productos y posicionarse en consecuencia. Por ejemplo, pensemos en sectores especialmente sensibles a la investigación como la industria farmacéutica, la energética o de cualquier sector tecnológico.
Fuente: José Van Dijck: Search engines and the production of academic knowledge. International Journal of Cultural Studies November 2010 13: 574-592, doi:10.1177/1367877910376582
Jetwick, búsquedas más fáciles de Twitter
Una de las dificultades de manejar Twitter es su deficiente buscador, por ello se desarrollan iniciativas independientes que nos facilitarán las búsquedas en estos contenidos de redes sociales. Jetwick es una excelente herramienta que nos permitirá realizar pesquisas en Twitter con la inestimable ayuda de un sistema de filtrado de contenidos que permite ajustar las búsquedas con una relevancia más que notable. Permite seleccionar los resultados por idioma, contenido original o duplicado (retweet) y tramo horario. Los resultados pueden ordenarse por relevancia, duplicados, los más recientes o los más antiguos. El buscador complementa las búsquedas con referencias a palabras clave relacionadas o referencias de la misma en la wikipedia. Muy recomendable.
¿Manipula Google los resultados?, eso afirma un estudio mal realizado.
Un estudio realizado por el analista Benjamin Edelman cuestiona el comportamiento del buscador Google al exponer que en la presentación de resultados privilegia el posicionamiento de enlaces pertenecientes a la propia compañía en detrimento de la relevancia de otros resultados que deberían ocupar esas primeras posiciones.
Este estudio ha tenido un gran impacto informativo pero quizás habría que matizar algo sus conclusiones. Cuando se publica un estudio de estas características habría que considerar la posibilidad de que los propios internautas fuesen capaces de reproducir los ejemplos en los que se fundamenta Edelman para llegar a su conclusión. Lamentablemente sólo aporta como evidencias unas cuantas capturas de pantalla de los resultados que obtuvo en el momento de realizar su análisis. Lo correcto hubiese sido reproducir la URL con todos los parámetros de búsqueda. Si observamos con detalle una muestra de la captura de la URL en una de las imágenes de ejemplo, observaremos que en la URL se acumulan los parámetros de búsqueda de anteriores pesquisas. Lo cual no ayuda mucho para despejar dudas acerca del estudio.

Pulsar para ver en tamaño más grande
Recordemos que en nuestras búsquedas influyen múltiples parámetros y condicionantes para que Google presente un resultado u otro: si estamos registrados o no, localización de ip, sistemas de activación/desactivación de cookies, activación o no del sistema de búsqueda instantánea, el historial de nuestras búsquedas, la versión idiomática de Google, etcétera, etcétera. Por eso es importante mostrar la URL de los resultados. Teniendo en cuenta estos factores hemos intentado reproducir los parámetros de búsqueda lo más parecido al estudio original para evitar estas interferencias.
Las url de referencia son para los siguientes términos y en la edición en inglés de Google.com:
- CSCO http://www.google.com/#sclient=psy&hl=en&q=csco
- CSCO, http://www.google.com/#sclient=psy&hl=en&q=csco%2C
- Acne http://www.google.com/#sclient=psy&hl=en&q=acne
- Acne, http://www.google.com/#sclient=psy&hl=en&q=acne%2C
- BOS to SFO http://www.google.com/#hl=en&q=bos+to+sfo&cp=9&pf=p&sclient=psy
- The Social Network http://www.google.com/#sclient=psy&hl=en&q=the+social+network
- Patent 9999999 http://www.google.com/#hl=en&q=patent+9999999
Analizando los ejemplos en el primer caso CSCO, los resultados coinciden con los de Edelman. Efectivamente el primer resultado apunta a Google Finanzas cuando según los criterios de pertinencia deberían corresponder a otros portales financieros. También los resultados son coincidentes al realizar una búsqueda sin coma o con coma.
En el segundo ejemplo, sobre el acné, las referencias no se repiten. En nuestro caso no nos aparece en ninguno de los primeros resultados cualquier referencia a Google Health, tampoco si realizamos variantes con coma o sin coma. Si observamos la URL de referencia en el estudio de Edelman observaremos que ha realizado otras búsquedas que se acumulan en el historial del navegador como mostramos en la siguiente imagen, acción que desde luego no ayuda a la imparcialidad :
En el tercer ejemplo de referencia, la planificación de viajes, el primer resultado es idéntico al realizado por Edelman. En cambio, el cuarto ejemplo sobre la película "The social Network", a diferencia de Edelman, no nos arroja resultados de la cartelera Google. La cartelera sólo aparece cuando le indicamos a Google que complete la búsqueda con localización geográfica. Pero el ejemplo más paradójico es el resultado sobre patentes, ya que el propio ejemplo de referencia de Edelman "ha contaminado" el resultado de las búsquedas y copa los dos primeros resultados en el buscador de Google. En nuestro caso no presenta ninguna referencia a Google Patents y podría considerarse inválida su afirmación.
La principal crítica de Edelman es que la "supuesta" neutralidad del buscador Google no existe y su tendencia a presentar resultados en los primeros lugares de los propios servicios de la compañía o de sus asociados preferentes suponen una grave manipulación de los mismos. No negamos que exista alguna evidencia de ello pero pensamos que debería sustentarse en unos ejemplos más definidos, realizados con más rigor y que pudiesen ser verificados por todos, del mismo modo que un estudio de estas características debería aplicarse a otros buscadores como Bing, Baidu o Yandex, por citar los buscadores más usados del mundo y comparar resultados.
Fuente: Hard-Coding Bias in Google "Algorithmic" Search Results
La marca de Infoseek en venta
Infoseek, un histórico buscador de los años 90, se pone en venta su nombre de dominio y su marca registrada en una próxima subasta el 8 de diciembre. Infoseek fue fundado por Steve Kirsch en 1994 e inició su funcionamiento en febrero de 1995. Inicialmente se trataba de un buscador que cobraba a los usuarios por los resultados de búsqueda, obviamente era un modelo que pronto fracasó y se reconvirtió en un motor de búsqueda tradicional y gratuito. En 1998 fue vendido a Disney y esta compañía lo fusionó con el portal Go.com. Infoseek dejó de funcionar definitivamente como buscador en 2001 y su dominio se redirige al actual Go.com.
Fuente: Search Engine Watch
Ookaboo buscador semántico de imágenes de dominio público
Ookaboo es un buscador que indexa imágenes de dominio público bajo licencia de Creative Commons. Existen varios buscadores similares pero la peculiaridad de Ookaboo es la de utilizar sistemas de indización de la web semántica. Todas las páginas de este buscador están marcadas con RDFa, un sistema de etiquetas para describir un tipo específico de información denominada entidades o elementos, los cuales disponen de una serie de propiedades específicas. Ookaboo se orienta fundamentalmente en torno a entidades con nombre, sobre todo lugares, personas y obras de creación.
MÉTODOS DE BUSCA
LANGUAGE TOOLS
Sitios de interés
- Busca-Rapidshare Buscador especializado en contenidos alojados en Rapidshare.
- Buscopio Miles de buscadores organizados temática y geográficamente.
Temas
Métodos de busca
- G+: #Rapidshare y #Mediafire evitan la indexación de #Google vía http://t.co/M280wadO https://t.co/OEtbf9DT 2 weeks ago
- G+: Cierra el buscador de #torrents #BTjunkie, vía +TorrentFreak http://t.co/2XDgVcSV https://t.co/Zoo7LgwF 2 weeks ago
- G+: Siguen los tropiezos de #Google con la justicia francesa, ahora por la gratuidad de #GoogleMaps … https://t.co/IlRGXNxw 2 weeks ago
- G+: Recorrido de los cambios de la búsqueda en #google desde 1998. ¿Ha empeorado la calidad del #buscador? En… https://t.co/F6CUw8Tv 2 weeks ago
- G+: Leyendo ¿por qué es imprescindible que #Apple desarrolle su propio #buscador? En http://t.co/hzOVbkub https://t.co/x5EuTksl 3 weeks ago




