Cómo Pordede superará al vídeo de PSY

Ahora que Google, Yahoo! y Live Search han llegado a un acuerdo conjunto sobre el Protocolo de Exclusión de Robots, otorgando con ello nuevamente protagonismo a los ficheros robots.txt, no está de más recordar (o aprender) un uso que los internautas le pueden dar a dichos ficheros: descubrir páginas, artículos e imágenes ocultas a los motores de búsqueda.

LA CLAVE ES EL FICHERO ROBOTS.TXT

Los motores de búsqueda emplean unos programas automatizados (conocidos como Robots, Spiders o Crawlers) que esencialmente rastrean la web en busca de información y enlaces. Dichos programas actúan sobre cada web en base a las especificaciones del fichero robots.txt que pordede.com ésta tenga definido, de tal manera que, dependiendo de las recomendaciones establecidas en dicho fichero, existen directorios, páginas o archivos que no deben ser rastreados por los Robots. Estas recomendaciones se establecen en robots.txt mediante la etiqueta disallow.

Si, por ejemplo, echásemos un vistazo al fichero robots.txt de un conocido blog español (que, todavía hoy, algún periodista/escritor se empeña en llamar Portal), encontraríamos que algunas de sus entradas han sido marcadas con la etiquetadisallow:

De esta manera, las entradas del blog, asociadas a las direcciones mostradas en el extracto del robots.txt, deberían permanecer ocultas a los buscadores.

CÓMO ENCONTRAR EL FICHERO ROBOTS.TXT

Si se pretende fisgonear en una web concreta, cuyo dominio es www.ejemplo.com, caso de que el fichero robots.txt esté definido, éste ha de encontrarse en la dirección www.ejemplo.com/robots.txt por defecto.

Otra forma de encontrar contenidos ocultos a los motores de búsqueda es aquella que se basa en el empleo de los propios motores de búsqueda. En este caso se tratará de encontrar ficheros de texto robots.txt que contengan la etiqueta disallow. Si se emplea Google como motor de búsqueda, los pasos a seguir son:

  • Introducir “robots.txt”, “disallow:” y filetype:txt como criterios de búsqueda [URL de búsqueda resultante].
  • Si, además, se desea introducir un filtro temporal, que reduzca los resultados al último mes, se añadirá la cadena &as_qdr=m a la URL de búsqueda [URL de búsqueda resultante].

Los resultados obtenidos mostrarán los ficheros robots.txt en que pordede.com aparece la etiqueta disallow, esto es, ficheros con referencias a páginas y archivos ocultos para los buscadores.

Tubemate-gratis (1)

NAVEGAR POR PÁGINAS OCULTAS A LOS BUSCADORES en pordede

El primer resultado de la búsqueda que hemos realizado previamente (URL de búsqueda) corresponde al robots.txt de la web oficial de la Casa Blanca, cuya dirección es www.whitehouse.gov/robots.txt, como ya se comentó antes. En él se pueden observar los siguientes registros:

Para acceder, por ejemplo, a la página correspondiente al primer registro mostrado, bastará con cambiar /robots.txt por /911/patriotism/ (omitiendotext). Et voila!

MÁS INFORMACIÓN SOBRE ROBOTS.TXT

Si te ha interesado el tema de los ficheros robots.txt, te recomiendo visitarRobots.txt: todo lo que debería saber, un completo tutorial al respecto publicado en Emezeta Blog que me ha permitido matizar algunos aspectos del post a posteriori.

Archivado en:  pordede

→ 2 CommentsCategorías: How To
Etiquetado: , , , , , ,

Cita de François de la Rochefoucauld

Mayo 31, 2008 · No hay comentarios

La verdadera elocuencia consiste en no decir más de lo que es preciso.

Archivado en: ,

→ No CommentsCategorías: Cita del Día pordede.com · François de la Rochefoucauld
Etiquetado:

Relato en seis palabras

Mayo 31, 2008 · No hay comentarios

A partir de mi Relato en Seis Palabras y la fabulosa fotografía de Asten se me ocurrió la idea de crear un Grafitti o pintada urbana, si se prefiere, que aportase un mensaje particular a la ciudad, cualquier ciudad, sin necesidad de manchar ningún muro o pared. pordede.com

 

Para mi sorpresa, algo tan sencillo ha tenido un gran éxito en la red social StumbleUpon, lo que resulta suficientemente motivador como para crear algunos más. pordede.com

¿Te apuntas?