martes, 22 de octubre de 2013

Comprobar la configuración robots.txt

De Adrián Coutin

Los trabajos de optimización y/o posicionamiento de páginas Web nos lleva a trabajar en diversas alternativas para lograr un correcto procesamiento de todas las páginas que componen un sitio web.

Una de las alternativas para controlar el acceso a páginas web que no deseamos que sean procesadas por los buscadores es el bloqueo al acceso de las mismas a través del archivo robots.txt

No es el objetivo de este post hablarles de las funciones de este mágico y peligroso fichero, que nos puede llevar a la gloria o al cadalso de Google y demás buscadores. Toda la información sobre este fichero lo podéis encontrar en Estándar de exclusión de robots

Es importante también comentar que existen otras alternativas de bloqueo de acceso a páginas web que no son controladas por este fichero. Existen directivas de HTML que bloquean el acceso de los spiders a las páginas Web.

Ejemplo el <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Esta meta etiqueta no es forma parte del robots.txt y no puede comprobarse su funcionamiento vía Google Search Console u otra herramienta disponible para esos fines.

Vía Herramientas de Google Search Console sólo podremos controlar las páginas cerradas vía robots.txt.

Google Search Console


El control de lo que ponemos en el fichero robots.txt y la forma en que lo colocamos es más que necesario. Si aplicamos mal los permisos para procesar o no procesar carpetas los resultados pueden ser catastróficos. Y las herramientas disponibles vía Google Search Console nos pueden ayudar a controlar  el funcionamiento de dicho fichero.

Opción Rastreo - Google Search Console


Vía Rastreo, opción URL bloqueadas, podemos conocer la actual configuración del fichero robots.txt y las URL que están siendo bloqueadas por dicho fichero.

Panel de control de Google Search Console
Google Search Console - Panel de Control














Siempre debes revisar el número de URL bloqueadas por si existe algún error de configuración. Suele ocurrir que, al ser un fichero controlado por los webmasters se excluyan o no páginas que afecten el procesamiento de las páginas Web.

Interpretar el número de páginas bloqueadas


Tanto por exceso, muchas páginas cerradas al acceso de los spiders, como por defecto, todas las páginas web están abiertas al procesamiento, tendremos que analizar qué está pasando con el bloqueo de páginas.

La  cantidad de páginas Web que componen tu Web, su organización y estructura así como aquellas zonas propias de los gestores de contenidos (CMS) que no deben ser procesados por los spiders deben ser de tu conocimiento.

 Los CMS también tienen carpetas que no deben ser procesadas por los spiders. Por lo general todos los CMS informan que ficheros deben estar presente en robots.txt Los programadores/webmasters o instaladores del CMS las deben conocer.

 Es frecuente, por ejemplo, que se haya decidido que las imágenes de la Web no sean procesadas por los buscadores. Si el bloqueo se realiza vía robots.txt deben aparecer como bloqueadas aquí.

Validación del robots.txt


Vía Google Webmaster podemos validar el funcionamiento del fichero robots.txt, es decir, podemos conocer las URL que hemos cerrado al procesamiento de los buscadores y aparecerán como bloqueadas.

Aquí un ejemplo con esta opción de mi propio blog donde tengo bloqueadas un grupo de páginas que no deseo que sean procesadas por ningún spider.

Comprobación del robots.txt - Panel donde puedes ver las líneas del robots.txt
Google Search Console - Validación del robots.txt











 


Si deseo conocer, por ejemplo, si se encuentran bloqueadas alguna página en especifico perteneciente a la sección de etiquetas, /search/label/posicionamiento web?max-results=5, simplemente introduzco la URL completa en URL Especifica las URL y los user-agents que quieres probar. y conocemos si esta bloqueada o abierta al procesamiento.

Página bloqueada en el robots.txt comprobada en Google Search Console
Comprobación configuración robots.txt - Página bloqueada en robots.txt














Como puedes apreciar la herramienta te informa, en este caso, que la URL está bloqueada y te informa el comando o instrucción que bloquea la misma, en este caso la línea 2: Disallow: /search*/

Puedes tener la completa seguridad que dicha URL no será procesada por ningún spider.

1 comentario:

  1. Este comentario ha sido eliminado por un administrador del blog.

    ResponderEliminar