viernes, 25 de diciembre de 2015

Uso de Código de Estado 410 y 404 - Rastreo de Googlebot

De Adrián Coutin

El uso de los códigos de estado http status aportan información al rastreo de la Web por los spiders y pueden facilitar o demorar dicho proceso, con la consecuente valoración de los motores de búsquedas, en especial Google que, entre otras cosas, busca optimizar el tiempo de procesamiento que invierte Googebot en rastrear las páginas Web.

 Toda la información sobre el uso del código de estado 410, en especial el artículo Matt Cutts on How Google Handles 404 & 410 Status Codes,  nos indica que: si vamos a borrar de forma permanente  paginas indexadas  de un sitio Web es mejor que el código de respuesta sea el 410 y no que respondan con el código de estado 404 (no se encuentra la URL solicitada).

Código de estado 410 para URLs con contenido pobre


En un proceso de modificación de un sitio Web afectado por Google Panda, y otros animales que no quiero recordar, quise comprobar la efectividad del borrado de estas URLs a la hora de eliminarlas de el índice de Google.

Partíamos de la idea de optimizar la frecuencia de acceso de Googlebot a contenidos borrados y al mismo tiempo, eliminarlas rápidamente de los índices de Google; manejando la posibilidad de salir lo más pronto posible de una penalización por contenido escaso y duplicado (consultar Penalizaciones Google)

Para  realizar la comparación fue necesario que un grupo de URLs que también se borraban, respondieran  con código de estado 404. No obstante el número de páginas borradas que daban   código de estado 404 fue muy inferior a aquellas con código de estado 410.


A continuación muestro los resultados de un control de rastro de Googlebot para comprobar si se procede más rápidamente a dejar de rastrear las URLs que responden código de estado 410 con aquellas que responden 404.

números de códigos de respuesta 410 y 404 a googelbot en sus accesos a una web
Accesos de googlebot que recibieron código de respuesta 410 y 404 desde el 2 de Agosto 2014 al 29 de Octubre 014

En el gráfico aparece enmarcardo en rojo los momentos en que googlebot detectó los mayores contenidos borrados, con código de respuesta tanto 404 como 410.

Como puede apreciarse a simple vista, los accesos a las páginas que respondían 410, tuvieron su mayor detección el 28 de Agosto e, inmediatamente, comienza una caída en el número de peticiones que hacia Googlebot sobre esas páginas con código de respuesta 410.

En el caso de aquellas páginas eliminadas con código de respuesta 404, número muy inferior a las que tenían código de respuesta 410, se observa un acceso estable, es decir, Googlebot repite con mayor frecuencia el acceso a esas URLs ya borradas, disminuyendo el acceso a las mismas mucho más tarde que aquellas con código de respuesta 410.

Llama la atención los datos del 23 al 27 de Septiembre, días en que se sigue produciendo una reducción en los accesos a las páginas borradas con código de respuesta 410 y, sin embargo se produce un incremento a las páginas borradas con código de respuesta 404.

En cifras detalladas de esos días. El día 23 de Septiembre Googlebot accedió a 5,399 páginas que respondían 404, el día siguiente accedió 8200, y el 25 incrementó los accesos a dichas páginas en 18,762 páginas.

En esos mismos días, con mayor cantidad de páginas borradas, los códigos de respuesta 410 pasaron de 67,418 accesos de Googlebot a 43, 208.

 Concluyendo Googlebot y códigos de respuesta


  •  En este trabajo quedo comprobado las recomendaciones hechas por el artículo citado al inicio de este post. El código de respuesta correcto para el borrado definitivo de contenido de un sitio Web debe ser el código de respuesta 410.
  • Si utilizamos el código de respuesta 410 para el contenido borrado definitivamente optimizamos el tiempo de procesamiento de Googlebot. Entonces el llamado Google Crawl Budget se ve beneficiado por esta opción. 
  • Los contenidos borrados  y que utilizaban código de respuesta 410 fueron eliminados rápidamente de Google Index, de acuerdo a los datos que nos ofrecía Google Search Console, lo cual debe contribuir a un mejor comportamiento de la optimización del sitio Web en general.
  •  No obstante a estos resultados la penalización Panda que tenía el sitio Web se mantuvo independientemente de estas rapidas reducciones de contenido duplicado, y causa de la penalización.  El sitio Web mantuvo la penalización hasta cumplido el tiempo que Google se toma para resolver este problema, de 6 a 8 meses.

No hay comentarios:

Publicar un comentario