domingo, 8 de enero de 2017

¿Cómo detectar el contenido duplicado y solucionarlo?

De: Adrián Coutin

El contenido duplicado y el SEO tienen una mala relación, mientras más sea el contenido duplicado en nuestra Web que Google indexa, peor será el posicionamiento Web de casi todo el contenido del sitio Web.

La existencia de contenido duplicado, en muchas ocasiones, es desconocido por los desarrolladores de la Web.

Contenido Duplicado: Urls de ID sesiones

El ejemplo que les traigo hoy está relacionado con una mala configuración del fichero robots.txt que permitió el acceso de googlebot a las páginas de productos con parámetros de sesiones almacenadas en el servidor.

Las URL ID sesiones de una página Web duplican el contenido de esta en dependencia de la cantidad de sesiones que se generen para dicha página. De esta forma  si googlebot accede a las páginas con parámetros de sesiones encontrará un mismo contenido, la página del producto en si, repetida en diferentes urls que identifican las sesiones de la misma.

Veamos en este caso las páginas indexadas por Google relacionadas con sesiones.
urls de sesiones procesadas por Google
Ejemplo de páginas de sesiones indexadas por Google (Clic sobre imagen para ampliar)

 

Migración y eliminación del contenido duplicado

Debido a otros problemas asociados a esta Web se decidió rediseñarla y lanzar una nueva versión que, entre otras cosas, evitaba el procesamiento  del contenido duplicado con una correcta configuración del robots.txt

De acuerdo a los datos que nos ofrecía Google Search Console la Web poseía antes de la migración unas 5000 páginas indexadas en Google.


muestra el total de páginas indexadas por google
Total de páginas indexadas por Google de la anterior versión (Clic sobre imagen para ampliar)

No obstante a través de los diferentes procesamientos que habíamos hecho durante el estudio de la Web estaban identificadas unas 12,000 páginas indexables.Este y otros problemas nos indicaban problemas con la indexabilidad de la Web.

Una vez migrada la Web con su correspondiente inventario de URLs y sus redireccionamientos a la nueva versión  comenzamos a observar un elevado número de errores 404 asociados a las páginas de productos con parámetros asignados de sesiones.

Número de errores 404
Reporte de Errores 404 Google Search Console (Clic sobre imagen para ampliar)

¿Cuáles eran estas páginas Web que comenzaban a dar error 404 una vez migrada la Web? El mismo Google Search Console nos informo de cuáles eran estas páginas:


Errores 404 asociados a páginas de sesiones
Páginas asociadas a sesiones que responden 404 después de la migración (Clic sobre imagen para ampliar)

Conclusiones

  1. El procesamiento de las urls de sesiones que duplican el contenido de una o más páginas de una Web es contenido duplicado. 
  2. Una incorrecta configuración del robots.txt y su no detección genera una incorrecta indexación del contenido de la Web.
  3. El estado de indexación de Google Search Console nos informa de las páginas indexadas en el índice de búsqueda, no de toda la Web que tenemos abierta al indexado de Google.

No hay comentarios:

Publicar un comentario