Optimizar contenidos duplicados

De Adrián Coutin

Uno de los problemas con los que nos enfrentamos en el trabajo SEO en sitios de mediano y gran tamaño es la optimización de las páginas que repiten contenido por motivos relacionados con filtros de organización (precios, colores, tamaños, etc.)
Estas páginas suelen ser consideradas como contenidos duplicados puesto que, efectivamente, reproducen el contenido muy similar a la página original sólo que ,los usos de ID o pase de parámetros, generan nuevas URLs con el mismo contenido.

Ejemplo de estas URLs:

http://www.example.com/productos/mujeres/vestidos/verde.htm

http://www.example.com/productos/mujeres?category=vestidos&color=verde
http://example.com/tienda/index.php?product_id=32&highlight=verde+vestido&cat_id=1&sessionid=123&affid=431

Este ejemplo de URL lo he tomado de Google Webmaster- URL donde se explican algunas formas de evitar los problemas que causan dichas páginas.

A simple vista puedes apreciar la diferencia de ambas URL. Sin embargo el contenido es el mismo. Si googlebot o cualquier otro robot entra a ambas páginas las encuentra iguales y eso no es nada bueno para optimizar un sitio.

¿Por qué tanto problema con los contenidos duplicados?

Procesar el mismo contenido bajo diferentes URL consume recursos de los buscadores. Tanto las visitas del spiders y todo el proceso que desencadena encontrar una página son costes para cualquier buscador.

Sumale colocar en el mismo índice de resultados varias páginas de un mismo dominio con el mismo resultado. Obviamente un indicador de calidad fatal.

Y si a lo anterior le añadimos que fue una práctica muy habitual del "black hat" generar diversas URL con el mismo contenido y tratarlas de posicionar por las mismas palabras clave, comprendemos porque Google y demás buscadores luchan contra esta situación.

Opciones para evitar el procesamiento del contenido duplicado

Dado que no es bueno para nuestro ranking en SEO tener contenido duplicado en los índices de los buscadores y, por otro lado, necesitamos mostrar el contenido organizado de diferentes formas, es necesario organizar el acceso a dichas páginas por parte de los spiders.

Robots.txt

Esta fue la primera opción disponible por muchos pues, al detectarse los problemas que generaban las URL con parámetros, muchos gestores de contenidos no tenían módulos para, por ejemplo, incluir nofollow en los tags de dichas páginas.

Vía robots.txt y sus comandos disallow es posible cerrar al procesamiento de los spiders muchas URL de este tipo. No obstante puede ser un proceso complejo, imposible en muchos casos identificar todas estas URL y colocarlas correctamente en robots.txt.

Más información sobre la configuración del fichero robots

Nofollow, noindex

Los gestores de contenidos en general y en especial los enfocados hacia el e-commerce, generaron módulos y opciones que facilitan el uso de meta etiquetas como Nofollow, noindex que cierran el procesamiento de estas páginas al procesamiento de los spiders.

Es una vía rápida y segura, gestionada por los propios gestores del sitio Web y que funciona bien siempre y apliquemos bien el módulo y sus especificaciones.

Siempre es recomendable supervisar que TODAS las páginas que duplican el contenido posean las meta etiquetas NOFOLLOW, NOINDEX, de lo contrario los resultados pueden ser imprecisos.

Obviamente ambas meta etiqueta son posibles utilizar fuera del esquema de gestores de contenidos pero en este post estoy concentrado en la optimización de URL que generan contenido duplicado en sitios de mediano y gran tamaño donde es necesario utilizar gestores de contenidos.

Toda la información sobre meta etiquetas están disponibles en Metaetiquetas: Google Webmasters

Canonical

Google, Bing y Yahoo acordaron una meta etiqueta que facilitará identificar el contenido original y descartar, a fines de ser procesadas, aquellas páginas que duplicaban esos contenidos.

Es una opción normalizada y fácil de aplicar aunque se deben evitar confusiones en su aplicación pues puede generar penalizaciones.

Hoy en día casi todos los gestores de contenidos la incorporan como una opción a instalar y aplicar en todas aquellas páginas que duplican contenido. Puedes consultar todo sobre canonical y su aplicación en Acerca del re="canonical"

Opción recomendable y muy en uso en estos momentos. La única dificultad que le veo es con respecto a visualizar la marcación de esta etiqueta. Me explico.

Hay herramientas como Seofirefox que facilitan ver las páginas que tienen activadas las meta etiquetas NOFOLLOW o NOINDEX , generalmente la podemos ver en rojo, facilitando detectar la activación de dichas etiquetas.

Si usamos canonical tenemos que estar al tanto, en el código HTML, de la activación de esta etiqueta.

Parámetros URL

Finalmente comentarlas la opción disponible en las Herramientas Google Webmasters que permite informarle al buscador todos aquellos parámetros que tenemos en las URL del sitio Web y establecer reglas para su procesamiento o no por el buscador.

No es una opción compleja de instalar y facilita generalizar la aplicación de reglas de acuerdo a los parámetros que tenemos definidos. Más información sobre esta opción en: Parámetros de URL

La desventaja que le veo: no es un modelo normalizado, es decir, sólo te sirve para Google y aunque nos parezca mentira, hay otros buscadores.

martes, 8 de octubre de 2013

Optimizar contenidos duplicados

¿Por qué tanto problema con los contenidos duplicados?

Opciones para evitar el procesamiento del contenido duplicado

Robots.txt

Nofollow, noindex

Canonical

Parámetros URL

Entradas relacionadas:

No hay comentarios:

Publicar un comentario

SEO Técnico - Interés

Análisis SEO