sábado, 8 de octubre de 2011

Contenido duplicado en diferentes Webs

De Adrián Coutin

En el anterior post les había comentado tres especulaciones acerca de los cambios introducidos por Google en su nueva actualización de sus algoritmos de búsquedas.

La comparación de resultados y la identificación de similitudes consumen muchos recursos de hardware.

Este tipo de búsquedas conocidas como 'de similitud' llevan tiempo aplicándose en diversos campos como es la industria química y farmaceutica.

Ya en los años 90 era posible buscar similitudes de una estructura molecular en una base de datos con más de 10 millones de estructuras almacenadas. De esta forma se logra abreviar los procesos de evaluación de moléculas a ser utilizadas en el desarrollo de nuevos medicamentos.

Google Contenido Duplicado 2004 - 2005


Desde los años 2004 - 2005 ya Google detectaba contenidos duplicados dentro de un sitio Web partiendo de diversos elementos que componen una página Web como:

- Título
- Meta descriptor
- Esquemas de organización al que pertenece la página
- Esquema de navegación donde está insertada la página

Esquema que muestra un ejemplo de esquema de enlazado y una estimación del valor de que distribuyen esos enlaces
Esquema de enlazado interno y distribución de sus valores


También era posible, utilizando esta aproximación, bajar páginas del índice principal de búsqueda  partiendo del supuesto que las páginas que no tuvieran título y no estuvieran incluídas en un buen esquema de organización y  navegación no aportaban valor al sitio Web y por ende al buscador.

 Otras variantes para detectar contenido duplicado han sido introducidas después de estas primeras aproximaciones. Todas ellas enfocadas a depurar los resultados de las búsquedas por frases y palabras claves con elevado tráfico.

Ejemplo: Si dos sitios Web incluían un artículo con idéntico título Google seleccionaba a uno de ellos como el 'original' incluyendolo en su índice principal.

Diversos utilitarios comenzaron a ser desarrollados, al margen de Google, para poder detectar contenidos duplicados,siendo utilizados tanto por desarrolladores de sitios Web  como por los autores de contenidos que buscan reproducciones ilegales de los mismos.

Copyscape es un ejemplo de un servicio disponible en Internet donde puedes encontrar contenidos duplicados de un sitio Web y que te recomiendo utilizar si vives de la producción de contendos.


 Google Panda: Un paso adelante en la similitud de contenidos


Si ya la identificación de similitud era un arma para 'limpiar' los índices principales de Google, el perfeccionamiento de los mismos no nos debe sorprender como estudiosos de Google. Y por ahí van mis tiros.

¿Qué puede evaluar Google como similitud entre diversos sitios Web?

Representa la identificación de nodos (webs) similares
¿Cuáles son los nodos similares de un conjunto?

El primer grado de similitud puede estar dado por el tema, como tradicionalmente se hace en cualquier sistema de información. Los contenidos se agrupan por los temas que tratan y a partir de aquí se generan los índices que facilitan encontrar el contenido que deseamos.

Ya en este nivel de agrupamiento se harían comparaciones entre los textos e imágenes asociadas a las páginas Web y se identificarían patrones de similitud.

Los patrones de similitud de enlaces pueden aportar no sólo la relevancia del contenido que tratan sitios agrupados por temáticas (en parte ya eso lo hace el Page Rank) sino también las estratégias que siguen los sitios Web en la construcción de enlaces.

Es conocido que Google puede identificar redes de sitios Web de una misma organización que comparten el mismo bloque C en sus direcciones IP.

Pues ahora, con Panda, puede identificar patrones en el incremento de enlaces, similitud en etiquetas de enlaces, y otros elementos relacionados con los enlaces, detectando todos aquellos que comparten semejanzas y deduciendo su producción común.

Google también puede identificar la relación entre servicios de afiliados, ejemplo: el tracking del afiliado a un servicio de reserva de vuelos, y lograr, con este dato, encontrar todos aquellas páginas Web que comparten el mismo servicio de afiliación y compiten en los mismos indices temáticos, con patrones de similitud elevados.

Matt Cutts ha dicho sobre estas prácticas que 'no tienen valor añadido', entonces esas páginas Web pierden su grado de relevancia o posicionamiento.

En el próximo post les comentaré mis ideas para ajustar los sitios Web a las nuevas exigencias, eso sí desde ahora les digo que no hay trucos para saltarse a Panda.

No esperen que les diga que obteniendo enlaces desde Facebook van a lograr burlar a Panda.

No esperen que les diga que colocando más palabras claves en los meta keywords van a lograr salir de Panda.

Todas estas cosas quedan superadas con Google Panda, un algortimo robusto que incorpora prmanentes actualizaciones producto del aprendizaje que hace de la composición de los índices y los contenidos que lo integran.

Aquí los post en los que he ido tratando el tema de Google Panda:

Lo que se de Google Panda - I parte

Lo que se de Google Panda - III parte

Ver la sección dedicada a Google Panda para más detalles

No hay comentarios:

Publicar un comentario en la entrada