martes, 28 de junio de 2011

Penalizaciones Google - Contenido Duplicado y ahora Panda

De Adrián Coutin

En sus inicios Google fue un buscador muy dado a mostrar su entonces arma fundamental para oraganizar eficientemente  los resultados de búsquedas. Al ser resultado de una investigación académica su tecnología fue comentada y estudiada ampliamente. The Anatomy of a Large-Scale Hypertextual Web Search Engine es una de las tesis más citadas en el mundo de los estudiosos de los sistemas de recuperación de información en Internet. No obstante los tiempos cambian y más cuando aquel producto se convirtió en el principal buscador de todo el mundo, con ingresos muy elevados a cualquier expectativa que levantara en 1998.

Diversos algoritmos han sido desarrollados o comprados por Google Inc. para poder perfeccionar cada día los resultados que muestran a sus usuarios. Desde el 2005 - 2006 la Google logró identificar contenidos duplicados sobre todo disponibles dentro del propio sitio web. Fue el momento en que aquellos contenidos seccionados en diversas páginas sufrieron caídas de tráfico, sobre todo en los contenidos situados a partir de la segunda página de una misma sección.

También la tecnología Google logró identificar la duplicación de contenidos dentro de una página anidada dentro de otra, de ahí la recomendación a todos los blogers de sólo mostrar un resumen del contenido de un post en la página principal del blog. De lo contrario su blog puede ser considerado como generador de contenido duplicado.

Los esquemas de navegación y de organización débiles de los sitios web pueden llevar a consideraciones del tipo de contenidos duplicados o de escaso valor, y de esta forma los algoritmos logran limpiar aun más los resultados de búsquedas. Eso sí en índices temáticos de escaso contenido Google suele ser benevolente. Puedes encontrarte páginas web que dejan mucho que desear por palabras clave de escaso valor.

Algunos generadores de spam suelen 'optimizar' por estas palabras clave páginas web de sus desarrollos personales para captar algún tipo de tráfico (casi siempre con nula conversión).

La conocida actualización  Panda de Google comenzó a ser detectada en Febrero del 2011 en EE.UU, con importantes caídas de tráfico en los sitios afectados. Matt Cutts, Jefe de Spam en Google, define así la actualización Panda "Esta actualización está diseñada para reducir el ranking de sitios de baja calidad - los cuales tienen un bajo valor añadido a los usuarios, copian contenidos de un sitio web a otro, o sitios que no son muy útiles. Al mismo tiempo, Panda ofrecerá mejor ranking a aquellos sitios web de calidad - sitios con contenidos originales e información como investigaciones, estudios y análisis profundidos y así sucesivamente." Fuente: Google Panda Update Survival Guide

Desde el punto de vista técnico diversas patentes, incluyendo la que comenzó a ser aplicada en el 2005 - 2006 para detectar contenidos duplicados en un propio sitio web, pueden ser consideradas como las bases técnicas de este nuevo algoritmo. Pienso que quizás haya tardado más su aplicación por la cantidad de recursos computacionales necesarios para ejecutarlo, pues para Panda es necesario hacer comparaciones de similitud y diferenciación de contenidos. Y todo indica que llego el momento de aplicar la nueva arma; y Google Inc. ha sido extraordinario en la combinación de algoritmos sofisticados con la plataforma técnica adecuada.

¿Qué es lo que hay que hacer para no caer en Panda? Matt Cutts lo ha dicho, calidad y valor añadido en lo que ofreces. Debes evitar copiar contenidos, no hacer redes de sitios que ofrecen el mismo contenido, y marcar la originalidad de tus contenidos. La nueva marcación sobre autoría de contenido, leer mi post Google y la marcación Autorship - Luchando por la calidad va encaminada a facilitar la identicación de autoría en los sitios Web, tema que no sólo puede ser tema de un libro sino también de varias telenovelas con final inesperado.

6 comentarios:

  1. Me pareció un post interesante, con la llegada del Panda las webs de calidad y contenido propio estarán más arriba, a ver si es verdad, porque sigo viendo webs automáticas con miles de visitas al dia y webs con contenido propio que no consiguen despegar. Una de ellas es mi web, nose si entró en algun filtro, porque no es normal la cantidad de enlaces que tiene y el poco tráfico que recibe, se llama juegostt.com y te dejo mi correo ya que veo que eres SE0 y tal vez necesite uno, rolander50@hotmail.com, Saludos.

    ResponderEliminar
  2. Hola Rolander50,

    Muchas gracias por tu post.

    Panda comenzo a ser aplicado a los contenidos en español recientemente por lo que el se debe ir perfeccionando en las próximas semanas. De momento te puedo decir que en Google News en español ya se notan las diferencias.

    Revisaré el sitio que me envias y te comentaré via email.

    saludos

    ResponderEliminar
  3. Hola Adrian, han pasado dos meses desde la penalización y todavía sigue igual. No sé que habrá podido pasar, si tienes tiempo te agradecería que ojearas un poco, tienes mi email en el correo anterior.

    Un saludo y suerte!

    ResponderEliminar
  4. vale, lo revisaré, creo que la vez pasada te comenté que todos o una parte de los enlaces que tenias hacia tu sitio web eran de escaso valor. si eso no lo cambias no creo que logres despegar.

    saludos

    ResponderEliminar
  5. Para juegostt, lo que sucede es que con los últimos cambios de Google Panda, el está tomando mas el contenido duplicado y Google Penguin ve enlaces de calidad a tu web. Cuales son los de calidad son los que se consideran naturales, los naturales vendrán de sitios dofollow en cuyo anchor text esté tu marca (tu dominio) y en el caso de enlaces dofollow debes aplicar las palabras clave por cuales debe ser encontrado... la optimización interna de tu sitio determinará el posicionamiento web. Espero haberme explicado, cualquier cosa puedes consultarme en wrojas@seoestudio.com un saludo y buen artículo.

    ResponderEliminar
  6. sí.. la buena arquitectura de información se transforma en un correcto procesamiento del sitio, mejor valoración pero eso es independiente a panda.

    panda persigue muy bien los contenidos duplicados de ahí que se afectaron muchos afiliados que duplicaban contenido.

    sobre la forma de valorar los enlaces.. evitar la sobre optimización con las palabras clave, el abuso de cualquier nombre, incluyendo la nombre del dominio del sitio.

    los enlaces con nofollow no son valorados por el buscador, por ejemplo el que esta puesto en tu comentario aqui no tiene ningún valor pues está bajo un nofollow.

    saludos !!!

    ResponderEliminar