sábado, 1 de octubre de 2011

Lo que se de Google Panda - Actualización del algoritmo - I parte

De Adrián Coutin

Shirley Mclean escribió su autobiografía bajo el titulo "Lo que se de mi" pero aquí no encontrarán la biografía de la actualización del algoritmo de Google, conocido como Google Panda, aquí encontrarán mis observaciones acerca de esta actualización y algunas ideas de las técnicas de recuperación de información que pueden estar siendo utilizadas en dicha actualización.




Las especulaciones en este post van orientadas hacia ideas técnicas no así hacia especulaciones conspirativas ni empresariales, ya tenemos bastante con los mercados financieros, la bolsa, etc.

Pruebas para conocer a Google


Como he comentado antes en este blog, conferencias y demás, las restricciones de calidad en los contenidos en inglés son mucho mayor que en español y esto está dado por el volumen de contenidos a procesar e indexar.

En la medida en que los contenidos en español se empiecen a aproximar a cifras mayores se verán más y mayores restricciones para posicionar páginas Web.

Así mismo en la medida en que los índices sean más grandes y competitivos el costo por clic de la publicidad se incrementará y por tanto los resultados orgánicos deben ser de mayor calidad, y así todo el fenómeno que suelo llamar "cascada Google"

Mi trabajo SEO con sitios Web en inglés en el sector de viajes hizo que desde la aplicación del algoritmo para ese mercado comenzara a darle seguimiento al tema en un sitio Web de pruebas, al cual he sometido tradicionalmente a las penalizaciones que Google prometía controlar con Panda:

 Contenido Duplicado: Google le declaró la guerra hace ya hace un tiempo y desde el 2005 posee patentes que cubren la posibilidad de detectar contenidos similares no sólo en una misma Web sino también en todo el conjunto de sitios Web que se encuentren procesados en sus bases de datos.

Granjas de contenido: Asociado al fenómeno de contenidos duplicados las granjas de contenidos nunca fueron del agrado de Google, y mucho menos aquellas que sólo aportaban como 'valor añadido' publicidad Adsense. No obstante Google no podía, antes de Panda, detectarlas con precisión.

Redes de sitios Web: Otro enemigo declarado de Google y al cual, de una manera u otra, podemos asociar también a la duplicación de contenidos. Las redes de sitios Web buscan posicionar por una o varias palabras clave un grupo de sitios pertenecientes a una misma empresa. De esta forma muchas empresas lograban cubrir las 3 o 6 primeras posiciones de búsquedas de hoteles, vuelos, etc.

Programas de afiliados: Google no se opone a la afiliación pero si a la mala afiliación, es decir, aquella que distribuye contenidos similares y servicios idénticos que ha hecho que 2 o 3 empresas lleguen a controlar búsquedas con muy alta conversión e ingresos.  La afiliación puede estar enmarcada dentro de la duplicación de contenidos de sitios Web y/o en el tema de redes de sitios, por lo que puede caer en fuego cruzado.

 Como puedes ver Google tenía varias cosas pendientes que resolver en el tintero y su equipo técnico estaba trabajando en buscar soluciones a estos problemas. Y Panda es la respuesta a estos problemas.

Observaciones sobre Google Panda


Todos los reportes sobre la entrada en acción del algoritmo de Google Panda señalaban una caída rápida y sostenida por todas aquellas posiciones logradas utilizando palabras clave cortas y largas de contenidos duplicados disponibles en las Web, ya fueran páginas de destinos o paginas que se generaban dinamicamente con fragmentos de contenidos duplicados.

No importaba la calidad del esquema de organización ni la diferenciación en metatags aplicados (incluyendo aqui los títulos). Tampoco se respetaban elementos claves del SEO offpages como son los enlaces de calidad. Google estaba 'cargandose' su propio invento, el Page Rank. Esto podía indicar que la actualización del algoritmo era la más grande que Google había hecho desde su lanzamiento. Y así es.

El sitio Web de pruebas comenzó a tener caídas sostenidas en su fluctuante tráfico desde Febrero del 2011. Las únicas palabras clave que mantuvieron tráfico fueron aquellas asociadas al dominio, lo cual me aclaró que los objetivos de Panda son selectivos y por tener afectaciones por contenidos duplicados o cualquier otro fenómeno que penalizaba el dominio, no entraba en sus objetivos afectar el dominio en general ni su evaluación de enlaces.

Con la entrada de Google Panda tampoco detecté caídas en las visitas de Googlebot ni el cese de su incesante rastreo. Googlebot es el trabajador más destacado de Google y desde luego uno de sus mejores inventos.

Los contenidos más afectados eran aquellos que estaban vínculados a 'granjas de contenidos' o con debilidad en sus esquemas de organización. Estos últimos habían logrado algún posicionamiento antes de Panda por palabras clave o expresiones muy largas (long tails), generalmente diseñadas a responder preguntas de los googleros. Ejemplo: ¿qué atracciones interesantes puedo visitar en Londres?

Por lo demás todos los contenidos afectados tenían aceptables marcaciones de título, palabras clave, meta descripciones, etc. excepto las páginas dinámicas generadas con fragmentos de los artículos que habían sido clasificadas omo contenidos duplicados.

No fueron afectados por Google Panda:


- Contenidos originales colocados en buenos esquemas de organización y navegación.

- Contenidos no 100% originales pero con muy fuertes enlaces (PR =5) y desde sitios Web con dominios educacionales.

- Contenidos ubicados en contextos con valor añadido y que tradicionalmente habían tenido buena aceptación y muy bajo índice de rechazo (bounce rate).

- Ninguno de los contenidos no afectados habían tenido alguna promoción en redes sociales.

Revisé la mayor cantidad de indicadores posibles pero sin resultados que pudieran dar una pista de las variables que utilizaba el buscador en Panda. Sólo podía observar a través de Google Analytics las caídas de tráfico y en Google Webmaster las caídas en impresiones.

 ¿Qué hay detrás de Google Panda?

De todas las revisiones y análisis sólo pude sacar estas conclusiones:
  • Los cambios introducidos en el algoritmo estaban funcionando basados en los datos almacenados por Google y no generaban reacciones atípicas en sus mecanismos de recolección de información.
  • Google había aumentado su capacidad de comparar textos ubicados en páginas Web sin una relación directa vía enlaces, dirección IP, datos de registros de dominios, etc. que tradicionalmente habían utilizado para controlar los fenómenos de duplicación de contenidos, afiliación, etc.
  • Para poder hacer los análisis de duplicidad de contenidos en los volúmenes de información que almacena Google se debía haber producido cambios en el hardware de sus centros de datos.
  • Es muy altamente probable que Google estuviera utilizando algoritmos de similitud, capaces de establecer similitudes entre elevados volúmenes de información detectando incluso la calidad de contenidos. 
  • Panda actualizaba el criterio de la calidad en Google e incluso sacrificando su piedra angular de evaluación, Page Rank, que ya había ido sufriendo actualizaciones producto de las manipulaciones de los SEO.
La segunda  y tercera parte parte de este trabajo en:

Lo que se de Google Panda - II
Lo que se de Google Panda - III

Si estas interesado en más detalles y actualizaciones de Google Panda así como buscar soluciones para salir de este te animo que revises la sección Google Panda de este blog. 

No hay comentarios:

Publicar un comentario en la entrada