jueves, 7 de julio de 2011

Google Panda - Buscando soluciones para el posicionamiento Web

De Adrián Coutin

Desde Febrero del 2011 la comunidad dedicada a la optimización de sitios web debe enfrentarse con el conocido 'Panda', una actualización en los algoritmos de Google que busca mejorar los resultados de las búsquedas eliminando aquellas páginas web cuyos contenidos son evaluados como dudosos, por ser copias de otros o no aportar ningún valor añadido en comparación con contenidos similares. Panda es la suma de muchos estudios y combinaciones de algoritmos que enriquecen el prestigio de Google Inc.

No es mi intención explicarles el acertijo que nos lanza Google Panda todos los días. Sólo puedo ayudarlos a unir piezas de un rompe cabezas y comentarles algunas ideas sobre posibles soluciones, tratando de identificar la mayor cantidad de métricas que pueden corregir el problema.

Todo indica que la mayor afectación ha sido dirigida hacia las 'granjas de contenidos' o la duplicación de contenidos discretamente 'maquillados' para lograr cierto grado de optimización. Esto nos señala que el buscador ha ganado en su fortaleza de comparar contenidos, identificando rápidamente similitudes y diferencias entre contenidos, evaluando variables de optimización asociadas al diseño/usabilidad, etc. 

Google observa su patrimonio

La reacción de muchos de los penalizados ha sido modificar/eliminar contenidos relacionados con 'granjas de contenidos', contenidos duplicados dentro de redes de stios web controlados por una empresa, etc. Otros han incluido diferenciaciones  buscando aportar un valor añadido propio que los diferencie de los contenidos que posee duplicado.

Google Inc. obtuvo el 31 de marzo del 2005 en Estados Unidos una  patente titulada "Information retrieval bases on historical data" que establece un sistema para identificar un documento (lease sitio web) y obtener uno o más tipos de datos 'historicos' asociados al documento.Y nada mejor que comentar esta patente si vamos a comenzar a tratar de resolver un problema como el que nos genera Panda.

El sistema que cubre esta patente genera puntuaciones para el documento de acuerdo con un conjunto de indicadores obtenidos en el procesamiento de este por parte del buscador. Esta patente, de la cual es co-autor Matt Cutts y su autor principal es Anurag Acharya,  fue considerada como eje esencial en el fenómeno conocido como 'sandbox' por el cual un sitio web de reciente creación no puede entrar rapidamente a competir por posiciones claves en el índice principal de Google. En la medida en que más acciones de optimización se hagan, el sitio web sigue en ese "cajón de arena" donde no puede competir con nadie.

¿Qué elementos "historicos"  son considerados durante el procesamiento del documento? Les menciono los que considero más importantes:

-  Fecha de creación del documento y las páginas componentes de este.
- Promedio de fechas de creación del conjunto de páginas que componen el documento.
- Promedio de tiempos en que el contenido del documento cambia y proporciones de dichos cambios en relación al conjunto de páginas que posee el documento.
- Datos relacionados con la frecuencia que el documento y sus páginas son seleccionadas dentro de un conjunto de resultados de una búsqueda. Los documentos que reciben mayor puntuación son aquellos que son seleccionados con mayor frecuencia con relación a otros que componen el conjunto de documentos resultados de la búsqueda.
- Datos historicos relacionados con los enlaces que apuntan al documento y el grado de incremento/decrecimiento de los mismos de forma que el buscador puede, conceptualmente, llegar a determinar incrementos no lógicos en el crecimiento de los mismos.

En todos los casos se considera como fecha de creación del documento y sus páginas el momento en que el buscador encuentra el documento, ya sea directamente o por haber encontrado un primer enlace hacia el mismo. En el caso de puntuaciones otorgadas como resultado de ser elegido el documento o sus páginas dentro de un conjunto de resultados de búsquedas, se valoran métricas como: total de páginas resultados de la búsqueda (llamado también tamaño del índice), las palabras clave que son objetos de preferencia, así como el incremento de la presencia del documento y sus componentes en los resultados de búsquedas.

El seguimiento y valoración de los enlaces con relación a sus fechas y el comportamiento de las mismas en determinados períodos de tiempo funcionan perfectamente y son parte impresindible del fenómeno "sandbox". La patente establece claramente el establecimiento de penalizaciones para aquellos casos en el que la longevidad de los enlaces y la fecha del documento y su grado de exposición en los resultados de búsquedas no sea congruente.

Huyendo de Panda

Para huir de Panda hay que tratar de no caer en controles como los que establece la patente anteriormente descrita. Solamente con relación a la misma les puedo comentar los siguientes riesgos en las acciones para cumplir las reglas del nuevo algoritmo:
  • Modificaciones parciales en los contenidos duplicados o vínculados a 'granjas' El dato histórico de la creación de la página y las modificaciones que se hagan pasarán a generar determinadas puntuaciones pero siempre partiendo del dato de fecha de inicio de la página, proporciones de cambios con relación a la versión original, y otros datos vínculantes del conjunto del documento.
  • Incremento de enlaces hacia las nuevas versiones de los contenidos previamente devaluados por Panda. Se conoce el histórico de enlaces que han apuntado a dicho documento así como sus proporciones de incrementos/decrecimientos en tiempo. Cualquier incremento brusco, y más en un contenido no es puesto a resultados de búsquedas, puede incrementar la penalización del buscador.
  • Eliminación de enlaces que faciliten el vínculo entre contenidos duplicados. No creo que funcione una vez detectado por Panda la similitud de los contenidos, tanto por los propios recursos de Panda de poder detectar similitudes entre contenidos sin necesidad de vincularlos vía enlaces, como de los recursos que ofrece la patente que aquí les comento.
  • Servicios de valor añadido que diferencien la particularidad del sitio web y sus contenidos. Pienso que es la opción más correcta aunque llevará su tiempo el reconocimiento del buscador dicho valor añadido. Debe evitarse un incremento brusco de enlaces desde el exterior al sitio web pero si es posible resaltar, ligeramente, el cambio dentro del sitio web.

No hay comentarios:

Publicar un comentario en la entrada