sábado, 30 de abril de 2016

Web crawler en el SEO - Iniciando el posicionamiento Web

De: Adrián Coutin

Un sitio Web comienza su posicionamiento desde el momento que lo diseñamos y lo hacemos “rastreable” para los spiders de los buscadores. Todo lo que impida o disminuya el rastreo de un sitio Web, conspira contra la indexación de las páginas Web y por ende con el posicionamiento de las mismas.

Necesitamos conocer aquellas páginas que deben estar en los índices de Google o cualquier buscador, y aquellas que, por su objetivo (confidencialidad, carpetas con ficheros técnicos, contenido duplicado, etc) no deben estar en ningún índice de los buscadores.

Mediante nodos y su conexión se repreenta el trabajo de un crawler
Representación gráfica del trabajo de un crawler/spider procesando páginas Web


Hoy en día Google, por ser el líder del mercado de buscadores, y su potente robot, Googlebot, concentra los trabajos de posicionamiento Web. No obstante, existen diversos rastreadores que debemos conocer y decidir si nos convienen o merecen ser bloqueados (por ejemplo, crawlers de pruebas).

Existen diversas formas de gestionar el trabajo de los rastreadores en un sitio Web.

El fichero robots.txt


Controla el acceso de los rastreadores a tu Web. Permite bloquear la indexación de búsquedas de carpetas, subcarpetas o páginas en específico. El acceso a este fichero está controlado por lo que su modificación puede tomar tiempo.

Existe bastante información de cómo configurar el robots.txt y aquí te incluyo uno de los enlaces más importantes sobre el tema robots.txt

Los gestores de contenido (CMS) poseen, por lo general, un fichero robots.txt con los ficheros y carpetas propietarios que debes bloquear.

Ejemplo de la configuración de robots.txt del CMS Magento:

## robots.txt for Magento Community and Enterprise
## GENERAL SETTINGS
## Enable robots.txt rules for all crawlers
User-agent: *
## Crawl-delay parameter: number of seconds to wait between successive requests to the same server.
## Set a custom crawl rate if you're experiencing traffic problems with your server.
# Crawl-delay: 30
## Magento sitemap: uncomment and replace the URL to your Magento sitemap file
# Sitemap: http://www.example.com/sitemap/sitemap.xml
## DEVELOPMENT RELATED SETTINGS
## Do not crawl development files and folders: CVS, svn directories and dump files
Disallow: /CVS
Disallow: /*.svn$
Disallow: /*.idea$
Disallow: /*.sql$
Disallow: /*.tgz$
## GENERAL MAGENTO SETTINGS
## Do not crawl Magento admin page
Disallow: /admin/


Y así un total de 200 líneas que bloquean ficheros propios del CMS.

Si este fichero no incluye como mínimo esas carpetas y ficheros los rastreadores procesarán todas esas páginas afectando el tiempo de procesamiento de la Web por parte del crawler, “crawl budget” y, lógicamente, los contenidos de estos ficheros y carpetas técnicas se publicarán en los índices de los buscadores.

En este caso, a este fichero robots.txt, le añades las nuevos ficheros y carpetas que deseas bloquear.

Metaetiqueta Noindex en el código html de las páginas

 

Es una forma de decirle a un crawler que una página no sea procesada por el buscador.

Su uso es muy común en los gestores de contenido (CMS) de cualquier tipo. Son fáciles de aplicar por parte de los editores/gestores de la Web. Este es su principal riesgo, es fácil de utilizar, y en ocasiones se ha colocado en la página de inicio o home de la Web un 'noindex' con catastróficos resultados.

Google advierte la necesidad de que aquellas páginas que posean la metaetiqueta “noindex” no debe aparecer bloqueada también en el fichero robots.txt.  Más información en Metaetiqueta noindex
 

Dificultades para el rastreo de páginas Web 

 

Existen diversas formas que afectan el rastreo de la Web. Al ser formas que, casi siempre, son desconocimiento de las limitaciones del código, diseños, etc. son muy peligrosas pues demoran su detección.
  • Enlaces con Javascript. 
Google ha mejorado mucho el procesamiento de Javascript no obstante sigue confrontando problemas para la valoración de los enlaces que se encuentran en Javascript.

En diversas pruebas que he realizado Googlebot ha sido capaz de encontrar la url, logra registrar el contenido, pero no la valoración que recibe ese enlace.

También el texto del enlace no es correctamente valorado lo que se traduce que, en el índice de resultados de Google, esa página no aparece por los temas que está relacionada vía etiqueta de enlace.
  • Enlaces bajo imágenes
Ocurre algo parecido a los enlaces con Javascript. Googlebot es capaz de rastrearlos pero sin la etiqueta textual del enlace. Provoca una nula presencia en los resultados de búsquedas de cualquier buscador.
  • Enlaces (y contenidos) en iFrames
 Los motores de búsquedas tienen serias dificultades para procesar este tipo de estructura. Los contenidos incluidos en iFrames y Frames son escasamente procesables para un spiders.

No deben usarse en un contenido que se desea indezar en buscadores, mucho menos incluir enlaces dentro de ellos.

Finalmente comentarles que Google Search Console nos permite conocer el estado de indexación de nuestra web y que es necesario revisarlo frecuentemente para comprobar cómo va el procesamiento de las páginas Web.

No hay comentarios:

Publicar un comentario en la entrada