3, 2, 1... GoogleBot, la araña de Google

GoogleBot

Googlebot (generalmente conocido como "araña") es el robot de rastreo web de Google el cual añade información al índice de Google.

El proceso de rastreo de Googlebot comienza con una lista de URL de páginas web generada a partir de procesos de rastreo anteriores y se amplía con los datos de los sitemaps que ofrecen los webmasters.

A medida que Googlebot visita cada uno de esos sitios web, detecta enlaces (src y href) en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Más Información (Googlebot by Google):  Pulse Aquí

¿Cómo bloquear el acceso de GoogleBot al contenido de tu sitio?

Bloquear GoogleBot

Resulta prácticamente imposible no publicar enlaces a un servidor web para mantenerlo en secreto.

En el momento en que un usuario utilice un enlace de tu servidor "secreto" para acceder a otro servidor web, tu URL "secreta" podrá aparecer en la etiqueta de referencia, y el otro servidor web podrá almacenarla y publicarla en su registro de referencia.

Disponemos de varias opciones para evitar que la araña de Google rastree el contenido de tu sitio, nosotros vamos a tratar la opción del fichero robots.txt. De todas formas, en el siguiente video puede ver las alternativas que nos presenta Matt Cutts ("GurúGoogle").

Matt Cutts nos explica las alternativas para bloquear contenido a GoogleBot

En el video se nos presenta una recomendación (Utilice una metaetiqueta "noindex" para evitar que determinado contenido aparezca en los resultados de búsqueda). De todas formas, vamos a introducirnos sobre el tratamiento del fichero robots.txt.

Cómo bloquear o eliminar páginas con un archivo robots.txt

archivo robots.txt

El fichero robots.txt retringe el acceso a partes de un sitio web a los robots de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder al contenido de un sitio, verifican si existen el fichero robots.txt que les impida el acceso a determinadas páginas y/o carpetas.

Es decir, el archivo robots.txt solo es necesario si tu sitio incluye contenido que no quieres que los motores de búsqueda indexen. Si vas a permitir la indexación de tu sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta "robots".

¿Cómo crear un archivo robots.txt?

Para no extendernos, vamos a explicar las reglas más básicas y dejamos al lector el enlace de Google por si quiere documentarse más extensamente.

El archivo robots.txt más simple utiliza dos reglas:

  • User-Agent: el robot al que se aplica la siguiente regla.
  • Disallow: la URL que quieres bloquear.

Expongamos un ejemplo (fichero robots.txt):

User-agent: *
Disallow: /carpeta1/
Disallow: /img/perros.jpg

En la primera línea expecificamos el tratamiento del acceso a todos los rastreadores de contenido para la Web.

En la segunda línea especificamos que queda totalmente bloqueado todo el contenido que haya en esa carpeta.

Y en la tercera y última línea ocultamos la indexación de la imagen perros.jpg que tenemos guardada en la carpeta img de nuestro servidor (por ejemplo de esta forma la imagen no saldría en Google Imágenes).

Más Información (Cómo bloquear o eliminar páginas con un archivo robots.txt by Google):  Pulse Aquí
Good PlayGround!! d:-D

No hay comentarios

Con la tecnología de Blogger.