¡Hola, visitante!



Subscribite a INFORJOSITEC por Email


Subscribite a INFORJOSITEC por rss





INFORJOSITEC

INFORJOSITEC
inforjositec

Translate

viernes, 10 de abril de 2015

Rastreadores de Google

El término "rastreador" es genérico para cualquier programa (por ejemplo, un robot o una araña) utilizado para detectar y analizar automáticamente sitios web siguiendo enlaces entre páginas web. El rastreador principal de Google se llamaGooglebot. En esta tabla se incluye información sobre los rastreadores habituales de Google que puedes encontrar en tus registros de URLs de referencia y sobre cómo deben especificarse en el archivo robots.txt, en las metaetiquetas robots y en las directivas HTTP X-Robots-Tag.
RastreadorAgentes de usuarioAgente de usuario en solicitudes HTTP(S)
Googlebot(Búsqueda web de Google)GooglebotMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
o
(se utiliza con poca frecuencia): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot NewsGooglebot-News
(Googlebot)
Googlebot-News
Googlebot ImagesGooglebot-Image
(Googlebot)
Googlebot-Image/1.0
Googlebot VideoGooglebot-Video
(Googlebot)
Googlebot-Video/1.0
Google para móvilesGooglebot-Mobile[varios tipos de dispositivo móvil] (compatible; Googlebot/2.1;+http://www.google.com/bot.html)
Google para smartphonesGooglebotMozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google Mobile AdSenseMediapartners-Google

o

Mediapartners
(Googlebot)
[varios tipos de dispositivo móvil] (compatible; Mediapartners-Google/2.1+http://www.google.com/bot.html)
AdSense de GoogleMediapartners-Google
Mediapartners
(Googlebot)
Mediapartners-Google
Comprobación de la calidad de la página de destino de Google AdsBotAdsBot-GoogleAdsBot-Google (+http://www.google.com/adsbot.html)

robots.txt

Si se reconocen varios agentes de usuario en el archivo robots.txt, Google seguirá los más específicos. Si quieres que todos los rastreadores de Google puedan rastrear tus páginas, no es necesario que añadas ningún archivo robots.txt. Si quieres bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica Googlebot como agente de usuario. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, si quieres evitar que los rastreadores de Google accedan a algunas páginas, al bloquear Googlebot como agente de usuario, también se bloquearán todos los demás agentes de usuario de Google.
No obstante, si quieres realizar un control más preciso, puedes aplicar una restricción más específica. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google, pero no quieres que se rastreen imágenes de tu directorio personal, puedes configurar del siguiente modo el archivo robots.txt para evitar que el agente de usuario Googlebot-image rastree los archivos de tu directorio /personal (pero permitir que Googlebot rastree todos los archivos):
User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Veamos otro ejemplo: si quieres que se muestren anuncios en todas tus páginas, pero no quieres que esas páginas aparezcan en la Búsqueda de Google, deberías bloquear Googlebot y permitir Mediapartners-Google, tal como se muestra a continuación:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Metaetiqueta "robots"

Algunas páginas utilizan varias etiquetas meta "robots" para especificar directivas para diferentes rastreadores, tal como se muestra a continuación:
<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">
En ese caso, Google utilizará la suma de las directivas negativas, y Googlebot seguirá las directivas noindex y nofollow.

No hay comentarios :

Publicar un comentario