Como identificar “URL’s Not Crawlable” ou URL’s não rastreáveis?

Como identificar “URL’s Not Crawlable” ou URL’s não rastreáveis?

 

Definições básicas

Rastreador / (Crawler): um rastreador é um serviço ou um agente que rastreia sites. De modo geral, um rastreador acessa automática e recursivamente URLs conhecidos de um domínio que expõe conteúdo que pode ser acessado com navegadores padrão da Web. À medida que novos URLs são encontrados (por vários meios, como a partir de links em páginas existentes e rastreadas ou de arquivos do Sitemap), eles também são rastreados da mesma forma.

User Agent: um meio de identificar um rastreador específico ou um conjunto de rastreadores.
Diretivas: a lista de diretrizes aplicáveis a um rastreador ou um grupo de rastreadores estabelecidos no arquivo robots.txt.

Localização do arquivo robots.txt

O arquivo robots.txt deve estar no diretório de nível superior do host (http://www.publya.com/robots.txt), podendo ser acessado por meio do protocolo e número de porta adequado. Geralmente, os protocolos aceitos para o robots.txt (e para o rastreamento de sites) são “http” e “https”.
Observação: o URL do arquivo robots.txt faz distinção entre maiúsculas e minúsculas, como outros URLs.

Diretório indisponível

Se na consulta da URL o resultado for algum dos erros abaixo, significa que o rastreador não conseguiu localizar o diretório e por isso não fica disponível para a análise das ad exchanges.
• 401 Não autorizado
• 403 Proibido
• 404 Não encontrado
• 503 Serviço indisponível

Formato de arquivo

Os elementos válidos na descrição do arquivo, são:
user-agent: Especifica o rastreador autorizado a acessar o diretório.
disallow: Especifica caminhos que não devem ser acessados pelos rastreadores designados.
Allow: Especifica caminhos que podem ser acessados pelos rastreadores designados.
Sitemap: Arquivo ou URL de índice com o mapa do site, contendo todas as páginas do determinado domínio.

Exemplos de uso dos diretórios robots.txt

Portal Terra
https://www.terra.com.br/robots.txt
User-agent: * (definição de autorização para todos os rastreadores.)
Disallow: /lite/ (definição de caminhos que não estão autorizados para rastreamento. Ex: https://terra.com.br/lite/admin não será rastreável.)

Portal Globo.com
http://globo.com/robots.txt
User-Agent: * (definição de autorização para todos os rastreadores.)
Disallow: /beta/ (definição de caminhos que não estão autorizados para rastreamento. Ex: https://globo.com/beta/admin não será rastreável.)
Sitemap: http://www.globo.com/sitemap-image.xml (link com a lista de caminhos do portal.)

Como usar a metatag robots

A metatag robots permite que você utilize uma abordagem granular e específica em cada página para controlar como uma página individual deve ser indexada e veiculada para os usuários nos resultados da pesquisa.
Posicione a metatag robots na seção <head> de uma determinada página assim:
<!DOCTYPE html>
<html><head>
<meta name=”robots” content=”noindex, nofollow” />
(…)
</head>
<body>(…)</body>
</html>

A metatag robots do exemplo acima instrui todos os mecanismos de pesquisa a não mostrar a página nos resultados da pesquisa e não rastrear quaisquer links na página. O valor do atributo name (robots) especifica que as diretivas (noindex e nofollow) seja aplicada a todos os rastreadores. Para autorizar o rastreamento e indexação nos resultados de pesquisa, posicione a metatag robots na seção <head> de uma determinada página assim:

<!DOCTYPE html>
<html><head>
<meta name=”robots” content=”index, follow” />
(…)
</head>
<body>(…)</body>
</html>

O exemplo acima autoriza os mecanismos de pesquisa a mostrar a página nos resultados de pesquisa e rastrear os link’s da página.

Referências:
https://developers.google.com/search/reference/robots_txt?hl=pt-br#top_of_page
https://developers.google.com/search/reference/robots_meta_tag?hl=pt-br

Last Updated On maio 17, 2018
Last Updated On maio 17, 2018