Como ler matérias bloqueadas de sites?

Alguns sites, como dos jornais, Folha e O Globo, bloqueiam o acesso aos artigos depois de um certo número de leituras. Mas e agora, será que não conseguirei ler a notícia?

Pensando nisso, imaginamos uma forma de permitir a leitura deste conteúdo. Os websites respondem através do protocolo http, só que o navegador processa os sites. No processamento, o navegador armazena cookies e variáveis de sessão, e é isso que bloqueia o seu acesso. Então fizemos um pequeno teste no linux, que funcionou, e depois foi só arrumar a versão do software que nos permite esse feito. Nós usamos o famoso wget.

WGET: https://eternallybored.org/misc/wget/

Basta escolher entre as plataformas 32bits ou 64bits e, extrair para a pasta C:\Windows\System32, assim qualquer janela do terminal, em qualquer pasta, consegue ser executado. Segue a sintaxe do comando e uma linha de comando de exemplo:

C:\> wget <URL> -O <ARQUIVO-DE-SAIDA>

C:\> wget http://www1.folha.uol.com.br/fsp/poder/225954-tse-cruza-dados-eleitorais-e-presidenciais-de-dilma.shtml -O .\tsecruzadilma.html

Feito isso, é só abrir com o navegador o arquivo gerado, no caso “tsecruzadilma.html” e sua notícia estará disponível para leitura.

Simples não?!

Etiquetas: , ,
  1. Olá, muito obrigado pelo artigo. Fiquei com uma dúvida. Essa barra invertida em ‘.\tsecruzadilma.html’ não deveria ser barra normal ‘./tsecruzadilma.html’?

Leave a Reply