Categories
Internet, Unix en security Privacy & veiligheid

De Wayback Machine en robots

Een iniatief zoals Internet Archive met de Wayback Machine is natuurlijk leuk en interessant, maar kan ook nare gevolgen hebben voor in de toekomst. Het is natuurlijk altijd leuk om te zien hoe websites er vroeger uitzagen, maar veel juristen gebruiken ook steeds meer het Internet en zo ook de Wayback Machine als bewijs in rechtzaken. En nu kan je ook veel informatie halen uit de cache van bv Google, maar dat is alleen de laatste versie en om data bij Google weg te krijgen gaat vrij gemakkelijk en vlot. Bij de Wayback Machine gaat dat wat lastiger en blijkt al snel dat het alleen Scientology is gelukt om pagina’s uit het archief te laten verwijderen. Een gedachte die niet prettig is gezien de veranderende wereld.

Gelukkig kan je met behulp van een extra bestand in je documentroot met de naam robots.txt wat leuke dingen uithalen. Een daarvan is bijvoorbeeld om Internet Archive uit te sluiten van verzamelen en tonen van de documenten die al gearchiveerd zijn. En andere voorbeelden zijn uiteraard snel zelf te bedenken.


User-agent: ia_archiver
Disallow: /

Het voorbeeld laat zien welke regels er aan het bestand robots.txt moeten worden toegevoegd.

By Hans Spaans

Unix & security consultant with a passion for Linux, Solaris, PostgreSQL, Perl and network services, but also a strong believer in open and free source, standards and content.