Wayback Machine:一个从1996年至今备份了超过4000亿个网页的网页时光机
简介
这个网站很有趣,在逗比那里看到的,网页时光机Wayback Machine,基本就是定期备份了所有网站的快照,供人查询,对于很多有网站的人来说,也可以看看当初自己网站的样子,回忆一下,其中内页也能访问,很强大。
网站地址:http://web.archive.org/
注意:这个网站被墙,需要挂梯子访问。
使用方法
首先访问网站:http://web.archive.org/ ,然后在屏幕中的输入框中输入你要查看的网站域名,例如:baidu.com。
输入后就会看到网站在搜索这个域名的快照备份信息,找到后就会如下图所示:
中间的是年份范围,下面的是月份日份范围。
下图是查询到的2002年11月19号的百度首页:
网站时光机与 Cloudflare 合作,方便取得更大量的库存网页
俗话说「凡走过必留下痕迹」,而在网络上负责留下这个「痕迹」的,非「网站时光机(The Wayback Machine)」莫属了。这个由非营利组织「互联网文件馆(The Internet Archive)」所建立的数码数据库,自 2001 年来持续不断地爬找、备份整个网络上所有的网页,不仅为所有看得到的页面都留下备份,还能看到同一个页面在不同时期的样貌,至今已经库存了超过 4,680 亿个网页了。
网站时光机取得页面的方式,原先主要有两种。一个是由使用者自行上传网址到网站时光机,另一个则是通过机器人定时去爬找并存下所有的链接和对应的页面。如今网站时光机宣布了将与 Cloudflare 合作,新增第三种取得的方式 —— Cloudflare 提供的「Always Online」服务。这个服务将客户的网页存成静态的页面,放在 Cloudflare 的服务器上,让客户在自己的服务断线时,还能由 Cloudflare 提供备援。当客户把要备援的网页提供给 Cloudflare 时,Cloudflare 就会顺便将网址传一份给网站时光机了,除了协助扩大网站时光机的库藏之外,也能在 Cloudflare 自身出问题时,担当「备援的备援」。
目前网站时光机每天都要爬取十亿个链结,目前不清楚的是 Cloudflare 所提供的新链结当中,有多少是与现有重复的。但不论如何,这都意味着网站时光机将能备份更多的网站与网页,为后代留下更多网络时代早年的纪录吧。