Wayback Machine APIでドメインの調べ方

ドメインの履歴をチェックする際、Wayback Machine APIを使用すれば、ブラウザのみで簡単に調べることができます。

使い方は、以下のURLにクエリを指定してアクセスするだけです。

https://web.archive.org/cdx/search/cdx?url=

例えば、当ブログは「blog-tips.net/blog/」なので、以下のようにアクセスします。

https://web.archive.org/cdx/search/cdx?url=blog-tips.net/blog/

そうしますと、以下の結果が表示されますが、2009年6月4日1時57分13秒に最初にデータが保存されたことがわかります。

通常のWayback Machineでチェックすると、ウェブページの過去のキャプチャを閲覧することができますが、こちらのAPIではサイト自体は表示されないため、表示が速く、サクサク調べることができます。

デフォルトでは「exact」なので、そのURLのみが表示されます。一方、「&matchType=prefix」などとパラメータを指定すると、そのURL以下の前方一致で保存されているすべてのURLが表示されます。ただし、この場合は膨大な量となってしまうため、「&limit=200」などと、表示数に制限をかけてアクセスします。

https://web.archive.org/cdx/search/cdx?url=blog-tips.net/blog/&matchType=prefix&limit=200

さらに、上記の場合、個別ページの年月に応じた重複のデータが表示されてしまいます。当ブログでいいますと、アルファベット順のA行のarchives.htmlページだけで50個ほど表示されますが、「&collapse=urlkey」で重複を除外して最初の保存データのみを表示させれば、全てのページのデータを表示させることができます。

https://web.archive.org/cdx/search/cdx?url=blog-tips.net/blog/&matchType=prefix&limit=200&collapse=urlkey

加えて、さらに上記の場合、画像などもヒットしてしまうため、「&filter=mimetype:text/html」でHTMLページのみでフィルタをかけると以下のようになります。

https://web.archive.org/cdx/search/cdx?url=blog-tips.net/blog/&matchType=prefix&limit=200&collapse=urlkey&filter=mimetype:text/html

さらに、「&fl=timestamp,urlkey,original」などと指定して、表示項目をタイムスタンプやURLのみで制限してスッキリ表示させることもできます。

https://web.archive.org/cdx/search/cdx?url=blog-tips.net/blog/&matchType=prefix&limit=200&collapse=urlkey&filter=mimetype:text/html&fl=timestamp,urlkey,original

この項目には、以下の"URL", "時刻", "オリジナルURL", "MIMEタイプ", "ステータスコード", "一意の識別コード", "サイズ"がありますので、必要な項目だけ、カンマで表示させればよいと思います。

["urlkey","timestamp","original","mimetype","statuscode","digest","length"]

また、データのサイズ量が大幅に変更になっている場合には、ドメインの所有者が変更になった可能性が高いです。

そのほか、&from=2009&to=2010などと期間を区切って表示させることもできます。

PythonでHTTPリクエストでデータを取得することもできますが、上記の方法ですと、ブラウザからcdxサーバーにアクセスすればいいだけなので簡単に利用することができます。

ちなみに、Wayback Machineはインターネットアーカイブが運営する様々なサービスのうちの1つです。インターネットアーカイブのAPIにも様々ありますが、ウェブページのキャプチャに関しては、Wayback Machine APIを使用した方が使いやすいと思います。