Conversation

今更ぷららのホームページサービスもアーカイブを試みる。
Googleで
site:www{1~20}.plala.or.jp -filetype:html -filetype:htm -filetype:pdf
site:www{1~20}.plala.or.jp/*/index.html
site:www{1~20}.plala.or.jp/*/index.htm
で検索すれば、だいたい全サイト見つかるだろうという見立て。
参考: https://wiki.archiveteam.org/index.php/Plala

1
0
0

こういう妙なことをやるとすぐGoogle先生にロボット扱いされる……。

1
0
0

www1は件数少なめ。古くて削除済みのサイトが多いとか?

1
0
0

移転済みのサイトはその旨だけメモってスルー。

1
0
0

移転もリダイレクトとかじゃなくて普通にリンク貼ってるだけだったりするので目視でチェック(笑)。

1
0
0
@meandherv2 www1は208件、username重複を消すと162件。それは分かったがどうしようか。ここ数日生活リズム崩壊してて頭が働かん……。
1
0
0

@meandherv2@infosec.place
とりあえず何も考えず既知のURLを起点にしてgrab-siteでクロール……。

1
0
0

@meandherv2@infosec.place
www1とwww2のローカルへのアーカイブが終わった。ファイルサイズはめちゃくちゃ小さいが、なんだかんだでファイル数は結構多い。

0
0
0