ホスト内のWebページをたどりリンクされているファイルを抜き出すスクリプト
Posted on Thu 06 August 2009 in Ruby
Hprocotを利用して、HTMLページでaタグのhref属性でリンクされているファイルを抜き出すスクリプトを書いてみた。
リンクされているのが同じホスト内のhtmlならそのhtmlもパースします。
#!ruby -Ks
require 'rubygems'
require 'hpricot'
require 'open-uri'
require 'uri'
class GetWebFile
def initialize()
@file_ary = []
end
def parse_url(url)
root_uri = URI(url)
begin
doc=''
begin
timeout(1){
doc = Hpricot(open(url))
}
rescue TimeoutError => to
warn to
return
end
(doc/"a").each do |atag|
if atag['href'].nil …
Continue reading