ホスト内のWebページをたどりリンクされているファイルを抜き出すスクリプト

Posted on Thu 06 August 2009 in Ruby

Hprocotを利用して、HTMLページでaタグのhref属性でリンクされているファイルを抜き出すスクリプトを書いてみた。
リンクされているのが同じホスト内のhtmlならそのhtmlもパースします。

#!ruby -Ks
require 'rubygems'
require 'hpricot'
require 'open-uri'
require 'uri'
class GetWebFile

  def initialize()
    @file_ary = []
  end

  def parse_url(url)
    root_uri = URI(url)
    begin
      doc=''
      begin
        timeout(1){
          doc = Hpricot(open(url))
        }
        rescue TimeoutError => to
          warn to
        return
      end

      (doc/"a").each do |atag|
        if atag['href'].nil …

Continue reading