/[Search-Estraier]/trunk/scripts/est-spider
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/scripts/est-spider

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 179 by dpavlin, Fri Aug 25 11:59:04 2006 UTC revision 197 by dpavlin, Fri Jan 5 22:19:01 2007 UTC
# Line 20  my $exclude; Line 20  my $exclude;
20  my $debug = 0;  my $debug = 0;
21  my $force = 0;  my $force = 0;
22  my $all = 0;  my $all = 0;
23    my $skip_images = 0;
24    
25  my $result = GetOptions(  my $result = GetOptions(
26          "collection=s" => \$collection,          "collection=s" => \$collection,
# Line 29  my $result = GetOptions( Line 30  my $result = GetOptions(
30          "exclude=s" => \$exclude,          "exclude=s" => \$exclude,
31          "force!" => \$force,          "force!" => \$force,
32          "all!" => \$all,          "all!" => \$all,
33            "skip-images!" => \$skip_images,
34  );  );
35    
36  my ($node_url,$dir) = @ARGV;  my ($node_url,$dir) = @ARGV;
# Line 40  options: Line 42  options:
42          --collection="name of collection"          --collection="name of collection"
43          --path=/path/to/add/at/end          --path=/path/to/add/at/end
44          --exclude=regex_to_exclude          --exclude=regex_to_exclude
45            --skip-images
46          --verbose          --verbose
47          --force          --force
48          --debug          --debug
# Line 61  my $start_t = time(); Line 64  my $start_t = time();
64  my $filter;  my $filter;
65  foreach my $f (qw/pdftotext pstotext/) {  foreach my $f (qw/pdftotext pstotext/) {
66          my $w = which($f);          my $w = which($f);
67          if ($f) {          if ($w) {
68                  $filter->{$f} = $w;                  $filter->{$f} = $w;
69                  print STDERR "using $f filter at $w\n" if ($verbose);                  print STDERR "using $f filter at $w\n" if ($verbose);
70          }          }
# Line 122  if ($hhc_file) { Line 125  if ($hhc_file) {
125    
126                  $n->{path} = $path;                  $n->{path} = $path;
127    
128                  my $nr = $n->{ImageNumber} || next;                  my $nr = $n->{ImageNumber} || return $n;
129    
130                  if ($nr == 27) {                  if ($nr == 27) {
131                          $meta->{title} = $n->{Name};                          $meta->{title} = $n->{Name};
# Line 237  sub dump_contents { Line 240  sub dump_contents {
240    
241          if ($contents) {          if ($contents) {
242                  # html2text                  # html2text
243                    $contents =~ s#<script.*?</script>##gis;
244                  $contents =~ s#<[^>]+/*>##gs;                  $contents =~ s#<[^>]+/*>##gs;
245                  $contents =~ s#\s\s+# #gs;                  $contents =~ s#\s\s+# #gs;
246    
# Line 309  sub file { Line 313  sub file {
313          return if (! $all && -d $path);          return if (! $all && -d $path);
314    
315          my $mtime = (stat($path))[9] || -1;          my $mtime = (stat($path))[9] || -1;
316          my $mtime_db = eval { $db->get_doc_attr_by_uri("file:///$path", '@mtime') };          my $mtime_db;
317            eval { $db->get_doc_attr_by_uri("file:///$path", '@mtime') } unless ($force);
318          $mtime_db ||= -2;          $mtime_db ||= -2;
319    
320          if ($mtime == $mtime_db) {          if ($mtime == $mtime_db) {
# Line 344  sub file { Line 349  sub file {
349                          warn "skipping '$path', no pstotext filter\n" if ($verbose);                          warn "skipping '$path', no pstotext filter\n" if ($verbose);
350                          return;                          return;
351                  }                  }
352            } elsif ($type =~ m!^image/! && $skip_images) {
353                    warn "skipping image '$path'\n" if ($verbose);
354                    return; # don't index images
355          } else {          } else {
356    
357  #               return if (! -f $path || ! m/\.(html*|php|pl|txt|info|log|text)$/i);  #               return if (! -f $path || ! m/\.(html*|php|pl|txt|info|log|text)$/i);

Legend:
Removed from v.179  
changed lines
  Added in v.197

  ViewVC Help
Powered by ViewVC 1.1.26