/[webpac2]/trunk/run.pl
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/run.pl

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 675 by dpavlin, Wed Sep 13 17:32:49 2006 UTC revision 706 by dpavlin, Mon Sep 25 14:06:49 2006 UTC
# Line 7  use File::Temp qw/tempdir/; Line 7  use File::Temp qw/tempdir/;
7  use lib './lib';  use lib './lib';
8    
9  use WebPAC::Common 0.02;  use WebPAC::Common 0.02;
10  use WebPAC::Lookup 0.03;  use WebPAC::Parser 0.04;
11  use WebPAC::Input 0.11;  use WebPAC::Input 0.11;
12  use WebPAC::Store 0.03;  use WebPAC::Store 0.03;
13  use WebPAC::Normalize 0.11;  use WebPAC::Normalize 0.11;
14  use WebPAC::Output::TT;  use WebPAC::Output::TT;
15  use WebPAC::Validate 0.06;  use WebPAC::Validate 0.06;
16  use WebPAC::Output::MARC;  use WebPAC::Output::MARC;
17  use YAML qw/LoadFile/;  use WebPAC::Config;
18  use Getopt::Long;  use Getopt::Long;
19  use File::Path;  use File::Path;
20  use Time::HiRes qw/time/;  use Time::HiRes qw/time/;
# Line 105  my $offset; Line 105  my $offset;
105  my $limit;  my $limit;
106    
107  my $clean = 0;  my $clean = 0;
108  my $config = 'conf/config.yml';  my $config_path;
109  my $debug = 0;  my $debug = 0;
110  my $only_filter;  my $only_filter;
111  my $stats = 0;  my $stats = 0;
# Line 119  my $merge = 0; Line 119  my $merge = 0;
119    
120  my $log = _new WebPAC::Common()->_get_logger();  my $log = _new WebPAC::Common()->_get_logger();
121    
 my $hostname = `hostname`;  
 chomp($hostname);  
 $hostname =~ s/\..+$//;  
 if (-e "conf/$hostname.yml") {  
         $config = "conf/$hostname.yml";  
         $log->info("using host configuration file: $config");  
 }  
   
122  GetOptions(  GetOptions(
123          "limit=i" => \$limit,          "limit=i" => \$limit,
124          "offset=i" => \$offset,          "offset=i" => \$offset,
125          "clean" => \$clean,          "clean" => \$clean,
126          "one=s" => \$only_filter,          "one=s" => \$only_filter,
127          "only=s" => \$only_filter,          "only=s" => \$only_filter,
128          "config" => \$config,          "config" => \$config_path,
129          "debug+" => \$debug,          "debug+" => \$debug,
130          "stats" => \$stats,          "stats" => \$stats,
131          "validate=s" => \$validate_path,          "validate=s" => \$validate_path,
# Line 146  GetOptions( Line 138  GetOptions(
138          "merge" => \$merge,          "merge" => \$merge,
139  );  );
140    
141  $config = LoadFile($config);  my $config = new WebPAC::Config( path => $config_path );
142    
143  #print "config = ",dump($config) if ($debug);  #print "config = ",dump($config) if ($debug);
144    
145  die "no databases in config file!\n" unless ($config->{databases});  die "no databases in config file!\n" unless ($config->databases);
146    
147  $log->info( "-" x 79 );  $log->info( "-" x 79 );
148    
# Line 171  $validate = new WebPAC::Validate( Line 163  $validate = new WebPAC::Validate(
163  ) if ($validate_path);  ) if ($validate_path);
164    
165    
166  my $use_indexer = $config->{use_indexer} || 'hyperestraier';  my $use_indexer = $config->use_indexer;
167  if ($stats) {  if ($stats) {
168          $log->debug("option --stats disables update of indexing engine...");          $log->debug("option --stats disables update of indexing engine...");
169          $use_indexer = undef;          $use_indexer = undef;
# Line 182  if ($stats) { Line 174  if ($stats) {
174  # disable indexing when creating marc  # disable indexing when creating marc
175  $use_indexer = undef if ($marc_normalize);  $use_indexer = undef if ($marc_normalize);
176    
177    # parse normalize files and create source files for lookup and normalization
178    
179    my $parser = new WebPAC::Parser( config => $config );
180    
181  my $total_rows = 0;  my $total_rows = 0;
182  my $start_t = time();  my $start_t = time();
183    
# Line 192  if ($parallel) { Line 188  if ($parallel) {
188          Proc::Queue::size($parallel);          Proc::Queue::size($parallel);
189  }  }
190    
191  while (my ($database, $db_config) = each %{ $config->{databases} }) {  while (my ($database, $db_config) = each %{ $config->databases }) {
192    
193          my ($only_database,$only_input) = split(m#/#, $only_filter) if ($only_filter);          my ($only_database,$only_input) = split(m#/#, $only_filter) if ($only_filter);
194          next if ($only_database && $database !~ m/$only_database/i);          next if ($only_database && $database !~ m/$only_database/i);
# Line 212  while (my ($database, $db_config) = each Line 208  while (my ($database, $db_config) = each
208                  my $cfg_name = $use_indexer;                  my $cfg_name = $use_indexer;
209                  $cfg_name =~ s/\-.*$//;                  $cfg_name =~ s/\-.*$//;
210    
211                  my $indexer_config = $config->{$cfg_name} || $log->logdie("can't find '$cfg_name' part in confguration");                  my $indexer_config = $config->get( $cfg_name ) || $log->logdie("can't find '$cfg_name' part in confguration");
212                  $indexer_config->{database} = $database;                  $indexer_config->{database} = $database;
213                  $indexer_config->{clean} = $clean;                  $indexer_config->{clean} = $clean;
214                  $indexer_config->{label} = $db_config->{name};                  $indexer_config->{label} = $db_config->{name};
# Line 280  while (my ($database, $db_config) = each Line 276  while (my ($database, $db_config) = each
276          my $abs_path = abs_path($0);          my $abs_path = abs_path($0);
277          $abs_path =~ s#/[^/]*$#/#;          $abs_path =~ s#/[^/]*$#/#;
278    
279          my $db_path = $config->{webpac}->{db_path} . '/' . $database;          my $db_path = $config->get('webpac')->{db_path} . '/' . $database;
280    
281          if ($clean) {          if ($clean) {
282                  $log->info("creating new database '$database' in $db_path");                  $log->info("creating new database '$database' in $db_path");
# Line 309  while (my ($database, $db_config) = each Line 305  while (my ($database, $db_config) = each
305                  $log->info("database $database doesn't have inputs defined");                  $log->info("database $database doesn't have inputs defined");
306          }          }
307    
         my @supported_inputs = keys %{ $config->{webpac}->{inputs} };  
   
308          foreach my $input (@inputs) {          foreach my $input (@inputs) {
309    
310                  next if ($only_input && ($input->{name} !~ m#$only_input#i && $input->{type} !~ m#$only_input#i));                  next if ($only_input && ($input->{name} !~ m#$only_input#i && $input->{type} !~ m#$only_input#i));
311    
312                  my $type = lc($input->{type});                  my $type = lc($input->{type});
313    
314                  die "I know only how to handle input types ", join(",", @supported_inputs), " not '$type'!\n" unless (grep(/$type/, @supported_inputs));                  die "I know only how to handle input types ", join(",", $config->webpac('inputs') ), " not '$type'!\n" unless (grep(/$type/, $config->webpac('inputs')));
315    
316                  my $lookup;                  my $input_module = $config->webpac('inputs')->{$type};
                 if ($input->{lookup}) {  
                         $lookup = new WebPAC::Lookup(  
                                 lookup_file => $input->{lookup},  
                         );  
                         delete( $input->{lookup} );  
                 }  
317    
318                  my $input_module = $config->{webpac}->{inputs}->{$type};                  my @lookups = $parser->have_lookup_create($database, $input);
319    
320                  $log->info("working on input '$input->{name}' in $input->{path} [type: $input->{type}] using $input_module",                  $log->info("working on input '$input->{name}' in $input->{path} [type: $input->{type}] using $input_module",
321                          $input->{lookup} ? "lookup '$input->{lookup}'" : ""                          @lookups ? "lookup ".join(", ", @lookups) : ""
322                  );                  );
323    
324    warn "lookups = ", dump( @lookups );
325    
326                  if ($stats) {                  if ($stats) {
327                          # disable modification of records if --stats is in use                          # disable modification of records if --stats is in use
328                          delete($input->{modify_records});                          delete($input->{modify_records});
329                          delete($input->{modify_file});                          delete($input->{modify_file});
330                  }                  }
331    
332                    warn "parser->depends = ", dump( $parser->{depends} );
333                    warn "depends on: ", dump( $parser->depends($database, $input->{name}) );
334                    warn "lookup_create_rules = ", dump( $parser->lookup_create_rules($database, $input->{name}) );
335                    warn "parser->_lookup_create = ", dump( $parser->{_lookup_create} );
336    
337                    my $lookup;
338    
339                  my $input_db = new WebPAC::Input(                  my $input_db = new WebPAC::Input(
340                          module => $input_module,                          module => $input_module,
341                          encoding => $config->{webpac}->{webpac_encoding},                          encoding => $config->webpac('webpac_encoding'),
342                          limit => $limit || $input->{limit},                          limit => $limit || $input->{limit},
343                          offset => $offset,                          offset => $offset,
344                          lookup_coderef => sub {                          lookup_coderef => sub {
# Line 355  while (my ($database, $db_config) = each Line 352  while (my ($database, $db_config) = each
352                  );                  );
353                  $log->logdie("can't create input using $input_module") unless ($input);                  $log->logdie("can't create input using $input_module") unless ($input);
354    
355                    if (defined( $input->{lookup} )) {
356                            $log->warn("$database/", $input->{name}, " has depriciated lookup definition, removing it...");
357                            delete( $input->{lookup} );
358                    }
359    
360                  my $maxmfn = $input_db->open(                  my $maxmfn = $input_db->open(
361                          path => $input->{path},                          path => $input->{path},
362                          code_page => $input->{encoding},        # database encoding                          code_page => $input->{encoding},        # database encoding
# Line 453  while (my ($database, $db_config) = each Line 455  while (my ($database, $db_config) = each
455                                  $indexer->add(                                  $indexer->add(
456                                          id => $input->{name} . "/" . $mfn,                                          id => $input->{name} . "/" . $mfn,
457                                          ds => $ds,                                          ds => $ds,
458                                          type => $config->{$indexer_config}->{type},                                          type => $config->get($indexer_config)->{type},
459                                  ) if ($indexer && $ds);                                  ) if ($indexer && $ds);
460    
461                                  if ($marc) {                                  if ($marc) {

Legend:
Removed from v.675  
changed lines
  Added in v.706

  ViewVC Help
Powered by ViewVC 1.1.26