/[webpac2]/trunk/run.pl
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/run.pl

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 431 by dpavlin, Mon Apr 17 15:10:04 2006 UTC revision 742 by dpavlin, Sun Oct 8 00:38:10 2006 UTC
# Line 4  use strict; Line 4  use strict;
4    
5  use Cwd qw/abs_path/;  use Cwd qw/abs_path/;
6  use File::Temp qw/tempdir/;  use File::Temp qw/tempdir/;
 use Data::Dumper;  
7  use lib './lib';  use lib './lib';
8    
9  use WebPAC::Common 0.02;  use WebPAC::Common 0.02;
10  use WebPAC::Lookup;  use WebPAC::Parser 0.07;
11  use WebPAC::Input 0.03;  use WebPAC::Input 0.13;
12  use WebPAC::Store 0.03;  use WebPAC::Store 0.11;
13  use WebPAC::Normalize::XML;  use WebPAC::Normalize 0.22;
14  use WebPAC::Output::TT;  use WebPAC::Output::TT;
15  use YAML qw/LoadFile/;  use WebPAC::Validate 0.06;
16    use WebPAC::Output::MARC;
17    use WebPAC::Config;
18  use Getopt::Long;  use Getopt::Long;
19  use File::Path;  use File::Path;
20  use Time::HiRes qw/time/;  use Time::HiRes qw/time/;
21    use File::Slurp;
22    use Data::Dump qw/dump/;
23    use Storable qw/dclone/;
24    
25    use Proc::Queue size => 1;
26    use POSIX ":sys_wait_h"; # imports WNOHANG
27    
28  =head1 NAME  =head1 NAME
29    
# Line 40  limit loading to 100 records Line 47  limit loading to 100 records
47    
48  remove database and Hyper Estraier index before indexing  remove database and Hyper Estraier index before indexing
49    
50  =item --only=database_name  =item --only=database_name/input_filter
51    
52  reindex just single database (legacy name is --one)  reindex just single database (legacy name is --one)
53    
54    C</input_filter> is optional part which can be C<name>
55    or C<type> from input
56    
57  =item --config conf/config.yml  =item --config conf/config.yml
58    
59  path to YAML configuration file  path to YAML configuration file
60    
61    =item --stats
62    
63    disable indexing, modify_* in configuration and dump statistics about field
64    and subfield usage for each input
65    
66    =item --validate path/to/validation_file
67    
68    turn on extra validation of imput records, see L<WebPAC::Validation>
69    
70    =item --marc-lint
71    
72    By default turned on if normalisation file has C<marc*> directives. You can disable lint
73    messages with C<--no-marc-lint>.
74    
75    =item --marc-dump
76    
77    Force dump or input and marc record for debugging.
78    
79    =item --parallel 4
80    
81    Run databases in parallel (aproximatly same as number of processors in
82    machine if you want to use full load)
83    
84    =item --only-links
85    
86    Create just links
87    
88    =item --merge
89    
90    Create merged index of databases which have links
91    
92  =back  =back
93    
94  =cut  =cut
# Line 56  my $offset; Line 97  my $offset;
97  my $limit;  my $limit;
98    
99  my $clean = 0;  my $clean = 0;
100  my $config = 'conf/config.yml';  my $config_path;
101  my $debug = 0;  my $debug = 0;
102  my $only_db_name;  my $only_filter;
103    my $stats = 0;
104    my $validate_path;
105    my $marc_lint = 1;
106    my $marc_dump = 0;
107    my $parallel = 0;
108    my $only_links = 0;
109    my $merge = 0;
110    
111    my $log = _new WebPAC::Common()->_get_logger();
112    
113  GetOptions(  GetOptions(
114          "limit=i" => \$limit,          "limit=i" => \$limit,
115          "offset=i" => \$offset,          "offset=i" => \$offset,
116          "clean" => \$clean,          "clean" => \$clean,
117          "one=s" => \$only_db_name,          "one=s" => \$only_filter,
118          "only=s" => \$only_db_name,          "only=s" => \$only_filter,
119          "config" => \$config,          "config" => \$config_path,
120          "debug" => \$debug,          "debug+" => \$debug,
121            "stats" => \$stats,
122            "validate=s" => \$validate_path,
123            "marc-lint!" => \$marc_lint,
124            "marc-dump!" => \$marc_dump,
125            "parallel=i" => \$parallel,
126            "only-links!" => \$only_links,
127            "merge" => \$merge,
128  );  );
129    
130  $config = LoadFile($config);  my $config = new WebPAC::Config( path => $config_path );
131    
132  print "config = ",Dumper($config) if ($debug);  #print "config = ",dump($config) if ($debug);
133    
134  die "no databases in config file!\n" unless ($config->{databases});  die "no databases in config file!\n" unless ($config->databases);
135    
136    $log->info( "-" x 79 );
137    
138    
139    my $estcmd_fh;
140    my $estcmd_path = './estcmd-merge.sh';
141    if ($merge) {
142            open($estcmd_fh, '>', $estcmd_path) || $log->logdie("can't open $estcmd_path: $!");
143            print $estcmd_fh 'cd /data/estraier/_node/ || exit 1',$/;
144            print $estcmd_fh 'sudo /etc/init.d/hyperestraier stop',$/;
145            $log->info("created merge batch file $estcmd_path");
146    }
147    
148    
149    my $validate;
150    $validate = new WebPAC::Validate(
151            path => $validate_path,
152    ) if ($validate_path);
153    
 my $log = _new WebPAC::Common()->_get_logger();  
154    
155  my $use_indexer = $config->{use_indexer} || 'hyperestraier';  my $use_indexer = $config->use_indexer;
156  $log->info("using $use_indexer indexing engine...");  if ($stats) {
157            $log->debug("option --stats disables update of indexing engine...");
158            $use_indexer = undef;
159    } else {
160            $log->info("using $use_indexer indexing engine...");
161    }
162    
163    # parse normalize files and create source files for lookup and normalization
164    
165    my $parser = new WebPAC::Parser( config => $config );
166    
167  my $total_rows = 0;  my $total_rows = 0;
168  my $start_t = time();  my $start_t = time();
169    
170  while (my ($database, $db_config) = each %{ $config->{databases} }) {  my @links;
171    
172    if ($parallel) {
173            $log->info("Using $parallel processes for speedup");
174            Proc::Queue::size($parallel);
175    }
176    
177    sub create_ds_config {
178            my ($db_config, $database, $input, $mfn) = @_;
179            my $c = dclone( $db_config );
180            $c->{_} = $database || $log->logconfess("need database");
181            $c->{_mfn} = $mfn || $log->logconfess("need mfn");
182            $c->{input} = $input || $log->logconfess("need input");
183            return $c;
184    }
185    
186    while (my ($database, $db_config) = each %{ $config->databases }) {
187    
188          next if ($only_db_name && $database !~ m/$only_db_name/i);          my ($only_database,$only_input) = split(m#/#, $only_filter) if ($only_filter);
189            next if ($only_database && $database !~ m/$only_database/i);
190    
191            if ($parallel) {
192                    my $f=fork;
193                    if(defined ($f) and $f==0) {
194                            $log->info("Created processes $$ for speedup");
195                    } else {
196                            next;
197                    }
198            }
199    
200          my $indexer;          my $indexer;
201            if ($use_indexer) {
202    
203          my $indexer_config = $config->{$use_indexer} || $log->logdie("can't find '$use_indexer' part in confguration");                  my $cfg_name = $use_indexer;
204          $indexer_config->{database} = $database;                  $cfg_name =~ s/\-.*$//;
         $indexer_config->{clean} = $clean;  
         $indexer_config->{label} = $db_config->{name};  
   
         if ($use_indexer eq 'hyperestraier') {  
   
                 # open Hyper Estraier database  
                 use WebPAC::Output::Estraier '0.10';  
                 $indexer = new WebPAC::Output::Estraier( %{ $indexer_config } );  
           
         } elsif ($use_indexer eq 'kinosearch') {  
205    
206                  # open KinoSearch                  my $indexer_config = $config->get( $cfg_name ) || $log->logdie("can't find '$cfg_name' part in confguration");
207                  use WebPAC::Output::KinoSearch;                  $indexer_config->{database} = $database;
208                  $indexer = new WebPAC::Output::KinoSearch( %{ $indexer_config } );                  $indexer_config->{clean} = $clean;
209                    $indexer_config->{label} = $db_config->{name};
210    
211          } else {                  # force clean if database has links
212                  $log->logdie("unknown use_indexer: $use_indexer");                  $indexer_config->{clean} = 1 if ($db_config->{links});
213    
214                    if ($use_indexer eq 'hyperestraier') {
215    
216                            # open Hyper Estraier database
217                            use WebPAC::Output::Estraier '0.10';
218                            $indexer = new WebPAC::Output::Estraier( %{ $indexer_config } );
219                    
220                    } elsif ($use_indexer eq 'hyperestraier-native') {
221    
222                            # open Hyper Estraier database
223                            use WebPAC::Output::EstraierNative;
224                            $indexer = new WebPAC::Output::EstraierNative( %{ $indexer_config } );
225    
226                    } elsif ($use_indexer eq 'kinosearch') {
227    
228                            # open KinoSearch
229                            use WebPAC::Output::KinoSearch;
230                            $indexer_config->{clean} = 1 unless (-e $indexer_config->{index_path});
231                            $indexer = new WebPAC::Output::KinoSearch( %{ $indexer_config } );
232    
233                    } else {
234                            $log->logdie("unknown use_indexer: $use_indexer");
235                    }
236    
237                    $log->logide("can't continue without valid indexer") unless ($indexer);
238          }          }
239    
240          $log->logide("can't continue without valid indexer") unless ($indexer);  
241            #
242            # store Hyper Estraier links to other databases
243            #
244            if (ref($db_config->{links}) eq 'ARRAY' && $use_indexer) {
245                    foreach my $link (@{ $db_config->{links} }) {
246                            if ($use_indexer eq 'hyperestraier') {
247                                    if ($merge) {
248                                            print $estcmd_fh 'sudo -u www-data estcmd merge ' . $database . ' ' . $link->{to},$/;
249                                    } else {
250                                            $log->info("saving link $database -> $link->{to} [$link->{credit}]");
251                                            push @links, sub {
252                                                    $log->info("adding link $database -> $link->{to} [$link->{credit}]");
253                                                    $indexer->add_link(
254                                                            from => $database,
255                                                            to => $link->{to},
256                                                            credit => $link->{credit},
257                                                    );
258                                            };
259                                    }
260                            } else {
261                                    $log->warn("NOT IMPLEMENTED WITH $use_indexer: adding link $database -> $link->{to} [$link->{credit}]");
262                            }
263                    }
264            }
265            next if ($only_links);
266    
267    
268          #          #
269          # now WebPAC::Store          # now WebPAC::Store
# Line 119  while (my ($database, $db_config) = each Line 271  while (my ($database, $db_config) = each
271          my $abs_path = abs_path($0);          my $abs_path = abs_path($0);
272          $abs_path =~ s#/[^/]*$#/#;          $abs_path =~ s#/[^/]*$#/#;
273    
274          my $db_path = $config->{webpac}->{db_path} . '/' . $database;          my $db_path = $config->webpac('db_path');
275    
276          if ($clean) {          if ($clean) {
277                  $log->info("creating new database $database in $db_path");                  $log->info("creating new database '$database' in $db_path");
278                  rmtree( $db_path ) || $log->warn("can't remove $db_path: $!");                  rmtree( $db_path ) || $log->warn("can't remove $db_path: $!");
279          } else {          } else {
280                  $log->debug("working on $database in $db_path");                  $log->info("working on database '$database' in $db_path");
281          }          }
282    
283          my $db = new WebPAC::Store(          my $store = new WebPAC::Store(
284                  path => $db_path,                  path => $db_path,
                 database => $database,  
285                  debug => $debug,                  debug => $debug,
286          );          );
287    
# Line 148  while (my ($database, $db_config) = each Line 299  while (my ($database, $db_config) = each
299                  $log->info("database $database doesn't have inputs defined");                  $log->info("database $database doesn't have inputs defined");
300          }          }
301    
         my @supported_inputs = keys %{ $config->{webpac}->{inputs} };  
   
302          foreach my $input (@inputs) {          foreach my $input (@inputs) {
303    
304                    my $input_name = $input->{name} || $log->logdie("input without a name isn't valid: ",dump($input));
305    
306                    next if ($only_input && ($input_name !~ m#$only_input#i && $input->{type} !~ m#$only_input#i));
307    
308                  my $type = lc($input->{type});                  my $type = lc($input->{type});
309    
310                  die "I know only how to handle input types ", join(",", @supported_inputs), " not '$type'!\n" unless (grep(/$type/, @supported_inputs));                  die "I know only how to handle input types ", join(",", $config->webpac('inputs') ), " not '$type'!\n" unless (grep(/$type/, $config->webpac('inputs')));
311    
312                  my $lookup = new WebPAC::Lookup(                  my $input_module = $config->webpac('inputs')->{$type};
313                          lookup_file => $input->{lookup},  
314                  );                  my @lookups = $parser->have_lookup_create($database, $input);
315    
316                  my $input_module = $config->{webpac}->{inputs}->{$type};                  $log->info("working on input '$input_name' in $input->{path} [type: $input->{type}] using $input_module",
317                            @lookups ? " creating lookups: ".join(", ", @lookups) : ""
318                    );
319    
320                  $log->info("working on input '$input->{path}' [$input->{type}] using $input_module lookup '$input->{lookup}'");                  if ($stats) {
321                            # disable modification of records if --stats is in use
322                            delete($input->{modify_records});
323                            delete($input->{modify_file});
324                    }
325    
326                  my $input_db = new WebPAC::Input(                  my $input_db = new WebPAC::Input(
327                          module => $input_module,                          module => $input_module,
328                          code_page => $config->{webpac}->{webpac_encoding},                          encoding => $config->webpac('webpac_encoding'),
329                          limit => $limit || $input->{limit},                          limit => $limit || $input->{limit},
330                          offset => $offset,                          offset => $offset,
                         lookup => $lookup,  
331                          recode => $input->{recode},                          recode => $input->{recode},
332                            stats => $stats,
333                            modify_records => $input->{modify_records},
334                            modify_file => $input->{modify_file},
335                  );                  );
336                  $log->logdie("can't create input using $input_module") unless ($input);                  $log->logdie("can't create input using $input_module") unless ($input);
337    
338                    if (defined( $input->{lookup} )) {
339                            $log->warn("$database/$input_name has depriciated lookup definition, removing it...");
340                            delete( $input->{lookup} );
341                    }
342    
343                    my $lookup_coderef;
344    
345                    if (@lookups) {
346    
347                            my $rules = $parser->lookup_create_rules($database, $input) || $log->logdie("no rules found for $database/$input");
348    
349                            $lookup_coderef = sub {
350                                    my $rec = shift || die "need rec!";
351                                    my $mfn = $rec->{'000'}->[0] || die "need mfn in 000";
352    
353                                    $store->save_row(
354                                            database => $database,
355                                            input => $input_name,
356                                            id => $mfn,
357                                            row => $rec,
358                                    );
359    
360                                    WebPAC::Normalize::data_structure(
361                                            row => $rec,
362                                            rules => $rules,
363                                            config => create_ds_config( $db_config, $database, $input, $mfn ),
364                                    );
365    
366                                    #warn "current lookup: ", dump(WebPAC::Normalize::_get_lookup());
367                            };
368    
369                            WebPAC::Normalize::_set_lookup( undef );
370    
371                            $log->debug("created lookup_coderef using:\n$rules");
372    
373                    };
374    
375                    my $lookup_jar;
376    
377                  my $maxmfn = $input_db->open(                  my $maxmfn = $input_db->open(
378                          path => $input->{path},                          path => $input->{path},
379                          code_page => $input->{encoding},        # database encoding                          code_page => $input->{encoding},        # database encoding
380                            lookup_coderef => $lookup_coderef,
381                            lookup => $lookup_jar,
382                            %{ $input },
383                  );                  );
384    
385                  my $n = new WebPAC::Normalize::XML(                  my $lookup_data = WebPAC::Normalize::_get_lookup();
                 #       filter => { 'foo' => sub { shift } },  
                         db => $db,  
                         lookup_regex => $lookup->regex,  
                         lookup => $lookup,  
                         prefix => $input->{name},  
                 );  
386    
387                  my $normalize_path = $input->{normalize}->{path};                  if (defined( $lookup_data->{$database}->{$input_name} )) {
388                            $log->debug("created following lookups: ", dump( $lookup_data ));
389    
390                  if ($normalize_path =~ m/\.xml$/i) {                          foreach my $key (keys %{ $lookup_data->{$database}->{$input_name} }) {
391                          $n->open(                                  $store->save_lookup(
392                                  tag => $input->{normalize}->{tag},                                          database => $database,
393                                  xml_file => $input->{normalize}->{path},                                          input => $input_name,
394                          );                                          key => $key,
395                  } elsif ($normalize_path =~ m/\.(?:yml|yaml)$/i) {                                          data => $lookup_data->{$database}->{$input_name}->{$key},
396                          $n->open_yaml(                                  );
397                                  path => $normalize_path,                          }
398                                  tag => $input->{normalize}->{tag},                  }
399    
400                    my $report_fh;
401                    if ($stats || $validate) {
402                            my $path = "out/report/${database}-${input_name}.txt";
403                            open($report_fh, '>', $path) || $log->logdie("can't open $path: $!");
404    
405                            print $report_fh "Report for database '$database' input '$input_name' records ",
406                                    $offset || 1, "-", $limit || $input->{limit} || $maxmfn, "\n\n";
407                            $log->info("Generating report file $path");
408                    }
409    
410                    my $marc;
411                    if ($parser->generate_marc( $database, $input_name )) {
412                            $marc = new WebPAC::Output::MARC(
413                                    path => "out/marc/${database}-${input_name}.marc",
414                                    lint => $marc_lint,
415                                    dump => $marc_dump,
416                          );                          );
417                  }                  }
418    
419                    my $rules = $parser->normalize_rules($database,$input_name) || $log->logdie("no normalize rules found for $database/$input_name");
420                    $log->debug("parsed normalize rules:\n$rules");
421    
422                    # reset position in database
423                    $input_db->seek(1);
424    
425                    # generate name of config key for indexer (strip everything after -)
426                    my $indexer_config = $use_indexer;
427                    $indexer_config =~ s/^(\w+)-?.*$/$1/g if ($indexer_config);
428    
429                    my $lookup_hash;
430                    my $depends = $parser->depends($database,$input_name);
431            
432                    if ($depends) {
433                            $log->debug("$database/$input_name depends on: ", dump($depends)) if ($depends);
434                            $log->logdie("parser->depends didn't return HASH") unless (ref($depends) eq 'HASH');
435    
436                            foreach my $db (keys %$depends) {
437                                    foreach my $i (keys %{$depends->{$db}}) {
438                                            foreach my $k (keys %{$depends->{$db}->{$i}}) {
439                                                    $log->debug("loading lookup $db/$i");
440                                                    $lookup_hash->{$db}->{$i}->{$k} = $store->load_lookup(
441                                                            database => $db,
442                                                            input => $i,
443                                                            key => $k,
444                                                    );
445                                            }
446                                    }
447                            }
448    
449                            $log->debug("lookup_hash = ", dump( $lookup_hash ));
450                    }
451    
452    
453                  foreach my $pos ( 0 ... $input_db->size ) {                  foreach my $pos ( 0 ... $input_db->size ) {
454    
455                          my $row = $input_db->fetch || next;                          my $row = $input_db->fetch || next;
# Line 213  while (my ($database, $db_config) = each Line 462  while (my ($database, $db_config) = each
462                                  push @{ $row->{'000'} }, $pos;                                  push @{ $row->{'000'} }, $pos;
463                          }                          }
464    
465                          my $ds = $n->data_structure($row);  
466                            if ($validate) {
467                                    if ( my $errors = $validate->validate_errors( $row, $input_db->dump ) ) {
468                                            $log->error( "MFN $mfn validation error:\n",
469                                                    $validate->report_error( $errors )
470                                            );
471                                    }
472                            }
473    
474                            my $ds = WebPAC::Normalize::data_structure(
475                                    row => $row,
476                                    rules => $rules,
477                                    lookup => $lookup_hash,
478                                    config => create_ds_config( $db_config, $database, $input, $mfn ),
479                                    marc_encoding => 'utf-8',
480                                    load_row_coderef => sub {
481                                            my ($database,$input,$mfn) = @_;
482                                            return $store->load_row(
483                                                    database => $database,
484                                                    input => $input,
485                                                    id => $mfn,
486                                            );
487                                    },
488                            );
489    
490                            $log->debug("ds = ",dump($ds)) if ($ds);
491    
492                            $store->save_ds(
493                                    database => $database,
494                                    input => $input_name,
495                                    id => $mfn,
496                                    ds => $ds,
497                            ) if ($ds && !$stats);
498    
499                          $indexer->add(                          $indexer->add(
500                                  id => $input->{name} . "/" . $mfn,                                  id => "${input_name}/${mfn}",
501                                  ds => $ds,                                  ds => $ds,
502                                  type => $config->{$use_indexer}->{type},                                  type => $config->get($indexer_config)->{type},
503                          );                          ) if ($indexer && $ds);
504    
505                            if ($marc) {
506                                    my $i = 0;
507    
508                                    while (my $fields = WebPAC::Normalize::_get_marc_fields( fetch_next => 1 ) ) {
509                                            $marc->add(
510                                                    id => $mfn . ( $i ? "/$i" : '' ),
511                                                    fields => $fields,
512                                                    leader => WebPAC::Normalize::marc_leader(),
513                                                    row => $row,
514                                            );
515                                            $i++;
516                                    }
517    
518                                    $log->info("Created $i instances of MFN $mfn\n") if ($i > 1);
519                            }
520    
521                          $total_rows++;                          $total_rows++;
522                  }                  }
523    
524          };                  if ($validate) {
525                            my $errors = $validate->report;
526                            if ($errors) {
527                                    $log->info("validation errors:\n$errors\n" );
528                                    print $report_fh "$errors\n" if ($report_fh);
529                            }
530                    }
531    
532                    if ($stats) {
533                            my $s = $input_db->stats;
534                            $log->info("statistics of fields usage:\n$s");
535                            print $report_fh "Statistics of fields usage:\n$s" if ($report_fh);
536                    }
537    
538                    # close MARC file
539                    $marc->finish if ($marc);
540    
541                    # close report
542                    close($report_fh) if ($report_fh)
543    
544            }
545    
546            eval { $indexer->finish } if ($indexer && $indexer->can('finish'));
547    
548          my $dt = time() - $start_t;          my $dt = time() - $start_t;
549          $log->info("$total_rows records indexed in " .          $log->info("$total_rows records ", $indexer ? "indexed " : "",
550                  sprintf("%.2f sec [%.2f rec/sec]",                  sprintf("in %.2f sec [%.2f rec/sec]",
551                          $dt, ($total_rows / $dt)                          $dt, ($total_rows / $dt)
552                  )                  )
553          );          );
554    
555          #  
556          # add Hyper Estraier links to other databases          # end forked process
557          #          if ($parallel) {
558          if (ref($db_config->{links}) eq 'ARRAY') {                  $log->info("parallel process $$ finished");
559                  foreach my $link (@{ $db_config->{links} }) {                  exit(0);
                         if ($use_indexer eq 'hyperestraier') {  
                                 $log->info("adding link $database -> $link->{to} [$link->{credit}]");  
                                 $indexer->add_link(  
                                         from => $database,  
                                         to => $link->{to},  
                                         credit => $link->{credit},  
                                 );  
                         } else {  
                                 $log->warn("NOT IMPLEMENTED WITH $use_indexer: adding link $database -> $link->{to} [$link->{credit}]");  
                         }  
                 }  
560          }          }
561    
562  }  }
563    
564    if ($parallel) {
565            # wait all children to finish
566            sleep(1) while wait != -1;
567            $log->info("all parallel processes finished");
568    }
569    
570    #
571    # handle links or merge after indexing
572    #
573    
574    if ($merge) {
575            print $estcmd_fh 'sudo /etc/init.d/hyperestraier start',$/;
576            close($estcmd_fh);
577            chmod 0700, $estcmd_path || $log->warn("can't chmod 0700 $estcmd_path: $!");
578            system $estcmd_path;
579    } else {
580            foreach my $link (@links) {
581                    $log->logdie("coderef in link ", Dumper($link), " is ", ref($link), " and not CODE") unless (ref($link) eq 'CODE');
582                    $link->();
583            }
584    }

Legend:
Removed from v.431  
changed lines
  Added in v.742

  ViewVC Help
Powered by ViewVC 1.1.26