/[webpac2]/trunk/lib/WebPAC/Input.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/WebPAC/Input.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 507 by dpavlin, Mon May 15 13:15:01 2006 UTC revision 636 by dpavlin, Wed Sep 6 19:25:22 2006 UTC
# Line 7  use blib; Line 7  use blib;
7    
8  use WebPAC::Common;  use WebPAC::Common;
9  use base qw/WebPAC::Common/;  use base qw/WebPAC::Common/;
 use Text::Iconv;  
10  use Data::Dumper;  use Data::Dumper;
11    use Encode qw/from_to/;
12    
13  =head1 NAME  =head1 NAME
14    
# Line 16  WebPAC::Input - read different file form Line 16  WebPAC::Input - read different file form
16    
17  =head1 VERSION  =head1 VERSION
18    
19  Version 0.05  Version 0.12
20    
21  =cut  =cut
22    
23  our $VERSION = '0.05';  our $VERSION = '0.12';
24    
25  =head1 SYNOPSIS  =head1 SYNOPSIS
26    
# Line 39  C<fetch_rec> and optional C<init> functi Line 39  C<fetch_rec> and optional C<init> functi
39    
40  Perhaps a little code snippet.  Perhaps a little code snippet.
41    
42      use WebPAC::Input;          use WebPAC::Input;
43    
44      my $db = WebPAC::Input->new(          my $db = WebPAC::Input->new(
45          module => 'WebPAC::Input::ISIS',                  module => 'WebPAC::Input::ISIS',
                 config => $config,  
                 lookup => $lookup_obj,  
46                  low_mem => 1,                  low_mem => 1,
47      );          );
48    
49      $db->open('/path/to/database');          $db->open( path => '/path/to/database' );
50          print "database size: ",$db->size,"\n";          print "database size: ",$db->size,"\n";
51          while (my $rec = $db->fetch) {          while (my $rec = $db->fetch) {
52                  # do something with $rec                  # do something with $rec
# Line 64  Create new input database object. Line 62  Create new input database object.
62    
63    my $db = new WebPAC::Input(    my $db = new WebPAC::Input(
64          module => 'WebPAC::Input::MARC',          module => 'WebPAC::Input::MARC',
65          code_page => 'ISO-8859-2',          encoding => 'ISO-8859-2',
66          low_mem => 1,          low_mem => 1,
67          recode => 'char pairs',          recode => 'char pairs',
68          no_progress_bar => 1,          no_progress_bar => 1,
69    );    );
70    
71  C<module> is low-level file format module. See L<WebPAC::Input::Isis> and  C<module> is low-level file format module. See L<WebPAC::Input::ISIS> and
72  L<WebPAC::Input::MARC>.  L<WebPAC::Input::MARC>.
73    
74  Optional parametar C<code_page> specify application code page (which will be  Optional parametar C<encoding> specify application code page (which will be
75  used internally). This should probably be your terminal encoding, and by  used internally). This should probably be your terminal encoding, and by
76  default, it C<ISO-8859-2>.  default, it C<ISO-8859-2>.
77    
# Line 96  sub new { Line 94  sub new {
94    
95          my $log = $self->_get_logger;          my $log = $self->_get_logger;
96    
97            $log->logconfess("code_page argument is not suppored any more. change it to encoding") if ($self->{lookup});
98            $log->logconfess("lookup argument is not suppored any more. rewrite call to lookup_ref") if ($self->{lookup});
99    
100          $log->logconfess("specify low-level file format module") unless ($self->{module});          $log->logconfess("specify low-level file format module") unless ($self->{module});
101          my $module = $self->{module};          my $module = $self->{module};
102          $module =~ s#::#/#g;          $module =~ s#::#/#g;
# Line 121  sub new { Line 122  sub new {
122                  $self->{init}->($self, @_);                  $self->{init}->($self, @_);
123          }          }
124    
125          $self->{'code_page'} ||= 'ISO-8859-2';          $self->{'encoding'} ||= 'ISO-8859-2';
126    
127          # running with low_mem flag? well, use DBM::Deep then.          # running with low_mem flag? well, use DBM::Deep then.
128          if ($self->{'low_mem'}) {          if ($self->{'low_mem'}) {
# Line 158  This function will read whole database i Line 159  This function will read whole database i
159    
160   $input->open(   $input->open(
161          path => '/path/to/database/file',          path => '/path/to/database/file',
162          code_page => '852',          code_page => 'cp852',
163          limit => 500,          limit => 500,
164          offset => 6000,          offset => 6000,
165          lookup => $lookup_obj,          lookup => $lookup_obj,
166          stats => 1,          stats => 1,
167            lookup_ref => sub {
168                    my ($k,$v) = @_;
169                    # store lookup $k => $v
170            },
171            modify_records => {
172                    900 => { '^a' => { ' : ' => '^b' } },
173                    901 => { '*' => { '^b' => ' ; ' } },
174            },
175            modify_file => 'conf/modify/mapping.map',
176   );   );
177    
178  By default, C<code_page> is assumed to be C<852>.  By default, C<code_page> is assumed to be C<cp852>.
179    
180  C<offset> is optional parametar to position at some offset before reading from database.  C<offset> is optional parametar to position at some offset before reading from database.
181    
# Line 173  C<limit> is optional parametar to read j Line 183  C<limit> is optional parametar to read j
183    
184  C<stats> create optional report about usage of fields and subfields  C<stats> create optional report about usage of fields and subfields
185    
186    C<lookup_coderef> is closure to call when adding C<< key => 'value' >> combinations to
187    lookup.
188    
189    C<modify_records> specify mapping from subfields to delimiters or from
190    delimiters to subfields, as well as oprations on fields (if subfield is
191    defined as C<*>.
192    
193    C<modify_file> is alternative for C<modify_records> above which preserves order and offers
194    (hopefully) simplier sintax than YAML or perl (see L</modify_file_regex>). This option
195    overrides C<modify_records> if both exists for same input.
196    
197  Returns size of database, regardless of C<offset> and C<limit>  Returns size of database, regardless of C<offset> and C<limit>
198  parametars, see also C<size>.  parametars, see also C<size>.
199    
# Line 184  sub open { Line 205  sub open {
205    
206          my $log = $self->_get_logger();          my $log = $self->_get_logger();
207    
208            $log->logconfess("lookup argument is not suppored any more. rewrite call to lookup_coderef") if ($arg->{lookup});
209            $log->logconfess("lookup_coderef must be CODE, not ",ref($arg->{lookup_coderef}))
210                    if ($arg->{lookup_coderef} && ref($arg->{lookup_coderef}) ne 'CODE');
211    
212          $log->logcroak("need path") if (! $arg->{'path'});          $log->logcroak("need path") if (! $arg->{'path'});
213          my $code_page = $arg->{'code_page'} || '852';          my $code_page = $arg->{'code_page'} || 'cp852';
214    
215          # store data in object          # store data in object
216          $self->{'input_code_page'} = $code_page;          $self->{'input_code_page'} = $code_page;
# Line 193  sub open { Line 218  sub open {
218                  $self->{$v} = $arg->{$v} if ($arg->{$v});                  $self->{$v} = $arg->{$v} if ($arg->{$v});
219          }          }
220    
         # create Text::Iconv object  
         $self->{iconv} = Text::Iconv->new($code_page,$self->{'code_page'});  
   
221          my $filter_ref;          my $filter_ref;
222            my $recode_regex;
223            my $recode_map;
224    
225          if ($self->{recode}) {          if ($self->{recode}) {
226                  my @r = split(/\s/, $self->{recode});                  my @r = split(/\s/, $self->{recode});
227                  if ($#r % 2 != 1) {                  if ($#r % 2 != 1) {
228                          $log->logwarn("recode needs even number of elements (some number of valid pairs)");                          $log->logwarn("recode needs even number of elements (some number of valid pairs)");
229                  } else {                  } else {
                         my $recode;  
230                          while (@r) {                          while (@r) {
231                                  my $from = shift @r;                                  my $from = shift @r;
232                                  my $to = shift @r;                                  my $to = shift @r;
233                                  $recode->{$from} = $to;                                  $recode_map->{$from} = $to;
234                          }                          }
235    
236                          my $regex = join '|' => keys %{ $recode };                          $recode_regex = join '|' => keys %{ $recode_map };
   
                         $log->debug("using recode regex: $regex");  
                           
                         $filter_ref = sub {  
                                 my $t = shift;  
                                 $t =~ s/($regex)/$recode->{$1}/g;  
                                 return $t;  
                         };  
237    
238                            $log->debug("using recode regex: $recode_regex");
239                  }                  }
240    
241          }          }
242    
243            my $rec_regex;
244            if (my $p = $arg->{modify_file}) {
245                    $log->debug("using modify_file $p");
246                    $rec_regex = $self->modify_file_regexps( $p );
247            } elsif (my $h = $arg->{modify_records}) {
248                    $log->debug("using modify_records ", Dumper( $h ));
249                    $rec_regex = $self->modify_record_regexps(%{ $h });
250            }
251            $log->debug("rec_regex: ", Dumper($rec_regex)) if ($rec_regex);
252    
253          my ($db, $size) = $self->{open_db}->( $self,          my ($db, $size) = $self->{open_db}->( $self,
254                  path => $arg->{path},                  path => $arg->{path},
255                  filter => $filter_ref,  #               filter => sub {
256    #                       my ($l,$f_nr) = @_;
257    #                       return unless defined($l);
258    #                       from_to($l, $code_page, $self->{'encoding'});
259    #                       $l =~ s/($recode_regex)/$recode_map->{$1}/g if ($recode_regex && $recode_map);
260    #                       return $l;
261    #               },
262                    %{ $arg },
263          );          );
264    
265          unless (defined($db)) {          unless (defined($db)) {
# Line 243  sub open { Line 276  sub open {
276          my $to_rec = $size;          my $to_rec = $size;
277    
278          if (my $s = $self->{offset}) {          if (my $s = $self->{offset}) {
279                  $log->info("skipping to MFN $s");                  $log->debug("skipping to MFN $s");
280                  $from_rec = $s;                  $from_rec = $s;
281          } else {          } else {
282                  $self->{offset} = $from_rec;                  $self->{offset} = $from_rec;
# Line 258  sub open { Line 291  sub open {
291          # store size for later          # store size for later
292          $self->{size} = ($to_rec - $from_rec) ? ($to_rec - $from_rec + 1) : 0;          $self->{size} = ($to_rec - $from_rec) ? ($to_rec - $from_rec + 1) : 0;
293    
294          $log->info("processing $self->{size}/$size records [$from_rec-$to_rec] convert $code_page -> $self->{code_page}", $self->{stats} ? ' [stats]' : '');          $log->info("processing $self->{size}/$size records [$from_rec-$to_rec] convert $code_page -> $self->{encoding}", $self->{stats} ? ' [stats]' : '');
295    
296          # read database          # read database
297          for (my $pos = $from_rec; $pos <= $to_rec; $pos++) {          for (my $pos = $from_rec; $pos <= $to_rec; $pos++) {
298    
299                  $log->debug("position: $pos\n");                  $log->debug("position: $pos\n");
300    
301                  my $rec = $self->{fetch_rec}->($self, $db, $pos );                  my $rec = $self->{fetch_rec}->($self, $db, $pos, sub {
302                                    my ($l,$f_nr) = @_;
303    #                               return unless defined($l);
304    #                               return $l unless ($rec_regex && $f_nr);
305    
306                                    $log->debug("-=> $f_nr ## $l");
307    
308                                    # codepage conversion and recode_regex
309                                    from_to($l, $code_page, $self->{'encoding'});
310                                    $l =~ s/($recode_regex)/$recode_map->{$1}/g if ($recode_regex && $recode_map);
311    
312                                    # apply regexps
313                                    if ($rec_regex && defined($rec_regex->{$f_nr})) {
314                                            $log->logconfess("regexps->{$f_nr} must be ARRAY") if (ref($rec_regex->{$f_nr}) ne 'ARRAY');
315                                            my $c = 0;
316                                            foreach my $r (@{ $rec_regex->{$f_nr} }) {
317                                                    my $old_l = $l;
318                                                    eval '$l =~ ' . $r;
319                                                    if ($old_l ne $l) {
320                                                            $log->debug("REGEX on $f_nr eval \$l =~ $r\n## old l: [$old_l]\n## new l: [$l]");
321                                                    }
322                                                    $log->error("error applying regex: $r") if ($@);
323                                            }
324                                    }
325    
326                                    $log->debug("<=- $f_nr ## $l");
327                                    return $l;
328                    });
329    
330                  $log->debug(sub { Dumper($rec) });                  $log->debug(sub { Dumper($rec) });
331    
# Line 282  sub open { Line 342  sub open {
342                  }                  }
343    
344                  # create lookup                  # create lookup
345                  $self->{'lookup'}->add( $rec ) if ($rec && $self->{'lookup'});                  $arg->{'lookup_coderef'}->( $rec ) if ($rec && $arg->{'lookup_coderef'});
346    
347                  # update counters for statistics                  # update counters for statistics
348                  if ($self->{stats}) {                  if ($self->{stats}) {
349                          map {  
350                                  my $fld = $_;                          # fetch clean record with regexpes applied for statistics
351                            my $rec = $self->{fetch_rec}->($self, $db, $pos);
352    
353                            foreach my $fld (keys %{ $rec }) {
354                                  $self->{_stats}->{fld}->{ $fld }++;                                  $self->{_stats}->{fld}->{ $fld }++;
355                                  if (ref($rec->{ $fld }) eq 'ARRAY') {  
356                                          map {                                  $log->logdie("invalid record fild $fld, not ARRAY")
357                                                  if (ref($_) eq 'HASH') {                                          unless (ref($rec->{ $fld }) eq 'ARRAY');
358                                                          map {          
359                                                                  $self->{_stats}->{sf}->{ $fld }->{ $_ }++;                                  foreach my $row (@{ $rec->{$fld} }) {
360                                                          } keys %{ $_ };  
361                                                  } else {                                          if (ref($row) eq 'HASH') {
362                                                          $self->{_stats}->{repeatable}->{ $fld }++;  
363                                                    foreach my $sf (keys %{ $row }) {
364                                                            next if ($sf eq 'subfields');
365                                                            $self->{_stats}->{sf}->{ $fld }->{ $sf }->{count}++;
366                                                            $self->{_stats}->{sf}->{ $fld }->{ $sf }->{repeatable}++
367                                                                            if (ref($row->{$sf}) eq 'ARRAY');
368                                                  }                                                  }
369                                          } @{ $rec->{$fld} };  
370                                            } else {
371                                                    $self->{_stats}->{repeatable}->{ $fld }++;
372                                            }
373                                  }                                  }
374                          } keys %{ $rec };                          }
375                  }                  }
376    
377                  $self->progress_bar($pos,$to_rec) unless ($self->{no_progress_bar});                  $self->progress_bar($pos,$to_rec) unless ($self->{no_progress_bar});
# Line 451  sub stats { Line 522  sub stats {
522                          my $v = $s->{fld}->{$f} || die "no s->{fld}->{$f}";                          my $v = $s->{fld}->{$f} || die "no s->{fld}->{$f}";
523                          $max_fld = $v if ($v > $max_fld);                          $max_fld = $v if ($v > $max_fld);
524    
525                          my $o = sprintf("%4d %d ~", $f, $v);                          my $o = sprintf("%4s %d ~", $f, $v);
526    
527                          if (defined($s->{sf}->{$f})) {                          if (defined($s->{sf}->{$f})) {
528                                  map {                                  map {
529                                          $o .= sprintf(" %s:%d", $_, $s->{sf}->{$f}->{$_});                                          $o .= sprintf(" %s:%d%s", $_,
530                                                    $s->{sf}->{$f}->{$_}->{count},
531                                                    $s->{sf}->{$f}->{$_}->{repeatable} ? '*' : '',
532                                            );
533                                  } sort keys %{ $s->{sf}->{$f} };                                  } sort keys %{ $s->{sf}->{$f} };
534                          }                          }
535    
# Line 464  sub stats { Line 538  sub stats {
538                          }                          }
539    
540                          $o;                          $o;
541                  } sort { $a <=> $b } keys %{ $s->{fld} }                  } sort { $a cmp $b } keys %{ $s->{fld} }
542          );          );
543    
544          $log->debug( sub { Dumper($s) } );          $log->debug( sub { Dumper($s) } );
# Line 472  sub stats { Line 546  sub stats {
546          return $out;          return $out;
547  }  }
548    
549    =head2 modify_record_regexps
550    
551    Generate hash with regexpes to be applied using l<filter>.
552    
553      my $regexpes = $input->modify_record_regexps(
554                    900 => { '^a' => { ' : ' => '^b' } },
555                    901 => { '*' => { '^b' => ' ; ' } },
556      );
557    
558    =cut
559    
560    sub _get_regex {
561            my ($sf,$from,$to) = @_;
562            if ($sf =~ /^\^/) {
563                    return
564                            's/\Q'. $sf .'\E([^\^]*?)\Q'. $from .'\E([^\^]*?)/'. $sf .'$1'. $to .'$2/';
565            } else {
566                    return
567                            's/\Q'. $from .'\E/'. $to .'/g';
568            }
569    }
570    
571    sub modify_record_regexps {
572            my $self = shift;
573            my $modify_record = {@_};
574    
575            my $regexpes;
576    
577            my $log = $self->_get_logger();
578    
579            foreach my $f (keys %$modify_record) {
580                    $log->debug("field: $f");
581    
582                    foreach my $sf (keys %{ $modify_record->{$f} }) {
583                            $log->debug("subfield: $sf");
584    
585                            foreach my $from (keys %{ $modify_record->{$f}->{$sf} }) {
586                                    my $to = $modify_record->{$f}->{$sf}->{$from};
587                                    #die "no field?" unless defined($to);
588                                    $log->debug("transform: |$from| -> |$to|");
589    
590                                    my $regex = _get_regex($sf,$from,$to);
591                                    push @{ $regexpes->{$f} }, $regex;
592                                    $log->debug("regex: $regex");
593                            }
594                    }
595            }
596    
597            return $regexpes;
598    }
599    
600    =head2 modify_file_regexps
601    
602    Generate hash with regexpes to be applied using l<filter> from
603    pseudo hash/yaml format for regex mappings.
604    
605    It should be obvious:
606    
607            200
608              '^a'
609                ' : ' => '^e'
610                ' = ' => '^d'
611    
612    In field I<200> find C<'^a'> and then C<' : '>, and replace it with C<'^e'>.
613    In field I<200> find C<'^a'> and then C<' = '>, and replace it with C<'^d'>.
614    
615      my $regexpes = $input->modify_file_regexps( 'conf/modify/common.pl' );
616    
617    On undef path it will just return.
618    
619    =cut
620    
621    sub modify_file_regexps {
622            my $self = shift;
623    
624            my $modify_path = shift || return;
625    
626            my $log = $self->_get_logger();
627    
628            my $regexpes;
629    
630            CORE::open(my $fh, $modify_path) || $log->die("can't open modify file $modify_path: $!");
631    
632            my ($f,$sf);
633    
634            while(<$fh>) {
635                    chomp;
636                    next if (/^#/ || /^\s*$/);
637    
638                    if (/^\s*(\d+)\s*$/) {
639                            $f = $1;
640                            $log->debug("field: $f");
641                            next;
642                    } elsif (/^\s*'([^']*)'\s*$/) {
643                            $sf = $1;
644                            $log->die("can't define subfiled before field in: $_") unless ($f);
645                            $log->debug("subfield: $sf");
646                    } elsif (/^\s*'([^']*)'\s*=>\s*'([^']*)'\s*$/) {
647                            my ($from,$to) = ($1, $2);
648    
649                            $log->debug("transform: |$from| -> |$to|");
650    
651                            my $regex = _get_regex($sf,$from,$to);
652                            push @{ $regexpes->{$f} }, $regex;
653                            $log->debug("regex: $regex");
654                    }
655            }
656    
657            return $regexpes;
658    }
659    
660  =head1 MEMORY USAGE  =head1 MEMORY USAGE
661    
662  C<low_mem> options is double-edged sword. If enabled, WebPAC  C<low_mem> options is double-edged sword. If enabled, WebPAC
# Line 509  Dobrica Pavlinusic, C<< <dpavlin@rot13.o Line 694  Dobrica Pavlinusic, C<< <dpavlin@rot13.o
694    
695  =head1 COPYRIGHT & LICENSE  =head1 COPYRIGHT & LICENSE
696    
697  Copyright 2005 Dobrica Pavlinusic, All Rights Reserved.  Copyright 2005-2006 Dobrica Pavlinusic, All Rights Reserved.
698    
699  This program is free software; you can redistribute it and/or modify it  This program is free software; you can redistribute it and/or modify it
700  under the same terms as Perl itself.  under the same terms as Perl itself.

Legend:
Removed from v.507  
changed lines
  Added in v.636

  ViewVC Help
Powered by ViewVC 1.1.26