/[webpac2]/trunk/lib/WebPAC/Input.pm

This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!

Diff of /trunk/lib/WebPAC/Input.pm

Parent Directory | Revision Log | View Patch Patch

-revision 339 by dpavlin,
Sat Dec 31 16:50:11 2005 UTC
+revision 507 by dpavlin,
Mon May 15 13:15:01 2006 UTC
 Line 3 
 package WebPAC::Input;
  use warnings;
  use strict;
+ use blib;
  use WebPAC::Common;
  use base qw/WebPAC::Common/;
  use Text::Iconv;
-Line 14 
 WebPAC::Input - read different file form
+Line 16 
 WebPAC::Input - read different file form
  =head1 VERSION
- Version 0.03
+ Version 0.05
  =cut
- our $VERSION = '0.03';
+ our $VERSION = '0.05';
  =head1 SYNOPSIS
-Line 47 
 Perhaps a little code snippet.
+Line 49 
 Perhaps a little code snippet.
      );
      $db->open('/path/to/database');
-     print "database size: ",$db->size,"\n";
+         print "database size: ",$db->size,"\n";
-     while (my $rec = $db->fetch) {
+         while (my $rec = $db->fetch) {
-     }
+                 # do something with $rec
+         }
-Line 63 
 Create new input database object.
+Line 66 
 Create new input database object.
          module => 'WebPAC::Input::MARC',
          code_page => 'ISO-8859-2',
          low_mem => 1,
+         recode => 'char pairs',
+         no_progress_bar => 1,
    );
  C<module> is low-level file format module. See L<WebPAC::Input::Isis> and
-Line 74 
 default, it C<ISO-8859-2>.
+Line 79 
 default, it C<ISO-8859-2>.
  Default is not to use C<low_mem> options (see L<MEMORY USAGE> below).
+ C<recode> is optional string constisting of character or words pairs that
+ should be replaced in input stream.
+ C<no_progress_bar> disables progress bar output on C<STDOUT>
  This function will also call low-level C<init> if it exists with same
  parametars.
-Line 152 
 This function will read whole database i
+Line 162 
 This function will read whole database i
          limit => 500,
          offset => 6000,
          lookup => $lookup_obj,
+         stats => 1,
   );
  By default, C<code_page> is assumed to be C<852>.
-Line 160 
 C<offset> is optional parametar to posit
+Line 171 
 C<offset> is optional parametar to posit
  C<limit> is optional parametar to read just C<limit> records from database
+ C<stats> create optional report about usage of fields and subfields
  Returns size of database, regardless of C<offset> and C<limit>
  parametars, see also C<size>.
-Line 183 
 sub open {
+Line 196 
 sub open {
          # create Text::Iconv object
          $self->{iconv} = Text::Iconv->new($code_page,$self->{'code_page'});
+         my $filter_ref;
+         if ($self->{recode}) {
+                 my @r = split(/\s/, $self->{recode});
+                 if ($#r % 2 != 1) {
+                         $log->logwarn("recode needs even number of elements (some number of valid pairs)");
+                 } else {
+                         my $recode;
+                         while (@r) {
+                                 my $from = shift @r;
+                                 my $to = shift @r;
+                                 $recode->{$from} = $to;
+                         }
+                         my $regex = join '|' => keys %{ $recode };
+                         $log->debug("using recode regex: $regex");
+                         $filter_ref = sub {
+                                 my $t = shift;
+                                 $t =~ s/($regex)/$recode->{$1}/g;
+                                 return $t;
+                         };
+                 }
+         }
          my ($db, $size) = $self->{open_db}->( $self,
                  path => $arg->{path},
+                 filter => $filter_ref,
          );
-         unless ($db) {
+         unless (defined($db)) {
                  $log->logwarn("can't open database $arg->{path}, skipping...");
                  return;
          }
-Line 216 
 sub open {
+Line 258 
 sub open {
          # store size for later
          $self->{size} = ($to_rec - $from_rec) ? ($to_rec - $from_rec + 1) : 0;
-         $log->info("processing $self->{size}/$size records [$from_rec-$to_rec] convert $code_page -> $self->{code_page}");
+         $log->info("processing $self->{size}/$size records [$from_rec-$to_rec] convert $code_page -> $self->{code_page}", $self->{stats} ? ' [stats]' : '');
          # read database
          for (my $pos = $from_rec; $pos <= $to_rec; $pos++) {
-Line 242 
 sub open {
+Line 284 
 sub open {
                  # create lookup
                  $self->{'lookup'}->add( $rec ) if ($rec && $self->{'lookup'});
-                 $self->progress_bar($pos,$to_rec);
+                 # update counters for statistics
+                 if ($self->{stats}) {
+                         map {
+                                 my $fld = $_;
+                                 $self->{_stats}->{fld}->{ $fld }++;
+                                 if (ref($rec->{ $fld }) eq 'ARRAY') {
+                                         map {
+                                                 if (ref($_) eq 'HASH') {
+                                                         map {
+                                                                 $self->{_stats}->{sf}->{ $fld }->{ $_ }++;
+                                                         } keys %{ $_ };
+                                                 } else {
+                                                         $self->{_stats}->{repeatable}->{ $fld }++;
+                                                 }
+                                         } @{ $rec->{$fld} };
+                                 }
+                         } keys %{ $rec };
+                 }
+                 $self->progress_bar($pos,$to_rec) unless ($self->{no_progress_bar});
          }
-Line 288 
 sub fetch {
+Line 349 
 sub fetch {
                  return;
          }
-         $self->progress_bar($mfn,$self->{max_pos});
+         $self->progress_bar($mfn,$self->{max_pos}) unless ($self->{no_progress_bar});
          my $rec;
-Line 363 
 sub seek {
+Line 424 
 sub seek {
          return $self->{pos} = (($pos - 1) || -1);
  }
+ =head2 stats
+ Dump statistics about field and subfield usage
+   print $input->stats;
+ =cut
+ sub stats {
+         my $self = shift;
+         my $log = $self->_get_logger();
+         my $s = $self->{_stats};
+         if (! $s) {
+                 $log->warn("called stats, but there is no statistics collected");
+                 return;
+         }
+         my $max_fld = 0;
+         my $out = join("\n",
+                 map {
+                         my $f = $_ || die "no field";
+                         my $v = $s->{fld}->{$f} || die "no s->{fld}->{$f}";
+                         $max_fld = $v if ($v > $max_fld);
+                         my $o = sprintf("%4d %d ~", $f, $v);
+                         if (defined($s->{sf}->{$f})) {
+                                 map {
+                                         $o .= sprintf(" %s:%d", $_, $s->{sf}->{$f}->{$_});
+                                 } sort keys %{ $s->{sf}->{$f} };
+                         }
+                         if (my $v_r = $s->{repeatable}->{$f}) {
+                                 $o .= " ($v_r)" if ($v_r != $v);
+                         }
+                         $o;
+                 } sort { $a <=> $b } keys %{ $s->{fld} }
+         );
+         $log->debug( sub { Dumper($s) } );
+         return $out;
+ }
  =head1 MEMORY USAGE

 Legend:



Removed from v.339
 


changed lines


 
Added in v.507
 Legend:



Removed from v.339
 


changed lines


 
Added in v.507
-Removed from v.339
+Added in v.507

	ViewVC Help
Powered by ViewVC 1.1.26