/[webpac2]/trunk/lib/WebPAC/Normalize.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/WebPAC/Normalize.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 923 by dpavlin, Wed Oct 31 00:26:43 2007 UTC revision 1015 by dpavlin, Thu Nov 8 17:19:50 2007 UTC
# Line 1  Line 1 
1  package WebPAC::Normalize;  package WebPAC::Normalize;
2  use Exporter 'import';  use Exporter 'import';
3  @EXPORT = qw/  our @EXPORT = qw/
4          _set_rec _set_lookup          _set_ds _set_lookup
5          _set_load_row          _set_load_row
6          _get_ds _clean_ds          _get_ds _clean_ds
7          _debug          _debug
# Line 13  use Exporter 'import'; Line 13  use Exporter 'import';
13          marc_compose marc_leader marc_fixed          marc_compose marc_leader marc_fixed
14          marc_duplicate marc_remove marc_count          marc_duplicate marc_remove marc_count
15          marc_original_order          marc_original_order
16            marc_template
17    
18          rec1 rec2 rec          rec1 rec2 rec
19            frec frec_eq frec_ne
20          regex prefix suffix surround          regex prefix suffix surround
21          first lookup join_with          first lookup join_with
22          save_into_lookup          save_into_lookup
# Line 23  use Exporter 'import'; Line 25  use Exporter 'import';
25    
26          get set          get set
27          count          count
28    
29  /;  /;
30    
31  use warnings;  use warnings;
# Line 36  use Carp qw/confess/; Line 39  use Carp qw/confess/;
39  # debugging warn(s)  # debugging warn(s)
40  my $debug = 0;  my $debug = 0;
41    
42    use WebPAC::Normalize::ISBN;
43    push @EXPORT, ( 'isbn_10', 'isbn_13' );
44    
45  =head1 NAME  =head1 NAME
46    
# Line 43  WebPAC::Normalize - describe normalisato Line 48  WebPAC::Normalize - describe normalisato
48    
49  =cut  =cut
50    
51  our $VERSION = '0.31';  our $VERSION = '0.34';
52    
53  =head1 SYNOPSIS  =head1 SYNOPSIS
54    
# Line 75  Return data structure Line 80  Return data structure
80          marc_encoding => 'utf-8',          marc_encoding => 'utf-8',
81          config => $config,          config => $config,
82          load_row_coderef => sub {          load_row_coderef => sub {
83                  my ($database,$input,$mfn) = shift;                  my ($database,$input,$mfn) = @_;
84                  $store->load_row( database => $database, input => $input, id => $mfn );                  $store->load_row( database => $database, input => $input, id => $mfn );
85          },          },
86    );    );
# Line 101  sub data_structure { Line 106  sub data_structure {
106          die "need row argument" unless ($arg->{row});          die "need row argument" unless ($arg->{row});
107          die "need normalisation argument" unless ($arg->{rules});          die "need normalisation argument" unless ($arg->{rules});
108    
         no strict 'subs';  
109          _set_lookup( $arg->{lookup} ) if defined($arg->{lookup});          _set_lookup( $arg->{lookup} ) if defined($arg->{lookup});
110          _set_rec( $arg->{row} );          _set_ds( $arg->{row} );
111          _set_config( $arg->{config} ) if defined($arg->{config});          _set_config( $arg->{config} ) if defined($arg->{config});
112          _clean_ds( %{ $arg } );          _clean_ds( %{ $arg } );
113          $load_row_coderef = $arg->{load_row_coderef};          $load_row_coderef = $arg->{load_row_coderef};
114    
115          eval "$arg->{rules}";          no strict 'subs';
116            no warnings 'redefine';
117            eval "$arg->{rules};";
118          die "error evaling $arg->{rules}: $@\n" if ($@);          die "error evaling $arg->{rules}: $@\n" if ($@);
119    
120          return _get_ds();          return _get_ds();
121  }  }
122    
123  =head2 _set_rec  =head2 _set_ds
124    
125  Set current record hash  Set current record hash
126    
127    _set_rec( $rec );    _set_ds( $rec );
128    
129  =cut  =cut
130    
131  my $rec;  my $rec;
132    
133  sub _set_rec {  sub _set_ds {
134          $rec = shift or die "no record hash";          $rec = shift or die "no record hash";
135  }  }
136    
# Line 168  my ($out, $marc_record, $marc_encoding, Line 174  my ($out, $marc_record, $marc_encoding,
174  my ($marc_record_offset, $marc_fetch_offset) = (0, 0);  my ($marc_record_offset, $marc_fetch_offset) = (0, 0);
175    
176  sub _get_ds {  sub _get_ds {
177    #warn "## out = ",dump($out);
178          return $out;          return $out;
179  }  }
180    
# Line 853  sub marc_original_order { Line 860  sub marc_original_order {
860          warn "## marc_record = ", dump( $marc_record ),$/ if ($debug > 1);          warn "## marc_record = ", dump( $marc_record ),$/ if ($debug > 1);
861  }  }
862    
863    =head2 marc_template
864    
865    =cut
866    
867    sub marc_template {
868            my $args = {@_};
869            warn "## marc_template(",dump($args),")";
870    
871            foreach ( qw/subfields_rename marc_template/ ) {
872    #               warn "ref($_) = ",ref($args->{$_});
873                    die "$_ not ARRAY" if ref($args->{$_}) ne 'ARRAY';
874            }
875    
876            my $r = $rec->{ $args->{from} }; # || return;
877            die "record field ", $args->{from}, " isn't array\n" unless (ref($r) eq 'ARRAY');
878    
879            my @subfields_rename = @{ $args->{subfields_rename} };
880    #       warn "### subfields_rename [$#subfields_rename] = ",dump( @subfields_rename );
881    
882            confess "need mapping in pairs for subfields_rename"
883                    if $#subfields_rename % 2 != 1;
884            
885            my ( $subfields_rename, $from_subfields, $to_subfields );
886            while ( my ( $from, $to ) = splice(@subfields_rename, 0, 2) ) {
887                    my ( $f, $t ) = (
888                            $from_subfields->{ $from }++,
889                            $to_subfields->{ $to }++
890                    );
891                    $subfields_rename->{ $from }->[ $f ] = [ $to => $t ];
892            }
893            warn "### subfields_rename = ",dump( $subfields_rename ),$/;
894            warn "### from_subfields = ", dump( $from_subfields ),$/;
895            warn "### to_subfields = ", dump( $to_subfields ),$/;
896    
897            my $fields_re = join('|', keys %$to_subfields );
898    
899            my $pos_templates;
900            my $count;
901            my @marc_order;
902            my $marc_template_order;
903            my $fill_in;
904            my @marc_out;
905    
906            foreach my $template ( @{ $args->{marc_template} } ) {
907                    $count = {};
908                    @marc_order = ();
909                    sub my_count {
910                            my $sf = shift;
911                            my $nr = $count->{$sf}++;
912                            push @marc_order, [ $sf, $nr ];
913                            return $sf . $nr;
914                    }
915                    my $pos_template = $template;
916                    $pos_template =~ s/($fields_re)/my_count($1)/ge;
917                    my $count_key = dump( $count );
918                    warn "### template: |$template| -> |$pos_template| count = $count_key marc_order = ",dump( @marc_order ),$/;
919                    $pos_templates->{ $count_key } = $pos_template;
920                    $marc_template_order->{ $pos_template } = [ @marc_order ];
921            }
922            warn "### from ",dump( $args->{marc_template} ), " created ", dump( $pos_templates ), " and ", dump( $marc_template_order );
923    
924            my $m;
925    
926            foreach my $r ( @{ $rec->{ $args->{from} } } ) {
927    
928                    my $i1 = $r->{i1} || ' ';
929                    my $i2 = $r->{i2} || ' ';
930                    $m = [ $args->{to}, $i1, $i2 ];
931    
932                    warn "### r = ",dump( $r );
933    
934                    my ( $new_r, $from_count, $to_count );
935                    foreach my $sf ( keys %{$r} ) {
936                            my $nr = $from_count->{$sf}++;
937                            my $rename_to = $subfields_rename->{ $sf };     # ||
938    #                               die "can't find subfield rename for $sf/$nr in ", dump( $subfields_rename );
939                            warn "### rename $sf/$nr to ", dump( $rename_to->[$nr] ), $/;
940                            my ( $to_sf, $to_nr ) = @{ $rename_to->[$nr] };
941                            $new_r->{ $to_sf }->[ $to_nr ] = [ $sf => $nr ];
942    
943                            $to_count->{ $to_sf }++;
944                    }
945    
946                    warn "### new_r = ",dump( $new_r );
947    
948                    my $from_count_key = dump( $to_count );
949    
950                    warn "### from_count = ",dump( $from_count ), $/;
951                    warn "### to_count   = ",dump( $to_count ), $/;
952    
953                    my $template = $pos_templates->{ $from_count_key } ||
954                            die "I don't have template for:\n$from_count_key\n## available templates\n", dump( $pos_templates );
955    
956                    warn "### selected template: |$template|\n";
957    
958                    $fill_in = {};
959    
960                    foreach my $sf ( split(/\|/, $template ) ) {
961                            sub fill_in {
962                                    my ( $r, $sf, $nr ) = @_;
963                                    my ( $from_sf, $from_nr ) = @{ $new_r->{ $sf }->[ $nr ] };
964                                    my $v = $r->{ $from_sf }; # || die "no $from_sf/$from_nr";
965                                    warn "#### fill_in( $sf, $nr ) = $from_sf/$from_nr >>>> ",dump( $v ), $/;
966                                    if ( ref( $v ) eq 'ARRAY' ) {
967                                            $fill_in->{$sf}->[$nr] = $v->[$from_nr];
968                                            return $v->[$from_nr];
969                                    } elsif ( $from_nr == 0 ) {
970                                            $fill_in->{$sf}->[$nr] = $v;
971                                            return $v;
972                                    } else {
973                                            die "requested subfield $from_sf/$from_nr but it's ",dump( $v );
974                                    }
975                            }
976                            warn "#### $sf <<<< $fields_re\n";
977                            $sf =~ s/($fields_re)(\d+)/fill_in($r,$1,$2)/ge;
978                            warn "#### >>>> $sf with fill_in = ",dump( $fill_in ),$/;
979                    }
980    
981                    warn "## template: |$template|\n## marc_template_order = ",dump( $marc_template_order );
982    
983                    foreach my $sf ( @{ $marc_template_order->{$template} } ) {
984                            my ( $sf, $nr ) = @$sf;
985                            my $v = $fill_in->{$sf}->[$nr] || die "can't find fill_in $sf/$nr";
986                            warn "++ $sf/$nr |$v|\n";
987                            push @$m, [ $sf, $v ];
988                    }
989    
990                    warn "#### >>>> created marc: ", dump( $m );
991    
992                    push @marc_out, $m;
993            }
994    
995            warn "### marc_template produced: ",dump( @marc_out );
996            return @marc_out;
997    }
998    
999  =head2 marc_count  =head2 marc_count
1000    
1001  Return number of MARC records created using L</marc_duplicate>.  Return number of MARC records created using L</marc_duplicate>.
# Line 1010  sub rec { Line 1153  sub rec {
1153          }          }
1154  }  }
1155    
1156    =head2 frec
1157    
1158    Returns first value from field
1159    
1160      $v = frec('200');
1161      $v = frec('200','a');
1162    
1163    =cut
1164    
1165    sub frec {
1166            my @out = rec(@_);
1167            warn "rec(",dump(@_),") has more than one return value, ignoring\n" if $#out > 0;
1168            return shift @out;
1169    }
1170    
1171    =head2 frec_eq
1172    
1173    =head2 frec_ne
1174    
1175    Check if first values from two fields are same or different
1176    
1177      if ( frec_eq( 900 => 'a', 910 => 'c' ) ) {
1178            # values are same
1179      } else {
1180        # values are different
1181      }
1182    
1183    Strictly speaking C<frec_eq> and C<frec_ne> wouldn't be needed if you
1184    could write something like:
1185    
1186      if ( frec( '900','a' ) eq frec( '910','c' ) ) {
1187            # yada tada
1188      }
1189    
1190    but you can't since our parser L<WebPAC::Parser> will remove all whitespaces
1191    in order to parse text and create invalid function C<eqfrec>.
1192    
1193    =cut
1194    
1195    sub frec_eq {
1196            my ( $f1,$sf1, $f2, $sf2 ) = @_;
1197            return (rec( $f1, $sf1 ))[0] eq (rec( $f2, $sf2 ))[0];
1198    }
1199    
1200    sub frec_ne {
1201            return ! frec_eq( @_ );
1202    }
1203    
1204  =head2 regex  =head2 regex
1205    
1206  Apply regex to some or all values  Apply regex to some or all values

Legend:
Removed from v.923  
changed lines
  Added in v.1015

  ViewVC Help
Powered by ViewVC 1.1.26