/[webpac2]/trunk/lib/WebPAC/Normalize.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/WebPAC/Normalize.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 14 by dpavlin, Sun Jul 17 00:04:25 2005 UTC revision 541 by dpavlin, Thu Jun 29 21:18:50 2006 UTC
# Line 1  Line 1 
1  package WebPAC::Normalize;  package WebPAC::Normalize;
2    use Exporter 'import';
3    @EXPORT = qw/
4            _set_rec _set_lookup
5            _get_ds _clean_ds
6    
7            tag search display
8            marc21
9    
10            rec1 rec2 rec
11            regex prefix suffix surround
12            first lookup join_with
13    /;
14    
15  use warnings;  use warnings;
16  use strict;  use strict;
17    
18    #use base qw/WebPAC::Common/;
19  use Data::Dumper;  use Data::Dumper;
20  use Storable;  use Encode qw/from_to/;
21    
22  =head1 NAME  =head1 NAME
23    
24  WebPAC::Normalize - normalisation of source file  WebPAC::Normalize - describe normalisaton rules using sets
25    
26  =head1 VERSION  =head1 VERSION
27    
28  Version 0.01  Version 0.06
29    
30  =cut  =cut
31    
32  our $VERSION = '0.01';  our $VERSION = '0.06';
33    
34  =head1 SYNOPSIS  =head1 SYNOPSIS
35    
36  This package contains code that could be helpful in implementing different  This module uses C<conf/normalize/*.pl> files to perform normalisation
37  normalisation front-ends.  from input records using perl functions which are specialized for set
38    processing.
39    
40    Sets are implemented as arrays, and normalisation file is valid perl, which
41    means that you check it's validity before running WebPAC using
42    C<perl -c normalize.pl>.
43    
44    Normalisation can generate multiple output normalized data. For now, supported output
45    types (on the left side of definition) are: C<tag>, C<display>, C<search> and
46    C<marc21>.
47    
48  =head1 FUNCTIONS  =head1 FUNCTIONS
49    
50  =head2 new  Functions which start with C<_> are private and used by WebPAC internally.
51    All other functions are available for use within normalisation rules.
52    
53    =head2 data_structure
54    
55  Create new normalisation object  Return data structure
56    
57    my $n = new WebPAC::Normalize::Something(    my $ds = WebPAC::Normalize::data_structure(
58          cache_data_structure => './cache/ds/',          lookup => $lookup->lookup_hash,
59          lookup_regex => $lookup->regex,          row => $row,
60            rules => $normalize_pl_config,
61            marc_encoding => 'utf-8',
62    );    );
63    
64  Optional parameter C<cache_data_structure> defines path to directory  Options C<lookup>, C<row>, C<rules> and C<log> are mandatory while all
65  in which cache file for C<data_structure> call will be created.  other are optional.
66    
67    This function will B<die> if normalizastion can't be evaled.
68    
69  Recommended parametar C<lookup_regex> is used to enable parsing of lookups  Since this function isn't exported you have to call it with
70  in structures.  C<WebPAC::Normalize::data_structure>.
71    
72  =cut  =cut
73    
74  sub new {  sub data_structure {
75          my $class = shift;          my $arg = {@_};
         my $self = {@_};  
         bless($self, $class);  
76    
77          $self->setup_cache_dir( $self->{'cache_data_structure'} );          die "need row argument" unless ($arg->{row});
78            die "need normalisation argument" unless ($arg->{rules});
79    
80          $self ? return $self : return undef;          no strict 'subs';
81  }          _set_lookup( $arg->{lookup} );
82            _set_rec( $arg->{row} );
83            _clean_ds( %{ $arg } );
84            eval "$arg->{rules}";
85            die "error evaling $arg->{rules}: $@\n" if ($@);
86    
87  =head2 setup_cache_dir          return _get_ds();
88    }
89    
90  Check if specified cache directory exist, and if not, disable caching.  =head2 _set_rec
91    
92   $setup_cache_dir('./cache/ds/');  Set current record hash
93    
94  If you pass false or zero value to this function, it will disable    _set_rec( $rec );
 cacheing.  
95    
96  =cut  =cut
97    
98  sub setup_cache_dir {  my $rec;
         my $self = shift;  
99    
100          my $dir = shift;  sub _set_rec {
101            $rec = shift or die "no record hash";
         my $log = $self->_get_logger();  
   
         if ($dir) {  
                 my $msg;  
                 if (! -e $dir) {  
                         $msg = "doesn't exist";  
                 } elsif (! -d $dir) {  
                         $msg = "is not directory";  
                 } elsif (! -w $dir) {  
                         $msg = "not writable";  
                 }  
   
                 if ($msg) {  
                         undef $self->{'cache_data_structure'};  
                         $log->warn("cache_data_structure $dir $msg, disabling...");  
                 } else {  
                         $log->debug("using cache dir $dir");  
                 }  
         } else {  
                 $log->debug("disabling cache");  
                 undef $self->{'cache_data_structure'};  
         }  
102  }  }
103    
104    =head2 _get_ds
105    
106  =head2 data_structure  Return hash formatted as data structure
107    
108  Create in-memory data structure which represents normalized layout from    my $ds = _get_ds();
 C<conf/normalize/*.xml>.  
   
 This structures are used to produce output.  
   
  my @ds = $webpac->data_structure($rec);  
   
 B<Note: historical oddity follows>  
   
 This method will also set C<< $webpac->{'currnet_filename'} >> if there is  
 C<< <filename> >> tag and C<< $webpac->{'headline'} >> if there is  
 C<< <headline> >> tag.  
109    
110  =cut  =cut
111    
112  sub data_structure {  my $out;
113          my $self = shift;  my $marc21;
114    my $marc_encoding;
         my $log = $self->_get_logger();  
115    
116          my $rec = shift;  sub _get_ds {
117          $log->logconfess("need HASH as first argument!") if ($rec !~ /HASH/o);          return $out;
118    }
         my $cache_file;  
   
         if (my $cache_path = $self->{'cache_data_structure'}) {  
                 my $id = $rec->{'000'};  
                 $id = $rec->{'000'}->[0] if ($id =~ m/^ARRAY/o);  
                 unless (defined($id)) {  
                         $log->warn("Can't use cache_data_structure on records without unique identifier in field 000");  
                         undef $self->{'cache_data_structure'};  
                 } else {  
                         $cache_file = "$cache_path/$id";  
                         if (-r $cache_file) {  
                                 my $ds_ref = retrieve($cache_file);  
                                 if ($ds_ref) {  
                                         $log->debug("cache hit: $cache_file");  
                                         my $ok = 1;  
                                         foreach my $f (qw(current_filename headline)) {  
                                                 if ($ds_ref->{$f}) {  
                                                         $self->{$f} = $ds_ref->{$f};  
                                                 } else {  
                                                         $ok = 0;  
                                                 }  
                                         };  
                                         if ($ok && $ds_ref->{'ds'}) {  
                                                 return @{ $ds_ref->{'ds'} };  
                                         } else {  
                                                 $log->warn("cache_data_structure $cache_path corrupt. Use rm $cache_path/* to re-create it on next run!");  
                                                 undef $self->{'cache_data_structure'};  
                                         }  
                                 }  
                         }  
                 }  
         }  
   
         undef $self->{'currnet_filename'};  
         undef $self->{'headline'};  
119    
120          my @sorted_tags;  =head2 _clean_ds
         if ($self->{tags_by_order}) {  
                 @sorted_tags = @{$self->{tags_by_order}};  
         } else {  
                 @sorted_tags = sort { $self->_sort_by_order } keys %{$self->{'import_xml'}->{'indexer'}};  
                 $self->{tags_by_order} = \@sorted_tags;  
         }  
121    
122          my @ds;  Clean data structure hash for next record
123    
124          $log->debug("tags: ",sub { join(", ",@sorted_tags) });    _clean_ds();
125    
126          foreach my $field (@sorted_tags) {  =cut
127    
128                  my $row;  sub _clean_ds {
129            my $a = {@_};
130            $out = undef;
131            $marc21 = undef;
132            $marc_encoding = $a->{marc_encoding};
133    }
134    
135  #print "field $field [",$self->{'tag'},"] = ",Dumper($self->{'import_xml'}->{'indexer'}->{$field}->{$self->{'tag'}});  =head2 _set_lookup
136    
137                  foreach my $tag (@{$self->{'import_xml'}->{'indexer'}->{$field}->{$self->{'tag'}}}) {  Set current lookup hash
                         my $format = $tag->{'value'} || $tag->{'content'};  
138    
139                          $log->debug("format: $format");    _set_lookup( $lookup );
140    
141                          my @v;  =cut
                         if ($self->{'lookup_regex'} && $format =~ $self->{'lookup_regex'}) {  
                                 @v = $self->fill_in_to_arr($rec,$format);  
                         } else {  
                                 @v = $self->parse_to_arr($rec,$format);  
                         }  
                         next if (! @v);  
142    
143                          if ($tag->{'sort'}) {  my $lookup;
                                 @v = $self->sort_arr(@v);  
                         }  
144    
145                          # use format?  sub _set_lookup {
146                          if ($tag->{'format_name'}) {          $lookup = shift;
147                                  @v = map { $self->apply_format($tag->{'format_name'},$tag->{'format_delimiter'},$_) } @v;  }
                         }  
148    
149                          if ($field eq 'filename') {  =head2 _get_marc21_fields
                                 $self->{'current_filename'} = join('',@v);  
                                 $log->debug("filename: ",$self->{'current_filename'});  
                         } elsif ($field eq 'headline') {  
                                 $self->{'headline'} .= join('',@v);  
                                 $log->debug("headline: ",$self->{'headline'});  
                                 next; # don't return headline in data_structure!  
                         }  
150    
151                          # delimiter will join repeatable fields  Get all fields defined by calls to C<marc21>
                         if ($tag->{'delimiter'}) {  
                                 @v = ( join($tag->{'delimiter'}, @v) );  
                         }  
152    
153                          # default types          $marc->add_fields( WebPAC::Normalize:_get_marc21_fields() );
                         my @types = qw(display swish);  
                         # override by type attribute  
                         @types = ( $tag->{'type'} ) if ($tag->{'type'});  
   
                         foreach my $type (@types) {  
                                 # append to previous line?  
                                 $log->debug("type: $type ",sub { join(" ",@v) }, $row->{'append'} || 'no append');  
                                 if ($tag->{'append'}) {  
   
                                         # I will delimit appended part with  
                                         # delimiter (or ,)  
                                         my $d = $tag->{'delimiter'};  
                                         # default delimiter  
                                         $d ||= " ";  
   
                                         my $last = pop @{$row->{$type}};  
                                         $d = "" if (! $last);  
                                         $last .= $d . join($d, @v);  
                                         push @{$row->{$type}}, $last;  
   
                                 } else {  
                                         push @{$row->{$type}}, @v;  
                                 }  
                         }  
154    
155    =cut
156    
157                  }  sub _get_marc21_fields {
158            return @{$marc21};
159    }
160    
161                  if ($row) {  =head1 Functions to create C<data_structure>
                         $row->{'tag'} = $field;  
162    
163                          # TODO: name_sigular, name_plural  Those functions generally have to first in your normalization file.
                         my $name = $self->{'import_xml'}->{'indexer'}->{$field}->{'name'};  
                         $row->{'name'} = $name ? $self->_x($name) : $field;  
   
                         # post-sort all values in field  
                         if ($self->{'import_xml'}->{'indexer'}->{$field}->{'sort'}) {  
                                 $log->warn("sort at field tag not implemented");  
                         }  
164    
165                          push @ds, $row;  =head2 tag
166    
167                          $log->debug("row $field: ",sub { Dumper($row) });  Define new tag for I<search> and I<display>.
                 }  
168    
169          }    tag('Title', rec('200','a') );
170    
         if ($cache_file) {  
                 store {  
                         ds => \@ds,  
                         current_filename => $self->{'current_filename'},  
                         headline => $self->{'headline'},  
                 }, $cache_file;  
                 $log->debug("created storable cache file $cache_file");  
         }  
171    
172          return @ds;  =cut
173    
174    sub tag {
175            my $name = shift or die "tag needs name as first argument";
176            my @o = grep { defined($_) && $_ ne '' } @_;
177            return unless (@o);
178            $out->{$name}->{tag} = $name;
179            $out->{$name}->{search} = \@o;
180            $out->{$name}->{display} = \@o;
181  }  }
182    
183  =head2 apply_format  =head2 display
   
 Apply format specified in tag with C<format_name="name"> and  
 C<format_delimiter=";;">.  
184    
185   my $text = $webpac->apply_format($format_name,$format_delimiter,$data);  Define tag just for I<display>
186    
187  Formats can contain C<lookup{...}> if you need them.    @v = display('Title', rec('200','a') );
188    
189  =cut  =cut
190    
191  sub apply_format {  sub display {
192          my $self = shift;          my $name = shift or die "display needs name as first argument";
193            my @o = grep { defined($_) && $_ ne '' } @_;
194          my ($name,$delimiter,$data) = @_;          return unless (@o);
195            $out->{$name}->{tag} = $name;
196          my $log = $self->_get_logger();          $out->{$name}->{display} = \@o;
   
         if (! $self->{'import_xml'}->{'format'}->{$name}) {  
                 $log->warn("<format name=\"$name\"> is not defined in ",$self->{'import_xml_file'});  
                 return $data;  
         }  
   
         $log->warn("no delimiter for format $name") if (! $delimiter);  
   
         my $format = $self->_x($self->{'import_xml'}->{'format'}->{$name}->{'content'}) || $log->logdie("can't find format '$name'");  
   
         my @data = split(/\Q$delimiter\E/, $data);  
   
         my $out = sprintf($format, @data);  
         $log->debug("using format $name [$format] on $data to produce: $out");  
   
         if ($self->{'lookup_regex'} && $out =~ $self->{'lookup_regex'}) {  
                 return $self->lookup($out);  
         } else {  
                 return $out;  
         }  
   
197  }  }
198    
199  =head2 parse  =head2 search
200    
201  Perform smart parsing of string, skipping delimiters for fields which aren't  Prepare values just for I<search>
 defined. It can also eval code in format starting with C<eval{...}> and  
 return output or nothing depending on eval code.  
202    
203   my $text = $webpac->parse($rec,'eval{"v901^a" eq "Deskriptor"}descriptor: v250^a', $i);    @v = search('Title', rec('200','a') );
204    
205  =cut  =cut
206    
207  sub parse {  sub search {
208          my $self = shift;          my $name = shift or die "search needs name as first argument";
209            my @o = grep { defined($_) && $_ ne '' } @_;
210          my ($rec, $format_utf8, $i) = @_;          return unless (@o);
211            $out->{$name}->{tag} = $name;
212            $out->{$name}->{search} = \@o;
213    }
214    
215          return if (! $format_utf8);  =head2 marc21
216    
217          my $log = $self->_get_logger();  Save value for MARC field
218    
219          $log->logconfess("need HASH as first argument!") if ($rec !~ /HASH/o);    marc21('900','a', rec('200','a') );
220    
221          $i = 0 if (! $i);  =cut
222    
223          my $format = $self->_x($format_utf8) || $log->logconfess("can't convert '$format_utf8' from UTF-8 to ",$self->{'code_page'});  sub marc21 {
224            my $f = shift or die "marc21 needs field";
225            die "marc21 field must be numer" unless ($f =~ /^\d+$/);
226    
227          my @out;          my $sf = shift or die "marc21 needs subfield";
228    
229          $log->debug("format: $format");          foreach (@_) {
230                    my $v = $_;             # make var read-write for Encode
231                    next unless (defined($v) && $v !~ /^\s+$/);
232                    from_to($v, 'iso-8859-2', $marc_encoding) if ($marc_encoding);
233                    push @{ $marc21 }, [ $f, ' ', ' ', $sf => $v ];
234            }
235    }
236    
237          my $eval_code;  =head1 Functions to extract data from input
         # remove eval{...} from beginning  
         $eval_code = $1 if ($format =~ s/^eval{([^}]+)}//s);  
238    
239          my $filter_name;  This function should be used inside functions to create C<data_structure> described
240          # remove filter{...} from beginning  above.
         $filter_name = $1 if ($format =~ s/^filter{([^}]+)}//s);  
241    
242          my $prefix;  =head2 rec1
         my $all_found=0;  
243    
244          while ($format =~ s/^(.*?)(v|s)(\d+)(?:\^(\w))?//s) {  Return all values in some field
245    
246                  my $del = $1 || '';    @v = rec1('200')
                 $prefix ||= $del if ($all_found == 0);  
247    
248                  # repeatable index  TODO: order of values is probably same as in source data, need to investigate that
                 my $r = $i;  
                 $r = 0 if (lc("$2") eq 's');  
249    
250                  my $found = 0;  =cut
                 my $tmp = $self->get_data(\$rec,$3,$4,$r,\$found);  
251    
252                  if ($found) {  sub rec1 {
253                          push @out, $del;          my $f = shift;
254                          push @out, $tmp;          return unless (defined($rec) && defined($rec->{$f}));
255                          $all_found += $found;          if (ref($rec->{$f}) eq 'ARRAY') {
256                  }                  return map {
257                            if (ref($_) eq 'HASH') {
258                                    values %{$_};
259                            } else {
260                                    $_;
261                            }
262                    } @{ $rec->{$f} };
263            } elsif( defined($rec->{$f}) ) {
264                    return $rec->{$f};
265          }          }
266    }
267    
268          return if (! $all_found);  =head2 rec2
   
         my $out = join('',@out);  
   
         if ($out) {  
                 # add rest of format (suffix)  
                 $out .= $format;  
269    
270                  # add prefix if not there  Return all values in specific field and subfield
                 $out = $prefix . $out if ($out !~ m/^\Q$prefix\E/);  
271    
272                  $log->debug("result: $out");    @v = rec2('200','a')
         }  
273    
274          if ($eval_code) {  =cut
                 my $eval = $self->fill_in($rec,$eval_code,$i) || return;  
                 $log->debug("about to eval{$eval} format: $out");  
                 return if (! $self->_eval($eval));  
         }  
           
         if ($filter_name && $self->{'filter'}->{$filter_name}) {  
                 $log->debug("about to filter{$filter_name} format: $out");  
                 $out = $self->{'filter'}->{$filter_name}->($out);  
                 return unless(defined($out));  
                 $log->debug("filter result: $out");  
         }  
275    
276          return $out;  sub rec2 {
277            my $f = shift;
278            return unless (defined($rec && $rec->{$f}));
279            my $sf = shift;
280            return map { $_->{$sf} } grep { ref($_) eq 'HASH' && $_->{$sf} } @{ $rec->{$f} };
281  }  }
282    
283  =head2 parse_to_arr  =head2 rec
284    
285  Similar to C<parse>, but returns array of all repeatable fields  syntaxtic sugar for
286    
287   my @arr = $webpac->parse_to_arr($rec,'v250^a');    @v = rec('200')
288      @v = rec('200','a')
289    
290  =cut  =cut
291    
292  sub parse_to_arr {  sub rec {
293          my $self = shift;          if ($#_ == 0) {
294                    return rec1(@_);
295            } elsif ($#_ == 1) {
296                    return rec2(@_);
297            }
298    }
299    
300          my ($rec, $format_utf8) = @_;  =head2 regex
301    
302          my $log = $self->_get_logger();  Apply regex to some or all values
303    
304          $log->logconfess("need HASH as first argument!") if ($rec !~ /HASH/o);    @v = regex( 's/foo/bar/g', @v );
         return if (! $format_utf8);  
305    
306          my $i = 0;  =cut
         my @arr;  
307    
308          while (my $v = $self->parse($rec,$format_utf8,$i++)) {  sub regex {
309                  push @arr, $v;          my $r = shift;
310            my @out;
311            #warn "r: $r\n",Dumper(\@_);
312            foreach my $t (@_) {
313                    next unless ($t);
314                    eval "\$t =~ $r";
315                    push @out, $t if ($t && $t ne '');
316          }          }
317            return @out;
         $log->debug("format '$format_utf8' returned ",--$i," elements: ", sub { join(" | ",@arr) }) if (@arr);  
   
         return @arr;  
318  }  }
319    
320  =head2 fill_in_to_arr  =head2 prefix
321    
322  Similar to C<fill_in>, but returns array of all repeatable fields. Usable  Prefix all values with a string
 for fields which have lookups, so they shouldn't be parsed but rather  
 C<fill_id>ed.  
323    
324   my @arr = $webpac->fill_in_to_arr($rec,'[v900];;[v250^a]');    @v = prefix( 'my_', @v );
325    
326  =cut  =cut
327    
328  sub fill_in_to_arr {  sub prefix {
329          my $self = shift;          my $p = shift or die "prefix needs string as first argument";
330            return map { $p . $_ } grep { defined($_) } @_;
331          my ($rec, $format_utf8) = @_;  }
   
         my $log = $self->_get_logger();  
332    
333          $log->logconfess("need HASH as first argument!") if ($rec !~ /HASH/o);  =head2 suffix
         return if (! $format_utf8);  
334    
335          my $i = 0;  suffix all values with a string
         my @arr;  
336    
337          while (my @v = $self->fill_in($rec,$format_utf8,$i++)) {    @v = suffix( '_my', @v );
                 push @arr, @v;  
         }  
338    
339          $log->debug("format '$format_utf8' returned ",--$i," elements: ", sub { join(" | ",@arr) }) if (@arr);  =cut
340    
341          return @arr;  sub suffix {
342            my $s = shift or die "suffix needs string as first argument";
343            return map { $_ . $s } grep { defined($_) } @_;
344  }  }
345    
346  =head2 sort_arr  =head2 surround
347    
348  Sort array ignoring case and html in data  surround all values with a two strings
349    
350   my @sorted = $webpac->sort_arr(@unsorted);    @v = surround( 'prefix_', '_suffix', @v );
351    
352  =cut  =cut
353    
354  sub sort_arr {  sub surround {
355          my $self = shift;          my $p = shift or die "surround need prefix as first argument";
356            my $s = shift or die "surround needs suffix as second argument";
357          my $log = $self->_get_logger();          return map { $p . $_ . $s } grep { defined($_) } @_;
   
         # FIXME add Schwartzian Transformation?  
   
         my @sorted = sort {  
                 $a =~ s#<[^>]+/*>##;  
                 $b =~ s#<[^>]+/*>##;  
                 lc($b) cmp lc($a)  
         } @_;  
         $log->debug("sorted values: ",sub { join(", ",@sorted) });  
   
         return @sorted;  
358  }  }
359    
360    =head2 first
361    
362  =head2 _sort_by_order  Return first element
363    
364  Sort xml tags data structure accoding to C<order=""> attribute.    $v = first( @v );
365    
366  =cut  =cut
367    
368  sub _sort_by_order {  sub first {
369          my $self = shift;          my $r = shift;
370            return $r;
         my $va = $self->{'import_xml'}->{'indexer'}->{$a}->{'order'} ||  
                 $self->{'import_xml'}->{'indexer'}->{$a};  
         my $vb = $self->{'import_xml'}->{'indexer'}->{$b}->{'order'} ||  
                 $self->{'import_xml'}->{'indexer'}->{$b};  
   
         return $va <=> $vb;  
371  }  }
372    
373  =head2 _x  =head2 lookup
   
 Convert strings from C<conf/normalize> encoding into application specific  
 (optinally specified using C<code_page> to C<new> constructor.  
374    
375   my $text = $n->_x('normalize text string');  Consult lookup hashes for some value
376    
377  This is a stub so that other modules doesn't have to implement it.    @v = lookup( $v );
378      @v = lookup( @v );
379    
380  =cut  =cut
381    
382  sub _x {  sub lookup {
383          my $self = shift;          my $k = shift or return;
384          return shift;          return unless (defined($lookup->{$k}));
385            if (ref($lookup->{$k}) eq 'ARRAY') {
386                    return @{ $lookup->{$k} };
387            } else {
388                    return $lookup->{$k};
389            }
390  }  }
391    
392    =head2 join_with
393    
394  =head1 AUTHOR  Joins walues with some delimiter
   
 Dobrica Pavlinusic, C<< <dpavlin@rot13.org> >>  
   
 =head1 COPYRIGHT & LICENSE  
395    
396  Copyright 2005 Dobrica Pavlinusic, All Rights Reserved.    $v = join_with(", ", @v);
   
 This program is free software; you can redistribute it and/or modify it  
 under the same terms as Perl itself.  
397    
398  =cut  =cut
399    
400  1; # End of WebPAC::DB  sub join_with {
401            my $d = shift;
402            return join($d, grep { defined($_) && $_ ne '' } @_);
403    }
404    
405    # END
406    1;

Legend:
Removed from v.14  
changed lines
  Added in v.541

  ViewVC Help
Powered by ViewVC 1.1.26