/[webpac2]/trunk/lib/WebPAC/Output/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/WebPAC/Output/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1 by dpavlin, Sat Jun 25 20:23:23 2005 UTC revision 456 by dpavlin, Wed May 10 13:56:21 2006 UTC
# Line 3  package WebPAC::Output::Estraier; Line 3  package WebPAC::Output::Estraier;
3  use warnings;  use warnings;
4  use strict;  use strict;
5    
6    use base qw/WebPAC::Common/;
7    
8    use Search::Estraier;
9    use Encode qw/from_to/;
10    use Data::Dumper;
11    use LWP;
12    use URI::Escape;
13    
14  =head1 NAME  =head1 NAME
15    
16  WebPAC::Output::Estraier - The great new WebPAC::Output::Estraier!  WebPAC::Output::Estraier - Create Hyper Estraier full text index
17    
18  =head1 VERSION  =head1 VERSION
19    
20  Version 0.01  Version 0.10
21    
22  =cut  =cut
23    
24  our $VERSION = '0.01';  our $VERSION = '0.10';
25    
26  =head1 SYNOPSIS  =head1 SYNOPSIS
27    
28  Quick summary of what the module does.  Create full text index using Hyper Estraier index from data with
29    type C<search>.
30    
31  Perhaps a little code snippet.  =head1 FUNCTIONS
32    
33      use WebPAC::Output::Estraier;  =head2 new
34    
35      my $foo = WebPAC::Output::Estraier->new();  Connect to Hyper Estraier index using HTTP
     ...  
36    
37  =head1 EXPORT   my $est = new WebPAC::Output::Estraier(
38            masterurl => 'http://localhost:1978/',
39            user => 'admin',
40            passwd => 'admin',
41            database => 'demo',
42            label => 'node label',
43            encoding => 'iso-8859-2',
44            clean => 1,
45     );
46    
47  A list of functions that can be exported.  You can delete this section  Options are:
 if you don't export anything, such as for a purely object-oriented module.  
48    
49  =head1 FUNCTIONS  =over 4
50    
51    =item masterurl
52    
53    URI to C<estmaster> node
54    
55    =item user
56    
57    C<estmaster> user with sufficient rights
58    
59    =item passwd
60    
61    password for user
62    
63    =item database
64    
65    name of database from which data comes
66    
67    =item label
68    
69    label for node (optional)
70    
71    =item encoding
72    
73    character encoding of C<data_structure> if it's differenet than C<ISO-8859-2>
74    (and it probably is). This encoding will be converted to C<UTF-8> for
75    Hyper Estraier.
76    
77    =back
78    
79    Name of database will be used to form URI of documents in index.
80    
81    =cut
82    
83    sub new {
84            my $class = shift;
85            my $self = {@_};
86            bless($self, $class);
87    
88            my $log = $self->_get_logger;
89    
90            #$log->debug("self: ", sub { Dumper($self) });
91    
92            foreach my $p (qw/masterurl user passwd database/) {
93                    $log->logdie("need $p") unless ($self->{$p});
94            }
95    
96            $self->{encoding} ||= 'ISO-8859-2';
97    
98            my $url = $self->{masterurl} . '/node/' . $self->{database};
99            $self->{url} = $url;
100    
101            if ($self->{clean}) {
102                    $log->debug("nodedel $self->{database}");
103                    $self->master( action => 'nodedel', name => $self->{database} );
104            } else {
105                    $log->debug("opening index $self->{url}");
106            }
107    
108            my $nodes = $self->master( action => 'nodelist' );
109    
110            $log->debug("nodes found: $nodes");
111    
112            if ($nodes !~ m/^$self->{database}\t/sm) {
113                    my $label = $self->{label} || 'WebPAC ' . $self->{database};
114                    $log->warn("creating index $url ($label)");
115                    $self->master(
116                            action => 'nodeadd',
117                            name => $self->{database},
118                            label => $self->convert( $label ),
119                    ) || $log->logdie("can't create Hyper Estraier node $self->{database}");
120            }
121    
122            $self->{db} = Search::Estraier::Node->new( debug => $self->{debug} );
123            $self->{db}->set_url($self->{url});
124            $self->{db}->set_auth($self->{user}, $self->{passwd});
125    
126            $log->info("using index $self->{url} with encoding $self->{encoding}");
127    
128            $self ? return $self : return undef;
129    }
130    
131    
132    =head2 add
133    
134    Adds one entry to database.
135    
136      $est->add(
137            id => 42,
138            ds => $ds,
139            type => 'display',
140            text => 'optional text from which snippet is created',
141      );
142    
143    This function will create  entries in index using following URI format:
144    
145      C<file:///type/database%20name/000>
146    
147    Each tag in C<data_structure> with specified C<type> will create one
148    attribute and corresponding hidden text (used for search).
149    
150    =cut
151    
152    sub add {
153            my $self = shift;
154    
155            my $args = {@_};
156    
157            my $log = $self->_get_logger;
158    
159            my $database = $self->{'database'} || $log->logconfess('no database in $self');
160            $log->logconfess('need db in object') unless ($self->{'db'});
161    
162            foreach my $p (qw/id ds type/) {
163                    $log->logdie("need $p") unless ($args->{$p});
164            }
165    
166            my $type = $args->{'type'};
167            my $id = $args->{'id'};
168    
169            my $uri = "file:///$type/$database/$id";
170            $log->debug("creating $uri");
171    
172            my $doc = Search::Estraier::Document->new;
173            $doc->add_attr('@uri', $self->convert($uri) );
174    
175            $log->debug("ds = ", sub { Dumper($args->{'ds'}) } );
176    
177  =head2 function1          # filter all tags which have type defined
178            my @tags = grep {
179                    ref($args->{'ds'}->{$_}) eq 'HASH' && defined( $args->{'ds'}->{$_}->{$type} )
180            } keys %{ $args->{'ds'} };
181    
182            $log->debug("tags = ", join(",", @tags));
183    
184            return unless (@tags);
185    
186            foreach my $tag (@tags) {
187    
188                    my $vals = join(" ", @{ $args->{'ds'}->{$tag}->{$type} });
189    
190                    next if (! $vals);
191    
192                    $vals = $self->convert( $vals ) or
193                            $log->logdie("can't convert '$vals' to UTF-8");
194    
195                    $doc->add_attr( $tag, $vals );
196                    $doc->add_hidden_text( $vals );
197            }
198    
199            my $text = $args->{'text'};
200            if ( $text ) {
201                    $text = $self->convert( $text ) or
202                            $log->logdie("can't convert '$text' to UTF-8");
203                    $doc->add_text( $text );
204            }
205    
206            $log->debug("adding ", sub { $doc->dump_draft } );
207            $self->{'db'}->put_doc($doc) || $log->warn("can't add document $uri with draft " . $doc->dump_draft . " to node " . $self->{url} . " status: " . $self->{db}->status());
208    
209            return 1;
210    }
211    
212    #
213    # REST parametars validation data
214    #
215    
216    my $estraier_rest = {
217            master => {
218                    userdel => [ qw/name/ ],
219                    nodelist => [],
220                    nodeadd => [ qw/name label/ ],
221                    nodedel => [ qw/name/ ],
222            },
223            node => {
224                    _set_link => [ qw/url label credit/ ],
225            },
226    };
227    
228    =head2 master
229    
230    Issue administrative commands to C<estmaster> process and receive response
231    as array of lines
232    
233      my $nodelist = $est->master( action => 'nodelist' );
234    
235  =cut  =cut
236    
237  sub function1 {  sub master {
238            my $self = shift;
239    
240            my $args = {@_};
241            my $log = $self->_get_logger;
242    
243            my $action = $args->{action} || $log->logconfess("no action specified");
244    
245            $log->logdie("action '$action' isn't supported") unless ($estraier_rest->{master}->{$action});
246    
247            $log->debug("master action: $action");
248    
249            return $self->estcall(
250                    validate => 'master',
251                    rest_url => $self->{masterurl} . '/master?action=' . $action ,
252                    action => $action,
253                    %{ $args },
254            );
255  }  }
256    
257  =head2 function2  =head2 add_link
258    
259      $est->add_link(
260            from => 'ps',
261            to => 'webpac2',
262            credit => 10000,
263      );
264    
265  =cut  =cut
266    
267  sub function2 {  sub add_link {
268            my $self = shift;
269    
270            my $args = {@_};
271            my $log = $self->_get_logger;
272    
273            my @labels = $self->master( action => 'nodelist' );
274    
275            $log->debug("got labels: ", join("|", @labels));
276    
277            @labels = grep(/^$args->{to}\t/, @labels);
278            my $label = shift @labels;
279            (undef,$label) = split(/\t/, $label) if ($label);
280    
281            if (! $label) {
282                    $log->warn("can't find label for $args->{to}, skipping link creaton");
283                    return;
284            }
285    
286            $log->debug("using label $label for $args->{to}");
287    
288            return $self->estcall(
289                    validate => 'node',
290                    action => '_set_link',
291                    rest_url => $self->{masterurl} . '/node/' . $args->{from} . '/_set_link' ,
292                    url => $self->{masterurl} . '/node/' . $args->{to},
293                    label => $label,
294                    credit => $args->{credit},
295            );
296  }  }
297    
298  =head1 AUTHOR  =head2 estcall
299    
300  Dobrica Pavlinusic, C<< <dpavlin@rot13.org> >>  Workhourse which does actual calls to Hyper Estraier
301    
302  =head1 BUGS    $self->estcall(
303            rest_url => '/master?action=' . $action,
304            validate => 'master',
305            # ...
306      );
307    
308    C<rest_url> is relative URL to C<estmaster> and C<validate> is entry into
309    internal hash which will check if all parametars are available before
310    calling function.
311    
312  Please report any bugs or feature requests to  =cut
313  C<bug-webpac-output-estraier@rt.cpan.org>, or through the web interface at  
314  L<http://rt.cpan.org/NoAuth/ReportBug.html?Queue=WebPAC>.  sub estcall {
315  I will be notified, and then you'll automatically be notified of progress on          my $self = shift;
316  your bug as I make changes.          my $args = {@_};
317            my $log = $self->_get_logger;
318    
319            $log->debug("estcall: ",Dumper($args));
320    
321            foreach my $p (qw/rest_url validate action/) {
322                    $log->die("ectcall needs $p parametar") unless ($args->{$p});
323            }
324    
325            my $url = $args->{rest_url};
326            my $del = '?';
327            $del = '&' if ($url =~ m#\?#);
328    
329            my $url_args;
330    
331            foreach my $arg (@{ $estraier_rest->{ $args->{validate} }->{ $args->{action} } }) {
332                    $log->logdie("missing parametar $arg for action $args->{action}") unless ($args->{$arg});
333                    $url_args .= $del . $arg . '=' . uri_escape( $args->{$arg} );
334                    $del = '&';
335            }
336    
337            $url .= $url_args if ($url_args);
338    
339            $log->debug("calling $url");
340    
341            my $res = $self->est_ua()->get($url);
342    
343            if ($res->is_success) {
344                    #$log->debug( $res->content );
345                    return split(/\n/, $res->content) if wantarray;
346                    return $res->content || 0E0;
347            } else {
348                    $log->warn("unable to call $url: " . $res->status_line);
349                    return;
350            }
351    
352    }
353    
354    =head2 est_ua
355    
356    This is helper function to create C<LWP::UserAgent> object with Super User
357    priviledges
358    
359      my $ua = $self->est_ua( user => 'admin', passwd => 'admin' );
360    
361    =cut
362    
363                                                
364    
365    sub est_ua {
366            my $self = shift;
367    
368            return $self->{_master_ua} if ($self->{_master_ua});
369    
370            {
371                    package AdminUserAgent;
372                    use base qw/LWP::UserAgent/;
373                    sub new {
374                            my $self = LWP::UserAgent::new(@_);
375                            $self->agent("webpac/$VERSION");
376                            $self;
377                    }
378                    sub get_basic_credentials {
379                            my($self, $realm, $uri) = @_;
380                            return ($self->{user}, $self->{passwd});
381                    }
382                    sub set_basic_credentials {
383                            my ($self, $user, $passwd) = @_;
384                            $self->{user} = $user;
385                            $self->{passwd} = $passwd;
386                    }
387            };
388    
389            $self->{_master_ua} = AdminUserAgent->new( ) || sub {
390                    my $log = $self->_get_logger;
391                    $log->logdie("can't create LWP::UserAgent: $!");
392            };
393    
394  =head1 ACKNOWLEDGEMENTS          $self->{_master_ua}->set_basic_credentials($self->{user}, $self->{passwd});
395    
396            return $self->{_master_ua};
397    }
398    
399    =head2 convert
400    
401     my $utf8_string = $self->convert('string in codepage');
402    
403    =cut
404    
405    sub convert {
406            my $self = shift;
407    
408            my $text = shift || return;
409            from_to($text, $self->{encoding}, 'UTF-8');
410            return $text;
411    }
412    
413    =head1 AUTHOR
414    
415    Dobrica Pavlinusic, C<< <dpavlin@rot13.org> >>
416    
417  =head1 COPYRIGHT & LICENSE  =head1 COPYRIGHT & LICENSE
418    

Legend:
Removed from v.1  
changed lines
  Added in v.456

  ViewVC Help
Powered by ViewVC 1.1.26