/[Search-Estraier]/trunk/lib/Search/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/Search/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 2 by dpavlin, Wed Jan 4 13:11:43 2006 UTC revision 58 by dpavlin, Fri Jan 6 21:05:05 2006 UTC
# Line 4  use 5.008; Line 4  use 5.008;
4  use strict;  use strict;
5  use warnings;  use warnings;
6    
 require Exporter;  
   
 our @ISA = qw(Exporter);  
   
 our %EXPORT_TAGS = ( 'all' => [ qw(  
 ) ] );  
   
 our @EXPORT_OK = ( @{ $EXPORT_TAGS{'all'} } );  
   
 our @EXPORT = qw(  
 );  
   
7  our $VERSION = '0.00';  our $VERSION = '0.00';
8    
 use Carp;  
   
9  =head1 NAME  =head1 NAME
10    
11  Search::Estraier - pure perl module to use Hyper Estraier search engine  Search::Estraier - pure perl module to use Hyper Estraier search engine
# Line 41  implementation. It also includes methods Line 27  implementation. It also includes methods
27    
28  =cut  =cut
29    
30    =head1 Inheritable common methods
31    
32    This methods should really move somewhere else.
33    
34    =head2 _s
35    
36    Remove multiple whitespaces from string, as well as whitespaces at beginning or end
37    
38     my $text = $self->_s(" this  is a text  ");
39     $text = 'this is a text';
40    
41    =cut
42    
43    sub _s {
44            my $text = $_[1] || return;
45            $text =~ s/\s\s+/ /gs;
46            $text =~ s/^\s+//;
47            $text =~ s/\s+$//;
48            return $text;
49    }
50    
51  package Search::Estraier::Document;  package Search::Estraier::Document;
52    
53    use Carp qw/croak confess/;
54    
55    use Search::Estraier;
56    our @ISA = qw/Search::Estraier/;
57    
58  =head1 Search::Estraier::Document  =head1 Search::Estraier::Document
59    
60  Document for HyperEstraier  This class implements Document which is collection of attributes
61    (key=value), vectors (also key value) display text and hidden text.
62    
63    
64  =head2 new  =head2 new
65    
66    Create new document, empty or from draft.
67    
68    my $doc = new Search::HyperEstraier::Document;    my $doc = new Search::HyperEstraier::Document;
69      my $doc2 = new Search::HyperEstraier::Document( $draft );
70    
71  =cut  =cut
72    
73  sub new {  sub new {
74          my $class = shift;          my $class = shift;
75          my $self = {@_};          my $self = {};
76          bless($self, $class);          bless($self, $class);
77    
78            $self->{id} = -1;
79    
80            my $draft = shift;
81    
82            if ($draft) {
83                    my $in_text = 0;
84                    foreach my $line (split(/\n/, $draft)) {
85    
86                            if ($in_text) {
87                                    if ($line =~ /^\t/) {
88                                            push @{ $self->{htexts} }, substr($line, 1);
89                                    } else {
90                                            push @{ $self->{dtexts} }, $line;
91                                    }
92                                    next;
93                            }
94    
95                            if ($line =~ m/^%VECTOR\t(.+)$/) {
96                                    my @fields = split(/\t/, $1);
97                                    for my $i ( 0 .. ($#fields - 1) ) {
98                                            $self->{kwords}->{ $fields[ $i ] } = $fields[ $i + 1 ];
99                                            $i++;
100                                    }
101                                    next;
102                            } elsif ($line =~ m/^%/) {
103                                    # What is this? comment?
104                                    #warn "$line\n";
105                                    next;
106                            } elsif ($line =~ m/^$/) {
107                                    $in_text = 1;
108                                    next;
109                            } elsif ($line =~ m/^(.+)=(.+)$/) {
110                                    $self->{attrs}->{ $1 } = $2;
111                                    next;
112                            }
113    
114                            warn "draft ignored: $line\n";
115                    }
116            }
117    
118          $self ? return $self : return undef;          $self ? return $self : return undef;
119  }  }
120    
121    
122  =head2 add_attr  =head2 add_attr
123    
124    Add an attribute.
125    
126    $doc->add_attr( name => 'value' );    $doc->add_attr( name => 'value' );
127    
128    Delete attribute using
129    
130      $doc->add_attr( name => undef );
131    
132  =cut  =cut
133    
134  sub add_attr {  sub add_attr {
# Line 72  sub add_attr { Line 136  sub add_attr {
136          my $attrs = {@_};          my $attrs = {@_};
137    
138          while (my ($name, $value) = each %{ $attrs }) {          while (my ($name, $value) = each %{ $attrs }) {
139                  $name =~ s/\s\s+/ /gs;                  if (! defined($value)) {
140                  $value =~ s/\s\s+/ /gs;                          delete( $self->{attrs}->{ $self->_s($name) } );
141                  push @{$self->{$name}}, $value;                  } else {
142                            $self->{attrs}->{ $self->_s($name) } = $self->_s($value);
143                    }
144          }          }
145    
146            return 1;
147    }
148    
149    
150    =head2 add_text
151    
152    Add a sentence of text.
153    
154      $doc->add_text('this is example text to display');
155    
156    =cut
157    
158    sub add_text {
159            my $self = shift;
160            my $text = shift;
161            return unless defined($text);
162    
163            push @{ $self->{dtexts} }, $self->_s($text);
164    }
165    
166    
167    =head2 add_hidden_text
168    
169    Add a hidden sentence.
170    
171      $doc->add_hidden_text('this is example text just for search');
172    
173    =cut
174    
175    sub add_hidden_text {
176            my $self = shift;
177            my $text = shift;
178            return unless defined($text);
179    
180            push @{ $self->{htexts} }, $self->_s($text);
181  }  }
182    
183    
184    =head2 id
185    
186    Get the ID number of document. If the object has never been registred, C<-1> is returned.
187    
188      print $doc->id;
189    
190    =cut
191    
192    sub id {
193            my $self = shift;
194            return $self->{id};
195    }
196    
 package Search::Estraier::Master;  
197    
198  use Carp;  =head2 attr_names
199    
200  =head1 Search::Estraier::Master  Returns array with attribute names from document object.
201    
202  Controll node master. This requires user with administration priviledges.    my @attrs = $doc->attr_names;
203    
204  =cut  =cut
205    
206  {  sub attr_names {
207          package RequestAgent;          my $self = shift;
208          @ISA = qw(LWP::UserAgent);          croak "attr_names return array, not scalar" if (! wantarray);
209            return sort keys %{ $self->{attrs} };
210    }
211    
212    
213    =head2 attr
214    
215    Returns value of an attribute.
216    
217      my $value = $doc->attr( 'attribute' );
218    
219    =cut
220    
221          sub new {  sub attr {
222                  my $self = LWP::UserAgent::new(@_);          my $self = shift;
223                  $self->agent("Search-Estraier/$Search::Estraer::VERSION");          my $name = shift;
224                  $self;  
225            return $self->{'attrs'}->{ $name };
226    }
227    
228    
229    =head2 texts
230    
231    Returns array with text sentences.
232    
233      my @texts = $doc->texts;
234    
235    =cut
236    
237    sub texts {
238            my $self = shift;
239            confess "texts return array, not scalar" if (! wantarray);
240            return @{ $self->{dtexts} };
241    }
242    
243    
244    =head2 cat_texts
245    
246    Return whole text as single scalar.
247    
248     my $text = $doc->cat_texts;
249    
250    =cut
251    
252    sub cat_texts {
253            my $self = shift;
254            return join(' ',@{ $self->{dtexts} });
255    }
256    
257    
258    =head2 dump_draft
259    
260    Dump draft data from document object.
261    
262      print $doc->dump_draft;
263    
264    =cut
265    
266    sub dump_draft {
267            my $self = shift;
268            my $draft;
269    
270            foreach my $attr_name (sort keys %{ $self->{attrs} }) {
271                    $draft .= $attr_name . '=' . $self->{attrs}->{$attr_name} . "\n";
272          }          }
273    
274          sub get_basic_credentials {          if ($self->{kwords}) {
275                  my($self, $realm, $uri) = @_;                  $draft .= '%%VECTOR';
276  #               return ($user, $password);                  while (my ($key, $value) = each %{ $self->{kwords} }) {
277                            $draft .= "\t$key\t$value";
278                    }
279                    $draft .= "\n";
280          }          }
281    
282            $draft .= "\n";
283    
284            $draft .= join("\n", @{ $self->{dtexts} }) . "\n" if ($self->{dtexts});
285            $draft .= "\t" . join("\n\t", @{ $self->{htexts} }) . "\n" if ($self->{htexts});
286    
287            return $draft;
288  }  }
289    
290    
291    =head2 delete
292    
293    Empty document object
294    
295      $doc->delete;
296    
297    This function is addition to original Ruby API, and since it was included in C wrappers it's here as a
298    convinience. Document objects which go out of scope will be destroyed
299    automatically.
300    
301    =cut
302    
303    sub delete {
304            my $self = shift;
305    
306            foreach my $data (qw/attrs dtexts stexts kwords/) {
307                    delete($self->{$data});
308            }
309    
310            $self->{id} = -1;
311    
312            return 1;
313    }
314    
315    
316    
317    package Search::Estraier::Condition;
318    
319    use Carp qw/confess croak/;
320    
321    use Search::Estraier;
322    our @ISA = qw/Search::Estraier/;
323    
324    =head1 Search::Estraier::Condition
325    
326  =head2 new  =head2 new
327    
328  Create new connection to node master.    my $cond = new Search::HyperEstraier::Condition;
329    
330    =cut
331    
332    sub new {
333            my $class = shift;
334            my $self = {};
335            bless($self, $class);
336    
337            $self->{max} = -1;
338            $self->{options} = 0;
339    
340            $self ? return $self : return undef;
341    }
342    
343    
344    =head2 set_phrase
345    
346      $cond->set_phrase('search phrase');
347    
348    =cut
349    
350    sub set_phrase {
351            my $self = shift;
352            $self->{phrase} = $self->_s( shift );
353    }
354    
355    
356    =head2 add_attr
357    
358      $cond->add_attr('@URI STRINC /~dpavlin/');
359    
360    =cut
361    
362    sub add_attr {
363            my $self = shift;
364            my $attr = shift || return;
365            push @{ $self->{attrs} }, $self->_s( $attr );
366    }
367    
368    
369    =head2 set_order
370    
371      $cond->set_order('@mdate NUMD');
372    
373    =cut
374    
375    sub set_order {
376            my $self = shift;
377            $self->{order} = shift;
378    }
379    
380    
381    =head2 set_max
382    
383      $cond->set_max(42);
384    
385    =cut
386    
387    sub set_max {
388            my $self = shift;
389            my $max = shift;
390            croak "set_max needs number, not '$max'" unless ($max =~ m/^\d+$/);
391            $self->{max} = $max;
392    }
393    
394    
395    =head2 set_options
396    
397      $cond->set_options( SURE => 1 );
398    
399    =cut
400    
401    my $options = {
402            # check N-gram keys skipping by three
403            SURE => 1 << 0,
404            # check N-gram keys skipping by two
405            USUAL => 1 << 1,
406            # without TF-IDF tuning
407            FAST => 1 << 2,
408            # with the simplified phrase
409            AGITO => 1 << 3,
410            # check every N-gram key
411            NOIDF => 1 << 4,
412            # check N-gram keys skipping by one
413            SIMPLE => 1 << 10,
414    };
415    
416    sub set_options {
417            my $self = shift;
418            my $option = shift;
419            confess "unknown option" unless ($options->{$option});
420            $self->{options} ||= $options->{$option};
421    }
422    
423    
424    =head2 phrase
425    
426    my $master = new Search::Estraier::Master(  Return search phrase.
427          url => 'http://localhost:1978',  
428          user => 'admin',    print $cond->phrase;
429          passwd => 'admin',  
430    =cut
431    
432    sub phrase {
433            my $self = shift;
434            return $self->{phrase};
435    }
436    
437    
438    =head2 order
439    
440    Return search result order.
441    
442      print $cond->order;
443    
444    =cut
445    
446    sub order {
447            my $self = shift;
448            return $self->{order};
449    }
450    
451    
452    =head2 attrs
453    
454    Return search result attrs.
455    
456      my @cond_attrs = $cond->attrs;
457    
458    =cut
459    
460    sub attrs {
461            my $self = shift;
462            #croak "attrs return array, not scalar" if (! wantarray);
463            return @{ $self->{attrs} };
464    }
465    
466    
467    =head2 max
468    
469    Return maximum number of results.
470    
471      print $cond->max;
472    
473    C<-1> is returned for unitialized value, C<0> is unlimited.
474    
475    =cut
476    
477    sub max {
478            my $self = shift;
479            return $self->{max};
480    }
481    
482    
483    =head2 options
484    
485    Return options for this condition.
486    
487      print $cond->options;
488    
489    Options are returned in numerical form.
490    
491    =cut
492    
493    sub options {
494            my $self = shift;
495            return $self->{options};
496    }
497    
498    
499    package Search::Estraier::ResultDocument;
500    
501    use Carp qw/croak/;
502    
503    #use Search::Estraier;
504    #our @ISA = qw/Search::Estraier/;
505    
506    =head1 Search::Estraier::ResultDocument
507    
508    =head2 new
509    
510      my $rdoc = new Search::HyperEstraier::ResultDocument(
511            uri => 'http://localhost/document/uri/42',
512            attrs => {
513                    foo => 1,
514                    bar => 2,
515            },
516            snippet => 'this is a text of snippet'
517            keywords => 'this\tare\tkeywords'
518      );
519    
520    =cut
521    
522    sub new {
523            my $class = shift;
524            my $self = {@_};
525            bless($self, $class);
526    
527            foreach my $f (qw/uri attrs snippet keywords/) {
528                    croak "missing $f for ResultDocument" unless defined($self->{$f});
529            }
530    
531            $self ? return $self : return undef;
532    }
533    
534    
535    =head2 uri
536    
537    Return URI of result document
538    
539      print $rdoc->uri;
540    
541    =cut
542    
543    sub uri {
544            my $self = shift;
545            return $self->{uri};
546    }
547    
548    
549    =head2 attr_names
550    
551    Returns array with attribute names from result document object.
552    
553      my @attrs = $rdoc->attr_names;
554    
555    =cut
556    
557    sub attr_names {
558            my $self = shift;
559            croak "attr_names return array, not scalar" if (! wantarray);
560            return sort keys %{ $self->{attrs} };
561    }
562    
563    
564    =head2 attr
565    
566    Returns value of an attribute.
567    
568      my $value = $rdoc->attr( 'attribute' );
569    
570    =cut
571    
572    sub attr {
573            my $self = shift;
574            my $name = shift || return;
575            return $self->{attrs}->{ $name };
576    }
577    
578    
579    =head2 snippet
580    
581    Return snippet from result document
582    
583      print $rdoc->snippet;
584    
585    =cut
586    
587    sub snippet {
588            my $self = shift;
589            return $self->{snippet};
590    }
591    
592    
593    =head2 keywords
594    
595    Return keywords from result document
596    
597      print $rdoc->keywords;
598    
599    =cut
600    
601    sub keywords {
602            my $self = shift;
603            return $self->{keywords};
604    }
605    
606    
607    package Search::Estraier::NodeResult;
608    
609    use Carp qw/croak/;
610    
611    #use Search::Estraier;
612    #our @ISA = qw/Search::Estraier/;
613    
614    =head1 Search::Estraier::NodeResult
615    
616    =head2 new
617    
618      my $res = new Search::HyperEstraier::NodeResult(
619            docs => @array_of_rdocs,
620            hits => %hash_with_hints,
621    );    );
622    
623  =cut  =cut
# Line 125  sub new { Line 627  sub new {
627          my $self = {@_};          my $self = {@_};
628          bless($self, $class);          bless($self, $class);
629    
630          foreach my $p (qw/url user passwd/) {          foreach my $f (qw/docs hints/) {
631                  croak "need $p" unless ($self->{$p});                  croak "missing $f for ResultDocument" unless defined($self->{$f});
632          }          }
633    
634          $self ? return $self : return undef;          $self ? return $self : return undef;
635  }  }
636    
637    
638    =head2 doc_num
639    
640    Return number of documents
641    
642      print $res->doc_num;
643    
644    =cut
645    
646    sub doc_num {
647            my $self = shift;
648            return $#{$self->{docs}} + 1;
649    }
650    
651    
652    =head2 get_doc
653    
654    Return single document
655    
656      my $doc = $res->get_doc( 42 );
657    
658    Returns undef if document doesn't exist.
659    
660    =cut
661    
662    sub get_doc {
663            my $self = shift;
664            my $num = shift;
665            croak "expect number as argument, not '$num'" unless ($num =~ m/^\d+$/);
666            return undef if ($num < 0 || $num > $self->{docs});
667            return $self->{docs}->[$num];
668    }
669    
670    
671    =head2 hint
672    
673    Return specific hint from results.
674    
675      print $rec->hint( 'VERSION' );
676    
677    Possible hints are: C<VERSION>, C<NODE>, C<HIT>, C<HINT#n>, C<DOCNUM>, C<WORDNUM>,
678    C<TIME>, C<LINK#n>, C<VIEW>.
679    
680    =cut
681    
682    sub hint {
683            my $self = shift;
684            my $key = shift || return;
685            return $self->{hints}->{$key};
686    }
687    
688    
689    package Search::Estraier::Node;
690    
691    use Carp qw/carp croak confess/;
692    use URI;
693    use MIME::Base64;
694    use IO::Socket::INET;
695    use URI::Escape qw/uri_escape/;
696    
697    =head1 Search::Estraier::Node
698    
699    =head2 new
700    
701      my $node = new Search::HyperEstraier::Node;
702    
703    =cut
704    
705    sub new {
706            my $class = shift;
707            my $self = {
708                    pxport => -1,
709                    timeout => 0,   # this used to be -1
710                    dnum => -1,
711                    wnum => -1,
712                    size => -1.0,
713                    wwidth => 480,
714                    hwidth => 96,
715                    awidth => 96,
716                    status => -1,
717            };
718            bless($self, $class);
719    
720            my $args = {@_};
721    
722            $self->{debug} = $args->{debug};
723            warn "## Node debug on\n" if ($self->{debug});
724    
725            $self ? return $self : return undef;
726    }
727    
728    
729    =head2 set_url
730    
731    Specify URL to node server
732    
733      $node->set_url('http://localhost:1978');
734    
735    =cut
736    
737    sub set_url {
738            my $self = shift;
739            $self->{url} = shift;
740    }
741    
742    
743    =head2 set_proxy
744    
745    Specify proxy server to connect to node server
746    
747      $node->set_proxy('proxy.example.com', 8080);
748    
749    =cut
750    
751    sub set_proxy {
752            my $self = shift;
753            my ($host,$port) = @_;
754            croak "proxy port must be number, not '$port'" unless ($port =~ m/^\d+$/);
755            $self->{pxhost} = $host;
756            $self->{pxport} = $port;
757    }
758    
759    
760    =head2 set_timeout
761    
762    Specify timeout of connection in seconds
763    
764      $node->set_timeout( 15 );
765    
766    =cut
767    
768    sub set_timeout {
769            my $self = shift;
770            my $sec = shift;
771            croak "timeout must be number, not '$sec'" unless ($sec =~ m/^\d+$/);
772            $self->{timeout} = $sec;
773    }
774    
775    
776    =head2 set_auth
777    
778    Specify name and password for authentication to node server.
779    
780      $node->set_auth('clint','eastwood');
781    
782    =cut
783    
784    sub set_auth {
785            my $self = shift;
786            my ($login,$passwd) = @_;
787            my $basic_auth = encode_base64( "$login:$passwd" );
788            chomp($basic_auth);
789            $self->{auth} = $basic_auth;
790    }
791    
792    
793    =head2 status
794    
795    Return status code of last request.
796    
797      print $node->status;
798    
799    C<-1> means connection failure.
800    
801    =cut
802    
803    sub status {
804            my $self = shift;
805            return $self->{status};
806    }
807    
808    
809    =head2 put_doc
810    
811    Add a document
812    
813      $node->put_doc( $document_draft ) or die "can't add document";
814    
815    Return true on success or false on failture.
816    
817    =cut
818    
819    sub put_doc {
820            my $self = shift;
821            my $doc = shift || return;
822            return unless ($self->{url} && $doc->isa('Search::Estraier::Document'));
823            $self->shuttle_url( $self->{url} . '/put_doc',
824                    'text/x-estraier-draft',
825                    $doc->dump_draft,
826                    undef
827            ) == 200;
828    }
829    
830    
831    =head2 out_doc
832    
833    Remove a document
834    
835      $node->out_doc( document_id ) or "can't remove document";
836    
837    Return true on success or false on failture.
838    
839    =cut
840    
841    sub out_doc {
842            my $self = shift;
843            my $id = shift || return;
844            return unless ($self->{url});
845            croak "id must be number, not '$id'" unless ($id =~ m/^\d+$/);
846            $self->shuttle_url( $self->{url} . '/out_doc',
847                    'application/x-www-form-urlencoded',
848                    "id=$id",
849                    undef
850            ) == 200;
851    }
852    
853    
854    =head2 out_doc_by_uri
855    
856    Remove a registrated document using it's uri
857    
858      $node->out_doc_by_uri( 'file:///document/uri/42' ) or "can't remove document";
859    
860    Return true on success or false on failture.
861    
862    =cut
863    
864    sub out_doc_by_uri {
865            my $self = shift;
866            my $uri = shift || return;
867            return unless ($self->{url});
868            $self->shuttle_url( $self->{url} . '/out_doc',
869                    'application/x-www-form-urlencoded',
870                    "uri=" . uri_escape($uri),
871                    undef
872            ) == 200;
873    }
874    
875    
876    =head2 edit_doc
877    
878    Edit attributes of a document
879    
880      $node->edit_doc( $document_draft ) or die "can't edit document";
881    
882    Return true on success or false on failture.
883    
884    =cut
885    
886    sub edit_doc {
887            my $self = shift;
888            my $doc = shift || return;
889            return unless ($self->{url} && $doc->isa('Search::Estraier::Document'));
890            $self->shuttle_url( $self->{url} . '/edit_doc',
891                    'text/x-estraier-draft',
892                    $doc->dump_draft,
893                    undef
894            ) == 200;
895    }
896    
897    
898    =head2 get_doc
899    
900    Retreive document
901    
902      my $doc = $node->get_doc( document_id ) or die "can't get document";
903    
904    Return true on success or false on failture.
905    
906    =cut
907    
908    sub get_doc {
909            my $self = shift;
910            my $id = shift || return;
911            return $self->_fetch_doc( id => $id );
912    }
913    
914    
915    =head2 get_doc_by_uri
916    
917    Retreive document
918    
919      my $doc = $node->get_doc_by_uri( 'file:///document/uri/42' ) or die "can't get document";
920    
921    Return true on success or false on failture.
922    
923    =cut
924    
925    sub get_doc_by_uri {
926            my $self = shift;
927            my $uri = shift || return;
928            return $self->_fetch_doc( uri => $uri );
929    }
930    
931    
932    =head2 get_doc_attr
933    
934    Retrieve the value of an atribute from object
935    
936      my $val = $node->get_doc_attr( document_id, 'attribute_name' ) or
937            die "can't get document attribute";
938    
939    =cut
940    
941    sub get_doc_attr {
942            my $self = shift;
943            my ($id,$name) = @_;
944            return unless ($id && $name);
945            return $self->_fetch_doc( id => $id, attr => $name );
946    }
947    
948    
949    =head2 get_doc_attr_by_uri
950    
951    Retrieve the value of an atribute from object
952    
953      my $val = $node->get_doc_attr_by_uri( document_id, 'attribute_name' ) or
954            die "can't get document attribute";
955    
956    =cut
957    
958    sub get_doc_attr_by_uri {
959            my $self = shift;
960            my ($uri,$name) = @_;
961            return unless ($uri && $name);
962            return $self->_fetch_doc( uri => $uri, attr => $name );
963    }
964    
965    
966    =head2 etch_doc
967    
968    Exctract document keywords
969    
970      my $keywords = $node->etch_doc( document_id ) or die "can't etch document";
971    
972    =cut
973    
974    sub etch_doc {
975            my $self = shift;
976            my $id = shift || return;
977            return $self->_fetch_doc( id => $id, etch => 1 );
978    }
979    
980    =head2 etch_doc_by_uri
981    
982    Retreive document
983    
984      my $keywords = $node->etch_doc_by_uri( 'file:///document/uri/42' ) or die "can't etch document";
985    
986    Return true on success or false on failture.
987    
988    =cut
989    
990    sub etch_doc_by_uri {
991            my $self = shift;
992            my $uri = shift || return;
993            return $self->_fetch_doc( uri => $uri, etch => 1 );
994    }
995    
996    
997    =head2 uri_to_id
998    
999    Get ID of document specified by URI
1000    
1001      my $id = $node->uri_to_id( 'file:///document/uri/42' );
1002    
1003    =cut
1004    
1005    sub uri_to_id {
1006            my $self = shift;
1007            my $uri = shift || return;
1008            return $self->_fetch_doc( uri => $uri, path => '/uri_to_id', chomp_resbody => 1 );
1009    }
1010    
1011    
1012    =head2 _fetch_doc
1013    
1014    Private function used for implementing of C<get_doc>, C<get_doc_by_uri>,
1015    C<etch_doc>, C<etch_doc_by_uri>.
1016    
1017     # this will decode received draft into Search::Estraier::Document object
1018     my $doc = $node->_fetch_doc( id => 42 );
1019     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42' );
1020    
1021     # to extract keywords, add etch
1022     my $doc = $node->_fetch_doc( id => 42, etch => 1 );
1023     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', etch => 1 );
1024    
1025     # to get document attrubute add attr
1026     my $doc = $node->_fetch_doc( id => 42, attr => '@mdate' );
1027     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', attr => '@mdate' );
1028    
1029     # more general form which allows implementation of
1030     # uri_to_id
1031     my $id = $node->_fetch_doc(
1032            uri => 'file:///document/uri/42',
1033            path => '/uri_to_id',
1034            chomp_resbody => 1
1035     );
1036    
1037    =cut
1038    
1039    sub _fetch_doc {
1040            my $self = shift;
1041            my $a = {@_};
1042            return unless ( ($a->{id} || $a->{uri}) && $self->{url} );
1043    
1044            my ($arg, $resbody);
1045    
1046            my $path = $a->{path} || '/get_doc';
1047            $path = '/etch_doc' if ($a->{etch});
1048    
1049            if ($a->{id}) {
1050                    croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);
1051                    $arg = 'id=' . $a->{id};
1052            } elsif ($a->{uri}) {
1053                    $arg = 'uri=' . uri_escape($a->{uri});
1054            } else {
1055                    confess "unhandled argument. Need id or uri.";
1056            }
1057    
1058            if ($a->{attr}) {
1059                    $path = '/get_doc_attr';
1060                    $arg .= '&attr=' . uri_escape($a->{attr});
1061                    $a->{chomp_resbody} = 1;
1062            }
1063    
1064            my $rv = $self->shuttle_url( $self->{url} . $path,
1065                    'application/x-www-form-urlencoded',
1066                    $arg,
1067                    \$resbody,
1068            );
1069    
1070            return if ($rv != 200);
1071    
1072            if ($a->{etch}) {
1073                    $self->{kwords} = {};
1074                    return +{} unless ($resbody);
1075                    foreach my $l (split(/\n/, $resbody)) {
1076                            my ($k,$v) = split(/\t/, $l, 2);
1077                            $self->{kwords}->{$k} = $v if ($v);
1078                    }
1079                    return $self->{kwords};
1080            } elsif ($a->{chomp_resbody}) {
1081                    return unless (defined($resbody));
1082                    chomp($resbody);
1083                    return $resbody;
1084            } else {
1085                    return new Search::Estraier::Document($resbody);
1086            }
1087    }
1088    
1089    
1090    =head2 name
1091    
1092      my $node_name = $node->name;
1093    
1094    =cut
1095    
1096    sub name {
1097            my $self = shift;
1098            $self->_set_info unless ($self->{name});
1099            return $self->{name};
1100    }
1101    
1102    
1103    =head2 label
1104    
1105      my $node_label = $node->label;
1106    
1107    =cut
1108    
1109    sub label {
1110            my $self = shift;
1111            $self->_set_info unless ($self->{label});
1112            return $self->{label};
1113    }
1114    
1115    
1116    =head2 doc_num
1117    
1118      my $documents_in_node = $node->doc_num;
1119    
1120    =cut
1121    
1122    sub doc_num {
1123            my $self = shift;
1124            $self->_set_info if ($self->{dnum} < 0);
1125            return $self->{dnum};
1126    }
1127    
1128    
1129    =head2 word_num
1130    
1131      my $words_in_node = $node->word_num;
1132    
1133    =cut
1134    
1135    sub word_num {
1136            my $self = shift;
1137            $self->_set_info if ($self->{wnum} < 0);
1138            return $self->{wnum};
1139    }
1140    
1141    
1142    =head2 size
1143    
1144      my $node_size = $node->size;
1145    
1146    =cut
1147    
1148    sub size {
1149            my $self = shift;
1150            $self->_set_info if ($self->{size} < 0);
1151            return $self->{size};
1152    }
1153    
1154    
1155    =head2 search
1156    
1157    Search documents which match condition
1158    
1159      my $nres = $node->search( $cond, $depth );
1160    
1161    C<$cond> is C<Search::Estraier::Condition> object, while <$depth> specifies
1162    depth for meta search.
1163    
1164    Function results C<Search::Estraier::NodeResult> object.
1165    
1166    =cut
1167    
1168    sub search {
1169            my $self = shift;
1170            my ($cond, $depth) = @_;
1171            return unless ($cond && defined($depth) && $self->{url});
1172            croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1173            croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);
1174    
1175            my $resbody;
1176    
1177            my $rv = $self->shuttle_url( $self->{url} . '/search',
1178                    'application/x-www-form-urlencoded',
1179                    $self->cond_to_query( $cond ),
1180                    \$resbody,
1181            );
1182            return if ($rv != 200);
1183    
1184            my (@docs, $hints);
1185    
1186            my @lines = split(/\n/, $resbody);
1187            return unless (@lines);
1188    
1189            my $border = $lines[0];
1190            my $isend = 0;
1191            my $lnum = 1;
1192    
1193            while ( $lnum <= $#lines ) {
1194                    my $line = $lines[$lnum];
1195                    $lnum++;
1196    
1197                    #warn "## $line\n";
1198                    if ($line && $line =~ m/^\Q$border\E(:END)*$/) {
1199                            $isend = $1;
1200                            last;
1201                    }
1202    
1203                    if ($line =~ /\t/) {
1204                            my ($k,$v) = split(/\t/, $line, 2);
1205                            $hints->{$k} = $v;
1206                    }
1207            }
1208    
1209            my $snum = $lnum;
1210    
1211            while( ! $isend && $lnum <= $#lines ) {
1212                    my $line = $lines[$lnum];
1213                    #warn "# $lnum: $line\n";
1214                    $lnum++;
1215    
1216                    if ($line && $line =~ m/^\Q$border\E/) {
1217                            if ($lnum > $snum) {
1218                                    my $rdattrs;
1219                                    my $rdvector;
1220                                    my $rdsnippet;
1221                                    
1222                                    my $rlnum = $snum;
1223                                    while ($rlnum < $lnum - 1 ) {
1224                                            #my $rdline = $self->_s($lines[$rlnum]);
1225                                            my $rdline = $lines[$rlnum];
1226                                            $rlnum++;
1227                                            last unless ($rdline);
1228                                            if ($rdline =~ /^%/) {
1229                                                    $rdvector = $1 if ($rdline =~ /^%VECTOR\t(.+)$/);
1230                                            } elsif($rdline =~ /=/) {
1231                                                    $rdattrs->{$1} = $2 if ($rdline =~ /^(.+)=(.+)$/);
1232                                            } else {
1233                                                    confess "invalid format of response";
1234                                            }
1235                                    }
1236                                    while($rlnum < $lnum - 1) {
1237                                            my $rdline = $lines[$rlnum];
1238                                            $rlnum++;
1239                                            $rdsnippet .= "$rdline\n";
1240                                    }
1241                                    #warn Dumper($rdvector, $rdattrs, $rdsnippet);
1242                                    if (my $rduri = $rdattrs->{'@uri'}) {
1243                                            push @docs, new Search::Estraier::ResultDocument(
1244                                                    uri => $rduri,
1245                                                    attrs => $rdattrs,
1246                                                    snippet => $rdsnippet,
1247                                                    keywords => $rdvector,
1248                                            );
1249                                    }
1250                            }
1251                            $snum = $lnum;
1252                            #warn "### $line\n";
1253                            $isend = 1 if ($line =~ /:END$/);
1254                    }
1255    
1256            }
1257    
1258            if (! $isend) {
1259                    warn "received result doesn't have :END\n$resbody";
1260                    return;
1261            }
1262    
1263            #warn Dumper(\@docs, $hints);
1264    
1265            return new Search::Estraier::NodeResult( docs => \@docs, hints => $hints );
1266    }
1267    
1268    
1269    =head2 cond_to_query
1270    
1271    Return URI encoded string generated from Search::Estraier::Condition
1272    
1273      my $args = $node->cond_to_query( $cond );
1274    
1275    =cut
1276    
1277    sub cond_to_query {
1278            my $self = shift;
1279    
1280            my $cond = shift || return;
1281            croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1282    
1283            my @args;
1284    
1285            if (my $phrase = $cond->phrase) {
1286                    push @args, 'phrase=' . uri_escape($phrase);
1287            }
1288    
1289            if (my @attrs = $cond->attrs) {
1290                    for my $i ( 0 .. $#attrs ) {
1291                            push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] );
1292                    }
1293            }
1294    
1295            if (my $order = $cond->order) {
1296                    push @args, 'order=' . uri_escape($order);
1297            }
1298                    
1299            if (my $max = $cond->max) {
1300                    push @args, 'max=' . $max;
1301            } else {
1302                    push @args, 'max=' . (1 << 30);
1303            }
1304    
1305            if (my $options = $cond->options) {
1306                    push @args, 'options=' . $options;
1307            }
1308    
1309            push @args, 'depth=' . $self->{depth} if ($self->{depth});
1310            push @args, 'wwidth=' . $self->{wwidth};
1311            push @args, 'hwidth=' . $self->{hwidth};
1312            push @args, 'awidth=' . $self->{awidth};
1313    
1314            return join('&', @args);
1315    }
1316    
1317    
1318    =head2 shuttle_url
1319    
1320    This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node
1321    master.
1322    
1323      my $rv = shuttle_url( $url, $content_type, $req_body, \$resbody );
1324    
1325    C<$resheads> and C<$resbody> booleans controll if response headers and/or response
1326    body will be saved within object.
1327    
1328    =cut
1329    
1330    sub shuttle_url {
1331            my $self = shift;
1332    
1333            my ($url, $content_type, $reqbody, $resbody) = @_;
1334    
1335            $self->{status} = -1;
1336    
1337            warn "## $url\n" if ($self->{debug});
1338    
1339            $url = new URI($url);
1340            if (
1341                            !$url || !$url->scheme || !$url->scheme eq 'http' ||
1342                            !$url->host || !$url->port || $url->port < 1
1343                    ) {
1344                    carp "can't parse $url\n";
1345                    return -1;
1346            }
1347    
1348            my ($host,$port,$query) = ($url->host, $url->port, $url->path);
1349    
1350            if ($self->{pxhost}) {
1351                    ($host,$port) = ($self->{pxhost}, $self->{pxport});
1352                    $query = "http://$host:$port/$query";
1353            }
1354    
1355            $query .= '?' . $url->query if ($url->query && ! $reqbody);
1356    
1357            my $headers;
1358    
1359            if ($reqbody) {
1360                    $headers .= "POST $query HTTP/1.0\r\n";
1361            } else {
1362                    $headers .= "GET $query HTTP/1.0\r\n";
1363            }
1364    
1365            $headers .= "Host: " . $url->host . ":" . $url->port . "\r\n";
1366            $headers .= "Connection: close\r\n";
1367            $headers .= "User-Agent: Search-Estraier/$Search::Estraier::VERSION\r\n";
1368            $headers .= "Content-Type: $content_type\r\n";
1369            $headers .= "Authorization: Basic $self->{auth}\r\n";
1370            my $len = 0;
1371            {
1372                    use bytes;
1373                    $len = length($reqbody) if ($reqbody);
1374            }
1375            $headers .= "Content-Length: $len\r\n";
1376            $headers .= "\r\n";
1377    
1378            my $sock = IO::Socket::INET->new(
1379                    PeerAddr        => $host,
1380                    PeerPort        => $port,
1381                    Proto           => 'tcp',
1382                    Timeout         => $self->{timeout} || 90,
1383            );
1384    
1385            if (! $sock) {
1386                    carp "can't open socket to $host:$port";
1387                    return -1;
1388            }
1389    
1390            warn $headers if ($self->{debug});
1391    
1392            print $sock $headers or
1393                    carp "can't send headers to network:\n$headers\n" and return -1;
1394    
1395            if ($reqbody) {
1396                    warn "$reqbody\n" if ($self->{debug});
1397                    print $sock $reqbody or
1398                            carp "can't send request body to network:\n$$reqbody\n" and return -1;
1399            }
1400    
1401            my $line = <$sock>;
1402            chomp($line);
1403            my ($schema, $res_status, undef) = split(/  */, $line, 3);
1404            return if ($schema !~ /^HTTP/ || ! $res_status);
1405    
1406            $self->{status} = $res_status;
1407            warn "## response status: $res_status\n" if ($self->{debug});
1408    
1409            # skip rest of headers
1410            $line = <$sock>;
1411            while ($line) {
1412                    $line = <$sock>;
1413                    $line =~ s/[\r\n]+$//;
1414                    warn "## ", $line || 'NULL', " ##\n" if ($self->{debug});
1415            };
1416    
1417            # read body
1418            $len = 0;
1419            do {
1420                    $len = read($sock, my $buf, 8192);
1421                    $$resbody .= $buf if ($resbody);
1422            } while ($len);
1423    
1424            warn "## response body:\n$$resbody\n" if ($resbody && $self->{debug});
1425    
1426            return $self->{status};
1427    }
1428    
1429    
1430    =head2 set_snippet_width
1431    
1432    Set width of snippets in results
1433    
1434      $node->set_snippet_width( $wwidth, $hwidth, $awidth );
1435    
1436    C<$wwidth> specifies whole width of snippet. It's C<480> by default. If it's C<0> snippet
1437    is not sent with results. If it is negative, whole document text is sent instead of snippet.
1438    
1439    C<$hwidth> specified width of strings from beginning of string. Default
1440    value is C<96>. Negative or zero value keep previous value.
1441    
1442    C<$awidth> specifies width of strings around each highlighted word. It's C<96> by default.
1443    If negative of zero value is provided previous value is kept unchanged.
1444    
1445    =cut
1446    
1447    sub set_snippet_width {
1448            my $self = shift;
1449    
1450            my ($wwidth, $hwidth, $awidth) = @_;
1451            $self->{wwidth} = $wwidth;
1452            $self->{hwidth} = $hwidth if ($hwidth >= 0);
1453            $self->{awidth} = $awidth if ($awidth >= 0);
1454    }
1455    
1456    
1457    =head2 set_user
1458    
1459    Manage users of node
1460    
1461      $node->set_user( 'name', $mode );
1462    
1463    C<$mode> can be one of:
1464    
1465    =over 4
1466    
1467    =item 0
1468    
1469    delete account
1470    
1471    =item 1
1472    
1473    set administrative right for user
1474    
1475    =item 2
1476    
1477    set user account as guest
1478    
1479    =back
1480    
1481    Return true on success, otherwise false.
1482    
1483    =cut
1484    
1485    sub set_user {
1486            my $self = shift;
1487            my ($name, $mode) = @_;
1488    
1489            return unless ($self->{url});
1490            croak "mode must be number, not '$mode'" unless ($mode =~ m/^\d+$/);
1491    
1492            $self->shuttle_url( $self->{url} . '/_set_user',
1493                    'text/plain',
1494                    'name=' . uri_escape($name) . '&mode=' . $mode,
1495                    undef
1496            ) == 200;
1497    }
1498    
1499    
1500    =head2 set_link
1501    
1502    Manage node links
1503    
1504      $node->set_link('http://localhost:1978/node/another', 'another node label', $credit);
1505    
1506    If C<$credit> is negative, link is removed.
1507    
1508    =cut
1509    
1510    sub set_link {
1511            my $self = shift;
1512            my ($url, $label, $credit) = @_;
1513    
1514            return unless ($self->{url});
1515            croak "mode credit be number, not '$credit'" unless ($credit =~ m/^\d+$/);
1516    
1517            my $reqbody = 'url=' . uri_escape($url) . '&label=' . uri_escape($label);
1518            $reqbody .= '&credit=' . $credit if ($credit > 0);
1519    
1520            $self->shuttle_url( $self->{url} . '/_set_link',
1521                    'text/plain',
1522                    $reqbody,
1523                    undef
1524            ) == 200;
1525    }
1526    
1527    
1528    =head1 PRIVATE METHODS
1529    
1530    You could call those directly, but you don't have to. I hope.
1531    
1532    =head2 _set_info
1533    
1534    Set information for node
1535    
1536      $node->_set_info;
1537    
1538    =cut
1539    
1540    sub _set_info {
1541            my $self = shift;
1542    
1543            $self->{status} = -1;
1544            return unless ($self->{url});
1545    
1546            my $resbody;
1547            my $rv = $self->shuttle_url( $self->{url} . '/inform',
1548                    'text/plain',
1549                    undef,
1550                    \$resbody,
1551            );
1552    
1553            return if ($rv != 200 || !$resbody);
1554    
1555            # it seems that response can have multiple line endings
1556            $resbody =~ s/[\r\n]+$//;
1557    
1558            ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =
1559                    split(/\t/, $resbody, 5);
1560    
1561    }
1562    
1563  ###  ###
1564    
# Line 153  Dobrica Pavlinusic, E<lt>dpavlin@rot13.o Line 1579  Dobrica Pavlinusic, E<lt>dpavlin@rot13.o
1579    
1580  =head1 COPYRIGHT AND LICENSE  =head1 COPYRIGHT AND LICENSE
1581    
1582  Copyright (C) 2005 by Dobrica Pavlinusic  Copyright (C) 2005-2006 by Dobrica Pavlinusic
1583    
1584  This library is free software; you can redistribute it and/or modify  This library is free software; you can redistribute it and/or modify
1585  it under the GPL v2 or later.  it under the GPL v2 or later.

Legend:
Removed from v.2  
changed lines
  Added in v.58

  ViewVC Help
Powered by ViewVC 1.1.26