/[Search-Estraier]/trunk/lib/Search/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/Search/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 39 by dpavlin, Thu Jan 5 22:36:10 2006 UTC revision 65 by dpavlin, Sat Jan 7 23:48:16 2006 UTC
# Line 4  use 5.008; Line 4  use 5.008;
4  use strict;  use strict;
5  use warnings;  use warnings;
6    
7  our $VERSION = '0.00';  our $VERSION = '0.02';
8    
9  =head1 NAME  =head1 NAME
10    
# Line 27  implementation. It also includes methods Line 27  implementation. It also includes methods
27    
28  =cut  =cut
29    
30    =head1 Inheritable common methods
31    
32    This methods should really move somewhere else.
33    
34  =head2 _s  =head2 _s
35    
36  Remove multiple whitespaces from string, as well as whitespaces at beginning or end  Remove multiple whitespaces from string, as well as whitespaces at beginning or end
# Line 56  our @ISA = qw/Search::Estraier/; Line 60  our @ISA = qw/Search::Estraier/;
60  This class implements Document which is collection of attributes  This class implements Document which is collection of attributes
61  (key=value), vectors (also key value) display text and hidden text.  (key=value), vectors (also key value) display text and hidden text.
62    
63    
64  =head2 new  =head2 new
65    
66  Create new document, empty or from draft.  Create new document, empty or from draft.
# Line 175  sub add_hidden_text { Line 180  sub add_hidden_text {
180          push @{ $self->{htexts} }, $self->_s($text);          push @{ $self->{htexts} }, $self->_s($text);
181  }  }
182    
183    
184  =head2 id  =head2 id
185    
186  Get the ID number of document. If the object has never been registred, C<-1> is returned.  Get the ID number of document. If the object has never been registred, C<-1> is returned.
# Line 188  sub id { Line 194  sub id {
194          return $self->{id};          return $self->{id};
195  }  }
196    
197    
198  =head2 attr_names  =head2 attr_names
199    
200  Returns array with attribute names from document object.  Returns array with attribute names from document object.
# Line 198  Returns array with attribute names from Line 205  Returns array with attribute names from
205    
206  sub attr_names {  sub attr_names {
207          my $self = shift;          my $self = shift;
208          croak "attr_names return array, not scalar" if (! wantarray);          return unless ($self->{attrs});
209            #croak "attr_names return array, not scalar" if (! wantarray);
210          return sort keys %{ $self->{attrs} };          return sort keys %{ $self->{attrs} };
211  }  }
212    
# Line 214  Returns value of an attribute. Line 222  Returns value of an attribute.
222  sub attr {  sub attr {
223          my $self = shift;          my $self = shift;
224          my $name = shift;          my $name = shift;
225            return unless (defined($name) && $self->{attrs});
226          return $self->{'attrs'}->{ $name };          return $self->{attrs}->{ $name };
227  }  }
228    
229    
# Line 229  Returns array with text sentences. Line 237  Returns array with text sentences.
237    
238  sub texts {  sub texts {
239          my $self = shift;          my $self = shift;
240          confess "texts return array, not scalar" if (! wantarray);          #confess "texts return array, not scalar" if (! wantarray);
241          return @{ $self->{dtexts} };          return @{ $self->{dtexts} } if ($self->{dtexts});
242  }  }
243    
244    
245  =head2 cat_texts  =head2 cat_texts
246    
247  Return whole text as single scalar.  Return whole text as single scalar.
# Line 243  Return whole text as single scalar. Line 252  Return whole text as single scalar.
252    
253  sub cat_texts {  sub cat_texts {
254          my $self = shift;          my $self = shift;
255          return join(' ',@{ $self->{dtexts} });          return join(' ',@{ $self->{dtexts} }) if ($self->{dtexts});
256  }  }
257    
258    
259  =head2 dump_draft  =head2 dump_draft
260    
261  Dump draft data from document object.  Dump draft data from document object.
# Line 272  sub dump_draft { Line 282  sub dump_draft {
282    
283          $draft .= "\n";          $draft .= "\n";
284    
285          $draft .= join("\n", @{ $self->{dtexts} }) . "\n";          $draft .= join("\n", @{ $self->{dtexts} }) . "\n" if ($self->{dtexts});
286          $draft .= "\t" . join("\n\t", @{ $self->{htexts} }) . "\n";          $draft .= "\t" . join("\n\t", @{ $self->{htexts} }) . "\n" if ($self->{htexts});
287    
288          return $draft;          return $draft;
289  }  }
290    
291    
292  =head2 delete  =head2 delete
293    
294  Empty document object  Empty document object
# Line 330  sub new { Line 341  sub new {
341          $self ? return $self : return undef;          $self ? return $self : return undef;
342  }  }
343    
344    
345  =head2 set_phrase  =head2 set_phrase
346    
347    $cond->set_phrase('search phrase');    $cond->set_phrase('search phrase');
# Line 341  sub set_phrase { Line 353  sub set_phrase {
353          $self->{phrase} = $self->_s( shift );          $self->{phrase} = $self->_s( shift );
354  }  }
355    
356    
357  =head2 add_attr  =head2 add_attr
358    
359    $cond->add_attr('@URI STRINC /~dpavlin/');    $cond->add_attr('@URI STRINC /~dpavlin/');
# Line 353  sub add_attr { Line 366  sub add_attr {
366          push @{ $self->{attrs} }, $self->_s( $attr );          push @{ $self->{attrs} }, $self->_s( $attr );
367  }  }
368    
369    
370  =head2 set_order  =head2 set_order
371    
372    $cond->set_order('@mdate NUMD');    $cond->set_order('@mdate NUMD');
# Line 364  sub set_order { Line 378  sub set_order {
378          $self->{order} = shift;          $self->{order} = shift;
379  }  }
380    
381    
382  =head2 set_max  =head2 set_max
383    
384    $cond->set_max(42);    $cond->set_max(42);
# Line 373  sub set_order { Line 388  sub set_order {
388  sub set_max {  sub set_max {
389          my $self = shift;          my $self = shift;
390          my $max = shift;          my $max = shift;
391          croak "set_max needs number" unless ($max =~ m/^\d+$/);          croak "set_max needs number, not '$max'" unless ($max =~ m/^\d+$/);
392          $self->{max} = $max;          $self->{max} = $max;
393  }  }
394    
395    
396  =head2 set_options  =head2 set_options
397    
398    $cond->set_options( SURE => 1 );    $cond->set_options( SURE => 1 );
# Line 405  sub set_options { Line 421  sub set_options {
421          $self->{options} ||= $options->{$option};          $self->{options} ||= $options->{$option};
422  }  }
423    
424    
425  =head2 phrase  =head2 phrase
426    
427  Return search phrase.  Return search phrase.
# Line 418  sub phrase { Line 435  sub phrase {
435          return $self->{phrase};          return $self->{phrase};
436  }  }
437    
438    
439  =head2 order  =head2 order
440    
441  Return search result order.  Return search result order.
# Line 431  sub order { Line 449  sub order {
449          return $self->{order};          return $self->{order};
450  }  }
451    
452    
453  =head2 attrs  =head2 attrs
454    
455  Return search result attrs.  Return search result attrs.
# Line 442  Return search result attrs. Line 461  Return search result attrs.
461  sub attrs {  sub attrs {
462          my $self = shift;          my $self = shift;
463          #croak "attrs return array, not scalar" if (! wantarray);          #croak "attrs return array, not scalar" if (! wantarray);
464          return @{ $self->{attrs} };          return @{ $self->{attrs} } if ($self->{attrs});
465  }  }
466    
467    
468  =head2 max  =head2 max
469    
470  Return maximum number of results.  Return maximum number of results.
# Line 460  sub max { Line 480  sub max {
480          return $self->{max};          return $self->{max};
481  }  }
482    
483    
484  =head2 options  =head2 options
485    
486  Return options for this condition.  Return options for this condition.
# Line 504  sub new { Line 525  sub new {
525          my $self = {@_};          my $self = {@_};
526          bless($self, $class);          bless($self, $class);
527    
528          foreach my $f (qw/uri attrs snippet keywords/) {          croak "missing uri for ResultDocument" unless defined($self->{uri});
                 croak "missing $f for ResultDocument" unless defined($self->{$f});  
         }  
529    
530          $self ? return $self : return undef;          $self ? return $self : return undef;
531  }  }
532    
533    
534  =head2 uri  =head2 uri
535    
536  Return URI of result document  Return URI of result document
# Line 539  sub attr_names { Line 559  sub attr_names {
559          return sort keys %{ $self->{attrs} };          return sort keys %{ $self->{attrs} };
560  }  }
561    
562    
563  =head2 attr  =head2 attr
564    
565  Returns value of an attribute.  Returns value of an attribute.
# Line 553  sub attr { Line 574  sub attr {
574          return $self->{attrs}->{ $name };          return $self->{attrs}->{ $name };
575  }  }
576    
577    
578  =head2 snippet  =head2 snippet
579    
580  Return snippet from result document  Return snippet from result document
# Line 566  sub snippet { Line 588  sub snippet {
588          return $self->{snippet};          return $self->{snippet};
589  }  }
590    
591    
592  =head2 keywords  =head2 keywords
593    
594  Return keywords from result document  Return keywords from result document
# Line 610  sub new { Line 633  sub new {
633          $self ? return $self : return undef;          $self ? return $self : return undef;
634  }  }
635    
636    
637  =head2 doc_num  =head2 doc_num
638    
639  Return number of documents  Return number of documents
# Line 620  Return number of documents Line 644  Return number of documents
644    
645  sub doc_num {  sub doc_num {
646          my $self = shift;          my $self = shift;
647          return $#{$self->{docs}};          return $#{$self->{docs}} + 1;
648  }  }
649    
650    
651  =head2 get_doc  =head2 get_doc
652    
653  Return single document  Return single document
# Line 636  Returns undef if document doesn't exist. Line 661  Returns undef if document doesn't exist.
661  sub get_doc {  sub get_doc {
662          my $self = shift;          my $self = shift;
663          my $num = shift;          my $num = shift;
664          croak "expect number as argument" unless ($num =~ m/^\d+$/);          croak "expect number as argument, not '$num'" unless ($num =~ m/^\d+$/);
665          return undef if ($num < 0 || $num > $self->{docs});          return undef if ($num < 0 || $num > $self->{docs});
666          return $self->{docs}->[$num];          return $self->{docs}->[$num];
667  }  }
668    
669    
670  =head2 hint  =head2 hint
671    
672  Return specific hint from results.  Return specific hint from results.
# Line 661  sub hint { Line 687  sub hint {
687    
688  package Search::Estraier::Node;  package Search::Estraier::Node;
689    
690  use Carp qw/carp croak/;  use Carp qw/carp croak confess/;
691  use URI;  use URI;
692  use MIME::Base64;  use MIME::Base64;
693  use IO::Socket::INET;  use IO::Socket::INET;
694    use URI::Escape qw/uri_escape/;
695    
696  =head1 Search::Estraier::Node  =head1 Search::Estraier::Node
697    
# Line 672  use IO::Socket::INET; Line 699  use IO::Socket::INET;
699    
700    my $node = new Search::HyperEstraier::Node;    my $node = new Search::HyperEstraier::Node;
701    
702    or optionally with C<url> as parametar
703    
704      my $node = new Search::HyperEstraier::Node( 'http://localhost:1978/node/test' );
705    
706  =cut  =cut
707    
708  sub new {  sub new {
# Line 689  sub new { Line 720  sub new {
720          };          };
721          bless($self, $class);          bless($self, $class);
722    
723          if (@_) {          if ($#_ == 0) {
724                  $self->{debug} = 1;                  $self->{url} = shift;
725                  warn "## Node debug on\n";          } else {
726                    my $args = {@_};
727    
728                    $self->{debug} = $args->{debug};
729                    warn "## Node debug on\n" if ($self->{debug});
730          }          }
731    
732          $self ? return $self : return undef;          $self ? return $self : return undef;
733  }  }
734    
735    
736  =head2 set_url  =head2 set_url
737    
738  Specify URL to node server  Specify URL to node server
# Line 710  sub set_url { Line 746  sub set_url {
746          $self->{url} = shift;          $self->{url} = shift;
747  }  }
748    
749    
750  =head2 set_proxy  =head2 set_proxy
751    
752  Specify proxy server to connect to node server  Specify proxy server to connect to node server
# Line 721  Specify proxy server to connect to node Line 758  Specify proxy server to connect to node
758  sub set_proxy {  sub set_proxy {
759          my $self = shift;          my $self = shift;
760          my ($host,$port) = @_;          my ($host,$port) = @_;
761          croak "proxy port must be number" unless ($port =~ m/^\d+$/);          croak "proxy port must be number, not '$port'" unless ($port =~ m/^\d+$/);
762          $self->{pxhost} = $host;          $self->{pxhost} = $host;
763          $self->{pxport} = $port;          $self->{pxport} = $port;
764  }  }
765    
766    
767  =head2 set_timeout  =head2 set_timeout
768    
769  Specify timeout of connection in seconds  Specify timeout of connection in seconds
# Line 737  Specify timeout of connection in seconds Line 775  Specify timeout of connection in seconds
775  sub set_timeout {  sub set_timeout {
776          my $self = shift;          my $self = shift;
777          my $sec = shift;          my $sec = shift;
778          croak "timeout must be number" unless ($sec =~ m/^\d+$/);          croak "timeout must be number, not '$sec'" unless ($sec =~ m/^\d+$/);
779          $self->{timeout} = $sec;          $self->{timeout} = $sec;
780  }  }
781    
782    
783  =head2 set_auth  =head2 set_auth
784    
785  Specify name and password for authentication to node server.  Specify name and password for authentication to node server.
# Line 752  Specify name and password for authentica Line 791  Specify name and password for authentica
791  sub set_auth {  sub set_auth {
792          my $self = shift;          my $self = shift;
793          my ($login,$passwd) = @_;          my ($login,$passwd) = @_;
794          $self->{auth} = encode_base64( "$login:$passwd" );          my $basic_auth = encode_base64( "$login:$passwd" );
795            chomp($basic_auth);
796            $self->{auth} = $basic_auth;
797  }  }
798    
799    
800  =head2 status  =head2 status
801    
802  Return status code of last request.  Return status code of last request.
803    
804    print $res->status;    print $node->status;
805    
806  C<-1> means connection failure.  C<-1> means connection failure.
807    
# Line 770  sub status { Line 812  sub status {
812          return $self->{status};          return $self->{status};
813  }  }
814    
815    
816    =head2 put_doc
817    
818    Add a document
819    
820      $node->put_doc( $document_draft ) or die "can't add document";
821    
822    Return true on success or false on failture.
823    
824    =cut
825    
826    sub put_doc {
827            my $self = shift;
828            my $doc = shift || return;
829            return unless ($self->{url} && $doc->isa('Search::Estraier::Document'));
830            $self->shuttle_url( $self->{url} . '/put_doc',
831                    'text/x-estraier-draft',
832                    $doc->dump_draft,
833                    undef
834            ) == 200;
835    }
836    
837    
838    =head2 out_doc
839    
840    Remove a document
841    
842      $node->out_doc( document_id ) or "can't remove document";
843    
844    Return true on success or false on failture.
845    
846    =cut
847    
848    sub out_doc {
849            my $self = shift;
850            my $id = shift || return;
851            return unless ($self->{url});
852            croak "id must be number, not '$id'" unless ($id =~ m/^\d+$/);
853            $self->shuttle_url( $self->{url} . '/out_doc',
854                    'application/x-www-form-urlencoded',
855                    "id=$id",
856                    undef
857            ) == 200;
858    }
859    
860    
861    =head2 out_doc_by_uri
862    
863    Remove a registrated document using it's uri
864    
865      $node->out_doc_by_uri( 'file:///document/uri/42' ) or "can't remove document";
866    
867    Return true on success or false on failture.
868    
869    =cut
870    
871    sub out_doc_by_uri {
872            my $self = shift;
873            my $uri = shift || return;
874            return unless ($self->{url});
875            $self->shuttle_url( $self->{url} . '/out_doc',
876                    'application/x-www-form-urlencoded',
877                    "uri=" . uri_escape($uri),
878                    undef
879            ) == 200;
880    }
881    
882    
883    =head2 edit_doc
884    
885    Edit attributes of a document
886    
887      $node->edit_doc( $document_draft ) or die "can't edit document";
888    
889    Return true on success or false on failture.
890    
891    =cut
892    
893    sub edit_doc {
894            my $self = shift;
895            my $doc = shift || return;
896            return unless ($self->{url} && $doc->isa('Search::Estraier::Document'));
897            $self->shuttle_url( $self->{url} . '/edit_doc',
898                    'text/x-estraier-draft',
899                    $doc->dump_draft,
900                    undef
901            ) == 200;
902    }
903    
904    
905    =head2 get_doc
906    
907    Retreive document
908    
909      my $doc = $node->get_doc( document_id ) or die "can't get document";
910    
911    Return true on success or false on failture.
912    
913    =cut
914    
915    sub get_doc {
916            my $self = shift;
917            my $id = shift || return;
918            return $self->_fetch_doc( id => $id );
919    }
920    
921    
922    =head2 get_doc_by_uri
923    
924    Retreive document
925    
926      my $doc = $node->get_doc_by_uri( 'file:///document/uri/42' ) or die "can't get document";
927    
928    Return true on success or false on failture.
929    
930    =cut
931    
932    sub get_doc_by_uri {
933            my $self = shift;
934            my $uri = shift || return;
935            return $self->_fetch_doc( uri => $uri );
936    }
937    
938    
939    =head2 get_doc_attr
940    
941    Retrieve the value of an atribute from object
942    
943      my $val = $node->get_doc_attr( document_id, 'attribute_name' ) or
944            die "can't get document attribute";
945    
946    =cut
947    
948    sub get_doc_attr {
949            my $self = shift;
950            my ($id,$name) = @_;
951            return unless ($id && $name);
952            return $self->_fetch_doc( id => $id, attr => $name );
953    }
954    
955    
956    =head2 get_doc_attr_by_uri
957    
958    Retrieve the value of an atribute from object
959    
960      my $val = $node->get_doc_attr_by_uri( document_id, 'attribute_name' ) or
961            die "can't get document attribute";
962    
963    =cut
964    
965    sub get_doc_attr_by_uri {
966            my $self = shift;
967            my ($uri,$name) = @_;
968            return unless ($uri && $name);
969            return $self->_fetch_doc( uri => $uri, attr => $name );
970    }
971    
972    
973    =head2 etch_doc
974    
975    Exctract document keywords
976    
977      my $keywords = $node->etch_doc( document_id ) or die "can't etch document";
978    
979    =cut
980    
981    sub etch_doc {
982            my $self = shift;
983            my $id = shift || return;
984            return $self->_fetch_doc( id => $id, etch => 1 );
985    }
986    
987    =head2 etch_doc_by_uri
988    
989    Retreive document
990    
991      my $keywords = $node->etch_doc_by_uri( 'file:///document/uri/42' ) or die "can't etch document";
992    
993    Return true on success or false on failture.
994    
995    =cut
996    
997    sub etch_doc_by_uri {
998            my $self = shift;
999            my $uri = shift || return;
1000            return $self->_fetch_doc( uri => $uri, etch => 1 );
1001    }
1002    
1003    
1004    =head2 uri_to_id
1005    
1006    Get ID of document specified by URI
1007    
1008      my $id = $node->uri_to_id( 'file:///document/uri/42' );
1009    
1010    =cut
1011    
1012    sub uri_to_id {
1013            my $self = shift;
1014            my $uri = shift || return;
1015            return $self->_fetch_doc( uri => $uri, path => '/uri_to_id', chomp_resbody => 1 );
1016    }
1017    
1018    
1019    =head2 _fetch_doc
1020    
1021    Private function used for implementing of C<get_doc>, C<get_doc_by_uri>,
1022    C<etch_doc>, C<etch_doc_by_uri>.
1023    
1024     # this will decode received draft into Search::Estraier::Document object
1025     my $doc = $node->_fetch_doc( id => 42 );
1026     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42' );
1027    
1028     # to extract keywords, add etch
1029     my $doc = $node->_fetch_doc( id => 42, etch => 1 );
1030     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', etch => 1 );
1031    
1032     # to get document attrubute add attr
1033     my $doc = $node->_fetch_doc( id => 42, attr => '@mdate' );
1034     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', attr => '@mdate' );
1035    
1036     # more general form which allows implementation of
1037     # uri_to_id
1038     my $id = $node->_fetch_doc(
1039            uri => 'file:///document/uri/42',
1040            path => '/uri_to_id',
1041            chomp_resbody => 1
1042     );
1043    
1044    =cut
1045    
1046    sub _fetch_doc {
1047            my $self = shift;
1048            my $a = {@_};
1049            return unless ( ($a->{id} || $a->{uri}) && $self->{url} );
1050    
1051            my ($arg, $resbody);
1052    
1053            my $path = $a->{path} || '/get_doc';
1054            $path = '/etch_doc' if ($a->{etch});
1055    
1056            if ($a->{id}) {
1057                    croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);
1058                    $arg = 'id=' . $a->{id};
1059            } elsif ($a->{uri}) {
1060                    $arg = 'uri=' . uri_escape($a->{uri});
1061            } else {
1062                    confess "unhandled argument. Need id or uri.";
1063            }
1064    
1065            if ($a->{attr}) {
1066                    $path = '/get_doc_attr';
1067                    $arg .= '&attr=' . uri_escape($a->{attr});
1068                    $a->{chomp_resbody} = 1;
1069            }
1070    
1071            my $rv = $self->shuttle_url( $self->{url} . $path,
1072                    'application/x-www-form-urlencoded',
1073                    $arg,
1074                    \$resbody,
1075            );
1076    
1077            return if ($rv != 200);
1078    
1079            if ($a->{etch}) {
1080                    $self->{kwords} = {};
1081                    return +{} unless ($resbody);
1082                    foreach my $l (split(/\n/, $resbody)) {
1083                            my ($k,$v) = split(/\t/, $l, 2);
1084                            $self->{kwords}->{$k} = $v if ($v);
1085                    }
1086                    return $self->{kwords};
1087            } elsif ($a->{chomp_resbody}) {
1088                    return unless (defined($resbody));
1089                    chomp($resbody);
1090                    return $resbody;
1091            } else {
1092                    return new Search::Estraier::Document($resbody);
1093            }
1094    }
1095    
1096    
1097    =head2 name
1098    
1099      my $node_name = $node->name;
1100    
1101    =cut
1102    
1103    sub name {
1104            my $self = shift;
1105            $self->_set_info unless ($self->{name});
1106            return $self->{name};
1107    }
1108    
1109    
1110    =head2 label
1111    
1112      my $node_label = $node->label;
1113    
1114    =cut
1115    
1116    sub label {
1117            my $self = shift;
1118            $self->_set_info unless ($self->{label});
1119            return $self->{label};
1120    }
1121    
1122    
1123    =head2 doc_num
1124    
1125      my $documents_in_node = $node->doc_num;
1126    
1127    =cut
1128    
1129    sub doc_num {
1130            my $self = shift;
1131            $self->_set_info if ($self->{dnum} < 0);
1132            return $self->{dnum};
1133    }
1134    
1135    
1136    =head2 word_num
1137    
1138      my $words_in_node = $node->word_num;
1139    
1140    =cut
1141    
1142    sub word_num {
1143            my $self = shift;
1144            $self->_set_info if ($self->{wnum} < 0);
1145            return $self->{wnum};
1146    }
1147    
1148    
1149    =head2 size
1150    
1151      my $node_size = $node->size;
1152    
1153    =cut
1154    
1155    sub size {
1156            my $self = shift;
1157            $self->_set_info if ($self->{size} < 0);
1158            return $self->{size};
1159    }
1160    
1161    
1162    =head2 search
1163    
1164    Search documents which match condition
1165    
1166      my $nres = $node->search( $cond, $depth );
1167    
1168    C<$cond> is C<Search::Estraier::Condition> object, while <$depth> specifies
1169    depth for meta search.
1170    
1171    Function results C<Search::Estraier::NodeResult> object.
1172    
1173    =cut
1174    
1175    sub search {
1176            my $self = shift;
1177            my ($cond, $depth) = @_;
1178            return unless ($cond && defined($depth) && $self->{url});
1179            croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1180            croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);
1181    
1182            my $resbody;
1183    
1184            my $rv = $self->shuttle_url( $self->{url} . '/search',
1185                    'application/x-www-form-urlencoded',
1186                    $self->cond_to_query( $cond, $depth ),
1187                    \$resbody,
1188            );
1189            return if ($rv != 200);
1190    
1191            my (@docs, $hints);
1192    
1193            my @lines = split(/\n/, $resbody);
1194            return unless (@lines);
1195    
1196            my $border = $lines[0];
1197            my $isend = 0;
1198            my $lnum = 1;
1199    
1200            while ( $lnum <= $#lines ) {
1201                    my $line = $lines[$lnum];
1202                    $lnum++;
1203    
1204                    #warn "## $line\n";
1205                    if ($line && $line =~ m/^\Q$border\E(:END)*$/) {
1206                            $isend = $1;
1207                            last;
1208                    }
1209    
1210                    if ($line =~ /\t/) {
1211                            my ($k,$v) = split(/\t/, $line, 2);
1212                            $hints->{$k} = $v;
1213                    }
1214            }
1215    
1216            my $snum = $lnum;
1217    
1218            while( ! $isend && $lnum <= $#lines ) {
1219                    my $line = $lines[$lnum];
1220                    #warn "# $lnum: $line\n";
1221                    $lnum++;
1222    
1223                    if ($line && $line =~ m/^\Q$border\E/) {
1224                            if ($lnum > $snum) {
1225                                    my $rdattrs;
1226                                    my $rdvector;
1227                                    my $rdsnippet;
1228                                    
1229                                    my $rlnum = $snum;
1230                                    while ($rlnum < $lnum - 1 ) {
1231                                            #my $rdline = $self->_s($lines[$rlnum]);
1232                                            my $rdline = $lines[$rlnum];
1233                                            $rlnum++;
1234                                            last unless ($rdline);
1235                                            if ($rdline =~ /^%/) {
1236                                                    $rdvector = $1 if ($rdline =~ /^%VECTOR\t(.+)$/);
1237                                            } elsif($rdline =~ /=/) {
1238                                                    $rdattrs->{$1} = $2 if ($rdline =~ /^(.+)=(.+)$/);
1239                                            } else {
1240                                                    confess "invalid format of response";
1241                                            }
1242                                    }
1243                                    while($rlnum < $lnum - 1) {
1244                                            my $rdline = $lines[$rlnum];
1245                                            $rlnum++;
1246                                            $rdsnippet .= "$rdline\n";
1247                                    }
1248                                    #warn Dumper($rdvector, $rdattrs, $rdsnippet);
1249                                    if (my $rduri = $rdattrs->{'@uri'}) {
1250                                            push @docs, new Search::Estraier::ResultDocument(
1251                                                    uri => $rduri,
1252                                                    attrs => $rdattrs,
1253                                                    snippet => $rdsnippet,
1254                                                    keywords => $rdvector,
1255                                            );
1256                                    }
1257                            }
1258                            $snum = $lnum;
1259                            #warn "### $line\n";
1260                            $isend = 1 if ($line =~ /:END$/);
1261                    }
1262    
1263            }
1264    
1265            if (! $isend) {
1266                    warn "received result doesn't have :END\n$resbody";
1267                    return;
1268            }
1269    
1270            #warn Dumper(\@docs, $hints);
1271    
1272            return new Search::Estraier::NodeResult( docs => \@docs, hints => $hints );
1273    }
1274    
1275    
1276    =head2 cond_to_query
1277    
1278    Return URI encoded string generated from Search::Estraier::Condition
1279    
1280      my $args = $node->cond_to_query( $cond, $depth );
1281    
1282    =cut
1283    
1284    sub cond_to_query {
1285            my $self = shift;
1286    
1287            my $cond = shift || return;
1288            croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1289            my $depth = shift;
1290    
1291            my @args;
1292    
1293            if (my $phrase = $cond->phrase) {
1294                    push @args, 'phrase=' . uri_escape($phrase);
1295            }
1296    
1297            if (my @attrs = $cond->attrs) {
1298                    for my $i ( 0 .. $#attrs ) {
1299                            push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] ) if ($attrs[$i]);
1300                    }
1301            }
1302    
1303            if (my $order = $cond->order) {
1304                    push @args, 'order=' . uri_escape($order);
1305            }
1306                    
1307            if (my $max = $cond->max) {
1308                    push @args, 'max=' . $max;
1309            } else {
1310                    push @args, 'max=' . (1 << 30);
1311            }
1312    
1313            if (my $options = $cond->options) {
1314                    push @args, 'options=' . $options;
1315            }
1316    
1317            push @args, 'depth=' . $depth if ($depth);
1318            push @args, 'wwidth=' . $self->{wwidth};
1319            push @args, 'hwidth=' . $self->{hwidth};
1320            push @args, 'awidth=' . $self->{awidth};
1321    
1322            return join('&', @args);
1323    }
1324    
1325    
1326  =head2 shuttle_url  =head2 shuttle_url
1327    
1328  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node
1329  master.  master.
1330    
1331    my $rv = shuttle_url( $url, $content_type, \$req_body, \$resbody );    my $rv = shuttle_url( $url, $content_type, $req_body, \$resbody );
1332    
1333  C<$resheads> and C<$resbody> booleans controll if response headers and/or response  C<$resheads> and C<$resbody> booleans controll if response headers and/or response
1334  body will be saved within object.  body will be saved within object.
1335    
1336  =cut  =cut
1337    
1338    use LWP::UserAgent;
1339    
1340  sub shuttle_url {  sub shuttle_url {
1341          my $self = shift;          my $self = shift;
1342    
1343          my ($url, $content_type, $reqbody, $resbody) = @_;          my ($url, $content_type, $reqbody, $resbody) = @_;
1344    
1345          my $status = -1;          $self->{status} = -1;
1346    
1347          warn "## $url\n";          warn "## $url\n" if ($self->{debug});
1348    
1349          $url = new URI($url);          $url = new URI($url);
1350          if (          if (
# Line 800  sub shuttle_url { Line 1355  sub shuttle_url {
1355                  return -1;                  return -1;
1356          }          }
1357    
1358          my ($host,$port,$query) = ($url->host, $url->port, $url->path);          my $ua = LWP::UserAgent->new;
1359            $ua->agent( "Search-Estraier/$Search::Estraier::VERSION" );
1360    
1361          if ($self->{pxhost}) {          my $req;
1362                  ($host,$port) = ($self->{pxhost}, $self->{pxport});          if ($reqbody) {
1363                  $query = "http://$host:$port/$query";                  $req = HTTP::Request->new(POST => $url);
1364            } else {
1365                    $req = HTTP::Request->new(GET => $url);
1366          }          }
1367    
1368          $query .= '?' . $url->query if ($url->query && ! $reqbody);          $req->headers->header( 'Host' => $url->host . ":" . $url->port );
1369            $req->headers->header( 'Connection', 'close' );
1370            $req->headers->header( 'Authorization', 'Basic ' . $self->{auth} );
1371            $req->content_type( $content_type );
1372    
1373          my $headers;          warn $req->headers->as_string,"\n" if ($self->{debug});
1374    
1375          if ($reqbody) {          if ($reqbody) {
1376                  $headers .= "POST $query HTTP/1.0\r\n";                  warn "$reqbody\n" if ($self->{debug});
1377          } else {                  $req->content( $reqbody );
                 $headers .= "GET $query HTTP/1.0\r\n";  
1378          }          }
1379    
1380          $headers .= "Host: $url->host:$url->port\r\n";          my $res = $ua->request($req) || croak "can't make request to $url: $!";
         $headers .= "Connection: close\r\n";  
         $headers .= "User-Agent: Search-Estraier/$Search::Estraier::VERSION\r\n";  
         $headers .= "Content-Type $content_type\r\n";  
         $headers .= "Authorization: Basic $self->{auth}\r\n";  
         my $len = 0;  
         {  
                 use bytes;  
                 $len = length($reqbody) if ($reqbody);  
         }  
         $headers .= "Content-Length: $len\r\n";  
         $headers .= "\r\n";  
   
         my $sock = IO::Socket::INET->new(  
                 PeerAddr        => $host,  
                 PeerPort        => $port,  
                 Proto           => 'tcp',  
                 Timeout         => $self->{timeout} || 90,  
         );  
1381    
1382          if (! $sock) {          warn "## response status: ",$res->status_line,"\n" if ($self->{debug});
                 carp "can't open socket to $host:$port";  
                 return -1;  
         }  
1383    
1384          warn "## headers:\n$headers\n" if ($self->{debug});          return -1 if (! $res->is_success);
1385    
1386          print $sock $headers or          ($self->{status}, $self->{status_message}) = split(/\s+/, $res->status_line, 2);
                 carp "can't send headers to network:\n$headers\n" and return -1;  
1387    
1388          if ($reqbody) {          $$resbody .= $res->content;
1389                  warn "## request body:\n$headers\n" if ($self->{debug});  
1390                  print $sock $$reqbody or          warn "## response body:\n$$resbody\n" if ($resbody && $self->{debug});
1391                          carp "can't send request body to network:\n$$reqbody\n" and return -1;  
1392          }          return $self->{status};
1393    }
1394          my $line = <$sock>;  
1395          chomp($line);  
1396          my ($schema, $res_status, undef) = split(/  */, $line, 3);  =head2 set_snippet_width
1397          return if ($schema !~ /^HTTP/ || ! $res_status);  
1398    Set width of snippets in results
1399          $status = $res_status;  
1400          warn "## response status: $res_status\n" if ($self->{debug});    $node->set_snippet_width( $wwidth, $hwidth, $awidth );
1401    
1402          # skip rest of headers  C<$wwidth> specifies whole width of snippet. It's C<480> by default. If it's C<0> snippet
1403          $line = <$sock>;  is not sent with results. If it is negative, whole document text is sent instead of snippet.
1404          while ($line) {  
1405                  $line = <$sock>;  C<$hwidth> specified width of strings from beginning of string. Default
1406                  $line =~ s/[\r\n]+$//;  value is C<96>. Negative or zero value keep previous value.
1407                  warn "## ", $line || 'NULL', " ##\n";  
1408          };  C<$awidth> specifies width of strings around each highlighted word. It's C<96> by default.
1409    If negative of zero value is provided previous value is kept unchanged.
1410    
1411    =cut
1412    
1413    sub set_snippet_width {
1414            my $self = shift;
1415    
1416            my ($wwidth, $hwidth, $awidth) = @_;
1417            $self->{wwidth} = $wwidth;
1418            $self->{hwidth} = $hwidth if ($hwidth >= 0);
1419            $self->{awidth} = $awidth if ($awidth >= 0);
1420    }
1421    
1422    
1423    =head2 set_user
1424    
1425    Manage users of node
1426    
1427      $node->set_user( 'name', $mode );
1428    
1429    C<$mode> can be one of:
1430    
1431    =over 4
1432    
1433    =item 0
1434    
1435    delete account
1436    
1437    =item 1
1438    
1439    set administrative right for user
1440    
1441    =item 2
1442    
1443    set user account as guest
1444    
1445    =back
1446    
1447    Return true on success, otherwise false.
1448    
1449    =cut
1450    
1451    sub set_user {
1452            my $self = shift;
1453            my ($name, $mode) = @_;
1454    
1455            return unless ($self->{url});
1456            croak "mode must be number, not '$mode'" unless ($mode =~ m/^\d+$/);
1457    
1458            $self->shuttle_url( $self->{url} . '/_set_user',
1459                    'text/plain',
1460                    'name=' . uri_escape($name) . '&mode=' . $mode,
1461                    undef
1462            ) == 200;
1463    }
1464    
1465    
1466    =head2 set_link
1467    
1468    Manage node links
1469    
1470      $node->set_link('http://localhost:1978/node/another', 'another node label', $credit);
1471    
1472    If C<$credit> is negative, link is removed.
1473    
1474    =cut
1475    
1476    sub set_link {
1477            my $self = shift;
1478            my ($url, $label, $credit) = @_;
1479    
1480            return unless ($self->{url});
1481            croak "mode credit be number, not '$credit'" unless ($credit =~ m/^\d+$/);
1482    
1483            my $reqbody = 'url=' . uri_escape($url) . '&label=' . uri_escape($label);
1484            $reqbody .= '&credit=' . $credit if ($credit > 0);
1485    
1486            $self->shuttle_url( $self->{url} . '/_set_link',
1487                    'text/plain',
1488                    $reqbody,
1489                    undef
1490            ) == 200;
1491    }
1492    
1493    
1494    =head1 PRIVATE METHODS
1495    
1496    You could call those directly, but you don't have to. I hope.
1497    
1498    =head2 _set_info
1499    
1500    Set information for node
1501    
1502      $node->_set_info;
1503    
1504    =cut
1505    
1506    sub _set_info {
1507            my $self = shift;
1508    
1509            $self->{status} = -1;
1510            return unless ($self->{url});
1511    
1512            my $resbody;
1513            my $rv = $self->shuttle_url( $self->{url} . '/inform',
1514                    'text/plain',
1515                    undef,
1516                    \$resbody,
1517            );
1518    
1519            return if ($rv != 200 || !$resbody);
1520    
1521          # read body          # it seems that response can have multiple line endings
1522          $len = 0;          $resbody =~ s/[\r\n]+$//;
         do {  
                 $len = read($sock, my $buf, 8192);  
                 $$resbody .= $buf if ($resbody);  
         } while ($len);  
1523    
1524                    ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =
1525          warn "## response body:\n$$resbody\n" if ($self->{debug});                  split(/\t/, $resbody, 5);
1526    
         return $status;  
1527  }  }
1528    
1529  ###  ###

Legend:
Removed from v.39  
changed lines
  Added in v.65

  ViewVC Help
Powered by ViewVC 1.1.26