/[Search-Estraier]/trunk/lib/Search/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/Search/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 51 by dpavlin, Fri Jan 6 13:19:50 2006 UTC revision 65 by dpavlin, Sat Jan 7 23:48:16 2006 UTC
# Line 4  use 5.008; Line 4  use 5.008;
4  use strict;  use strict;
5  use warnings;  use warnings;
6    
7  our $VERSION = '0.00';  our $VERSION = '0.02';
8    
9  =head1 NAME  =head1 NAME
10    
# Line 205  Returns array with attribute names from Line 205  Returns array with attribute names from
205    
206  sub attr_names {  sub attr_names {
207          my $self = shift;          my $self = shift;
208          croak "attr_names return array, not scalar" if (! wantarray);          return unless ($self->{attrs});
209            #croak "attr_names return array, not scalar" if (! wantarray);
210          return sort keys %{ $self->{attrs} };          return sort keys %{ $self->{attrs} };
211  }  }
212    
# Line 221  Returns value of an attribute. Line 222  Returns value of an attribute.
222  sub attr {  sub attr {
223          my $self = shift;          my $self = shift;
224          my $name = shift;          my $name = shift;
225            return unless (defined($name) && $self->{attrs});
226          return $self->{'attrs'}->{ $name };          return $self->{attrs}->{ $name };
227  }  }
228    
229    
# Line 236  Returns array with text sentences. Line 237  Returns array with text sentences.
237    
238  sub texts {  sub texts {
239          my $self = shift;          my $self = shift;
240          confess "texts return array, not scalar" if (! wantarray);          #confess "texts return array, not scalar" if (! wantarray);
241          return @{ $self->{dtexts} };          return @{ $self->{dtexts} } if ($self->{dtexts});
242  }  }
243    
244    
# Line 251  Return whole text as single scalar. Line 252  Return whole text as single scalar.
252    
253  sub cat_texts {  sub cat_texts {
254          my $self = shift;          my $self = shift;
255          return join(' ',@{ $self->{dtexts} });          return join(' ',@{ $self->{dtexts} }) if ($self->{dtexts});
256  }  }
257    
258    
# Line 460  Return search result attrs. Line 461  Return search result attrs.
461  sub attrs {  sub attrs {
462          my $self = shift;          my $self = shift;
463          #croak "attrs return array, not scalar" if (! wantarray);          #croak "attrs return array, not scalar" if (! wantarray);
464          return @{ $self->{attrs} };          return @{ $self->{attrs} } if ($self->{attrs});
465  }  }
466    
467    
# Line 524  sub new { Line 525  sub new {
525          my $self = {@_};          my $self = {@_};
526          bless($self, $class);          bless($self, $class);
527    
528          foreach my $f (qw/uri attrs snippet keywords/) {          croak "missing uri for ResultDocument" unless defined($self->{uri});
                 croak "missing $f for ResultDocument" unless defined($self->{$f});  
         }  
529    
530          $self ? return $self : return undef;          $self ? return $self : return undef;
531  }  }
# Line 645  Return number of documents Line 644  Return number of documents
644    
645  sub doc_num {  sub doc_num {
646          my $self = shift;          my $self = shift;
647          return $#{$self->{docs}};          return $#{$self->{docs}} + 1;
648  }  }
649    
650    
# Line 700  use URI::Escape qw/uri_escape/; Line 699  use URI::Escape qw/uri_escape/;
699    
700    my $node = new Search::HyperEstraier::Node;    my $node = new Search::HyperEstraier::Node;
701    
702    or optionally with C<url> as parametar
703    
704      my $node = new Search::HyperEstraier::Node( 'http://localhost:1978/node/test' );
705    
706  =cut  =cut
707    
708  sub new {  sub new {
# Line 717  sub new { Line 720  sub new {
720          };          };
721          bless($self, $class);          bless($self, $class);
722    
723          if (@_) {          if ($#_ == 0) {
724                  $self->{debug} = shift;                  $self->{url} = shift;
725                  warn "## Node debug on\n";          } else {
726                    my $args = {@_};
727    
728                    $self->{debug} = $args->{debug};
729                    warn "## Node debug on\n" if ($self->{debug});
730          }          }
731    
732          $self ? return $self : return undef;          $self ? return $self : return undef;
# Line 1095  sub _fetch_doc { Line 1102  sub _fetch_doc {
1102    
1103  sub name {  sub name {
1104          my $self = shift;          my $self = shift;
1105          $self->set_info unless ($self->{name});          $self->_set_info unless ($self->{name});
1106          return $self->{name};          return $self->{name};
1107  }  }
1108    
# Line 1108  sub name { Line 1115  sub name {
1115    
1116  sub label {  sub label {
1117          my $self = shift;          my $self = shift;
1118          $self->set_info unless ($self->{label});          $self->_set_info unless ($self->{label});
1119          return $self->{label};          return $self->{label};
1120  }  }
1121    
# Line 1121  sub label { Line 1128  sub label {
1128    
1129  sub doc_num {  sub doc_num {
1130          my $self = shift;          my $self = shift;
1131          $self->set_info if ($self->{dnum} < 0);          $self->_set_info if ($self->{dnum} < 0);
1132          return $self->{dnum};          return $self->{dnum};
1133  }  }
1134    
# Line 1134  sub doc_num { Line 1141  sub doc_num {
1141    
1142  sub word_num {  sub word_num {
1143          my $self = shift;          my $self = shift;
1144          $self->set_info if ($self->{wnum} < 0);          $self->_set_info if ($self->{wnum} < 0);
1145          return $self->{wnum};          return $self->{wnum};
1146  }  }
1147    
# Line 1147  sub word_num { Line 1154  sub word_num {
1154    
1155  sub size {  sub size {
1156          my $self = shift;          my $self = shift;
1157          $self->set_info if ($self->{size} < 0);          $self->_set_info if ($self->{size} < 0);
1158          return $self->{size};          return $self->{size};
1159  }  }
1160    
# Line 1172  sub search { Line 1179  sub search {
1179          croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));          croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1180          croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);          croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);
1181    
1182            my $resbody;
1183    
1184            my $rv = $self->shuttle_url( $self->{url} . '/search',
1185                    'application/x-www-form-urlencoded',
1186                    $self->cond_to_query( $cond, $depth ),
1187                    \$resbody,
1188            );
1189            return if ($rv != 200);
1190    
1191            my (@docs, $hints);
1192    
1193            my @lines = split(/\n/, $resbody);
1194            return unless (@lines);
1195    
1196            my $border = $lines[0];
1197            my $isend = 0;
1198            my $lnum = 1;
1199    
1200            while ( $lnum <= $#lines ) {
1201                    my $line = $lines[$lnum];
1202                    $lnum++;
1203    
1204                    #warn "## $line\n";
1205                    if ($line && $line =~ m/^\Q$border\E(:END)*$/) {
1206                            $isend = $1;
1207                            last;
1208                    }
1209    
1210                    if ($line =~ /\t/) {
1211                            my ($k,$v) = split(/\t/, $line, 2);
1212                            $hints->{$k} = $v;
1213                    }
1214            }
1215    
1216            my $snum = $lnum;
1217    
1218            while( ! $isend && $lnum <= $#lines ) {
1219                    my $line = $lines[$lnum];
1220                    #warn "# $lnum: $line\n";
1221                    $lnum++;
1222    
1223                    if ($line && $line =~ m/^\Q$border\E/) {
1224                            if ($lnum > $snum) {
1225                                    my $rdattrs;
1226                                    my $rdvector;
1227                                    my $rdsnippet;
1228                                    
1229                                    my $rlnum = $snum;
1230                                    while ($rlnum < $lnum - 1 ) {
1231                                            #my $rdline = $self->_s($lines[$rlnum]);
1232                                            my $rdline = $lines[$rlnum];
1233                                            $rlnum++;
1234                                            last unless ($rdline);
1235                                            if ($rdline =~ /^%/) {
1236                                                    $rdvector = $1 if ($rdline =~ /^%VECTOR\t(.+)$/);
1237                                            } elsif($rdline =~ /=/) {
1238                                                    $rdattrs->{$1} = $2 if ($rdline =~ /^(.+)=(.+)$/);
1239                                            } else {
1240                                                    confess "invalid format of response";
1241                                            }
1242                                    }
1243                                    while($rlnum < $lnum - 1) {
1244                                            my $rdline = $lines[$rlnum];
1245                                            $rlnum++;
1246                                            $rdsnippet .= "$rdline\n";
1247                                    }
1248                                    #warn Dumper($rdvector, $rdattrs, $rdsnippet);
1249                                    if (my $rduri = $rdattrs->{'@uri'}) {
1250                                            push @docs, new Search::Estraier::ResultDocument(
1251                                                    uri => $rduri,
1252                                                    attrs => $rdattrs,
1253                                                    snippet => $rdsnippet,
1254                                                    keywords => $rdvector,
1255                                            );
1256                                    }
1257                            }
1258                            $snum = $lnum;
1259                            #warn "### $line\n";
1260                            $isend = 1 if ($line =~ /:END$/);
1261                    }
1262    
1263            }
1264    
1265            if (! $isend) {
1266                    warn "received result doesn't have :END\n$resbody";
1267                    return;
1268            }
1269    
1270            #warn Dumper(\@docs, $hints);
1271    
1272            return new Search::Estraier::NodeResult( docs => \@docs, hints => $hints );
1273  }  }
1274    
1275    
1276  =head2 cond_to_query  =head2 cond_to_query
1277    
1278    my $args = $node->cond_to_query( $cond );  Return URI encoded string generated from Search::Estraier::Condition
1279    
1280      my $args = $node->cond_to_query( $cond, $depth );
1281    
1282  =cut  =cut
1283    
# Line 1187  sub cond_to_query { Line 1286  sub cond_to_query {
1286    
1287          my $cond = shift || return;          my $cond = shift || return;
1288          croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));          croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1289            my $depth = shift;
1290    
1291          my @args;          my @args;
1292    
# Line 1196  sub cond_to_query { Line 1296  sub cond_to_query {
1296    
1297          if (my @attrs = $cond->attrs) {          if (my @attrs = $cond->attrs) {
1298                  for my $i ( 0 .. $#attrs ) {                  for my $i ( 0 .. $#attrs ) {
1299                          push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] );                          push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] ) if ($attrs[$i]);
1300                  }                  }
1301          }          }
1302    
# Line 1214  sub cond_to_query { Line 1314  sub cond_to_query {
1314                  push @args, 'options=' . $options;                  push @args, 'options=' . $options;
1315          }          }
1316    
1317          push @args, 'depth=' . $self->{depth} if ($self->{depth});          push @args, 'depth=' . $depth if ($depth);
1318          push @args, 'wwidth=' . $self->{wwidth};          push @args, 'wwidth=' . $self->{wwidth};
1319          push @args, 'hwidth=' . $self->{hwidth};          push @args, 'hwidth=' . $self->{hwidth};
1320          push @args, 'awidth=' . $self->{awidth};          push @args, 'awidth=' . $self->{awidth};
# Line 1228  sub cond_to_query { Line 1328  sub cond_to_query {
1328  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node
1329  master.  master.
1330    
1331    my $rv = shuttle_url( $url, $content_type, \$req_body, \$resbody );    my $rv = shuttle_url( $url, $content_type, $req_body, \$resbody );
1332    
1333  C<$resheads> and C<$resbody> booleans controll if response headers and/or response  C<$resheads> and C<$resbody> booleans controll if response headers and/or response
1334  body will be saved within object.  body will be saved within object.
1335    
1336  =cut  =cut
1337    
1338    use LWP::UserAgent;
1339    
1340  sub shuttle_url {  sub shuttle_url {
1341          my $self = shift;          my $self = shift;
1342    
# Line 1253  sub shuttle_url { Line 1355  sub shuttle_url {
1355                  return -1;                  return -1;
1356          }          }
1357    
1358          my ($host,$port,$query) = ($url->host, $url->port, $url->path);          my $ua = LWP::UserAgent->new;
1359            $ua->agent( "Search-Estraier/$Search::Estraier::VERSION" );
         if ($self->{pxhost}) {  
                 ($host,$port) = ($self->{pxhost}, $self->{pxport});  
                 $query = "http://$host:$port/$query";  
         }  
   
         $query .= '?' . $url->query if ($url->query && ! $reqbody);  
   
         my $headers;  
1360    
1361            my $req;
1362          if ($reqbody) {          if ($reqbody) {
1363                  $headers .= "POST $query HTTP/1.0\r\n";                  $req = HTTP::Request->new(POST => $url);
1364          } else {          } else {
1365                  $headers .= "GET $query HTTP/1.0\r\n";                  $req = HTTP::Request->new(GET => $url);
1366          }          }
1367    
1368          $headers .= "Host: " . $url->host . ":" . $url->port . "\r\n";          $req->headers->header( 'Host' => $url->host . ":" . $url->port );
1369          $headers .= "Connection: close\r\n";          $req->headers->header( 'Connection', 'close' );
1370          $headers .= "User-Agent: Search-Estraier/$Search::Estraier::VERSION\r\n";          $req->headers->header( 'Authorization', 'Basic ' . $self->{auth} );
1371          $headers .= "Content-Type: $content_type\r\n";          $req->content_type( $content_type );
         $headers .= "Authorization: Basic $self->{auth}\r\n";  
         my $len = 0;  
         {  
                 use bytes;  
                 $len = length($reqbody) if ($reqbody);  
         }  
         $headers .= "Content-Length: $len\r\n";  
         $headers .= "\r\n";  
   
         my $sock = IO::Socket::INET->new(  
                 PeerAddr        => $host,  
                 PeerPort        => $port,  
                 Proto           => 'tcp',  
                 Timeout         => $self->{timeout} || 90,  
         );  
   
         if (! $sock) {  
                 carp "can't open socket to $host:$port";  
                 return -1;  
         }  
1372    
1373          warn $headers if ($self->{debug});          warn $req->headers->as_string,"\n" if ($self->{debug});
   
         print $sock $headers or  
                 carp "can't send headers to network:\n$headers\n" and return -1;  
1374    
1375          if ($reqbody) {          if ($reqbody) {
1376                  warn "$reqbody\n" if ($self->{debug});                  warn "$reqbody\n" if ($self->{debug});
1377                  print $sock $reqbody or                  $req->content( $reqbody );
                         carp "can't send request body to network:\n$$reqbody\n" and return -1;  
1378          }          }
1379    
1380          my $line = <$sock>;          my $res = $ua->request($req) || croak "can't make request to $url: $!";
1381          chomp($line);  
1382          my ($schema, $res_status, undef) = split(/  */, $line, 3);          warn "## response status: ",$res->status_line,"\n" if ($self->{debug});
         return if ($schema !~ /^HTTP/ || ! $res_status);  
   
         $self->{status} = $res_status;  
         warn "## response status: $res_status\n" if ($self->{debug});  
   
         # skip rest of headers  
         $line = <$sock>;  
         while ($line) {  
                 $line = <$sock>;  
                 $line =~ s/[\r\n]+$//;  
                 warn "## ", $line || 'NULL', " ##\n" if ($self->{debug});  
         };  
1383    
1384          # read body          return -1 if (! $res->is_success);
1385          $len = 0;  
1386          do {          ($self->{status}, $self->{status_message}) = split(/\s+/, $res->status_line, 2);
1387                  $len = read($sock, my $buf, 8192);  
1388                  $$resbody .= $buf if ($resbody);          $$resbody .= $res->content;
         } while ($len);  
1389    
1390          warn "## response body:\n$$resbody\n" if ($resbody && $self->{debug});          warn "## response body:\n$$resbody\n" if ($resbody && $self->{debug});
1391    
# Line 1335  sub shuttle_url { Line 1393  sub shuttle_url {
1393  }  }
1394    
1395    
1396  =head2 set_info  =head2 set_snippet_width
1397    
1398    Set width of snippets in results
1399    
1400      $node->set_snippet_width( $wwidth, $hwidth, $awidth );
1401    
1402    C<$wwidth> specifies whole width of snippet. It's C<480> by default. If it's C<0> snippet
1403    is not sent with results. If it is negative, whole document text is sent instead of snippet.
1404    
1405    C<$hwidth> specified width of strings from beginning of string. Default
1406    value is C<96>. Negative or zero value keep previous value.
1407    
1408    C<$awidth> specifies width of strings around each highlighted word. It's C<96> by default.
1409    If negative of zero value is provided previous value is kept unchanged.
1410    
1411    =cut
1412    
1413    sub set_snippet_width {
1414            my $self = shift;
1415    
1416            my ($wwidth, $hwidth, $awidth) = @_;
1417            $self->{wwidth} = $wwidth;
1418            $self->{hwidth} = $hwidth if ($hwidth >= 0);
1419            $self->{awidth} = $awidth if ($awidth >= 0);
1420    }
1421    
1422    
1423    =head2 set_user
1424    
1425    Manage users of node
1426    
1427      $node->set_user( 'name', $mode );
1428    
1429    C<$mode> can be one of:
1430    
1431    =over 4
1432    
1433    =item 0
1434    
1435    delete account
1436    
1437    =item 1
1438    
1439    set administrative right for user
1440    
1441    =item 2
1442    
1443    set user account as guest
1444    
1445    =back
1446    
1447    Return true on success, otherwise false.
1448    
1449    =cut
1450    
1451    sub set_user {
1452            my $self = shift;
1453            my ($name, $mode) = @_;
1454    
1455            return unless ($self->{url});
1456            croak "mode must be number, not '$mode'" unless ($mode =~ m/^\d+$/);
1457    
1458            $self->shuttle_url( $self->{url} . '/_set_user',
1459                    'text/plain',
1460                    'name=' . uri_escape($name) . '&mode=' . $mode,
1461                    undef
1462            ) == 200;
1463    }
1464    
1465    
1466    =head2 set_link
1467    
1468    Manage node links
1469    
1470      $node->set_link('http://localhost:1978/node/another', 'another node label', $credit);
1471    
1472    If C<$credit> is negative, link is removed.
1473    
1474    =cut
1475    
1476    sub set_link {
1477            my $self = shift;
1478            my ($url, $label, $credit) = @_;
1479    
1480            return unless ($self->{url});
1481            croak "mode credit be number, not '$credit'" unless ($credit =~ m/^\d+$/);
1482    
1483            my $reqbody = 'url=' . uri_escape($url) . '&label=' . uri_escape($label);
1484            $reqbody .= '&credit=' . $credit if ($credit > 0);
1485    
1486            $self->shuttle_url( $self->{url} . '/_set_link',
1487                    'text/plain',
1488                    $reqbody,
1489                    undef
1490            ) == 200;
1491    }
1492    
1493    
1494    =head1 PRIVATE METHODS
1495    
1496    You could call those directly, but you don't have to. I hope.
1497    
1498    =head2 _set_info
1499    
1500  Set information for node  Set information for node
1501    
1502    $node->set_info;    $node->_set_info;
1503    
1504  =cut  =cut
1505    
1506  sub set_info {  sub _set_info {
1507          my $self = shift;          my $self = shift;
1508    
1509          $self->{status} = -1;          $self->{status} = -1;
# Line 1358  sub set_info { Line 1518  sub set_info {
1518    
1519          return if ($rv != 200 || !$resbody);          return if ($rv != 200 || !$resbody);
1520    
1521          chomp($resbody);          # it seems that response can have multiple line endings
1522            $resbody =~ s/[\r\n]+$//;
1523    
1524          ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =          ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =
1525                  split(/\t/, $resbody, 5);                  split(/\t/, $resbody, 5);

Legend:
Removed from v.51  
changed lines
  Added in v.65

  ViewVC Help
Powered by ViewVC 1.1.26