/[Search-Estraier]/trunk/lib/Search/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/Search/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 47 by dpavlin, Fri Jan 6 01:51:28 2006 UTC revision 60 by dpavlin, Sat Jan 7 00:00:15 2006 UTC
# Line 4  use 5.008; Line 4  use 5.008;
4  use strict;  use strict;
5  use warnings;  use warnings;
6    
7  our $VERSION = '0.00';  our $VERSION = '0.01';
8    
9  =head1 NAME  =head1 NAME
10    
# Line 205  Returns array with attribute names from Line 205  Returns array with attribute names from
205    
206  sub attr_names {  sub attr_names {
207          my $self = shift;          my $self = shift;
208          croak "attr_names return array, not scalar" if (! wantarray);          return unless ($self->{attrs});
209            #croak "attr_names return array, not scalar" if (! wantarray);
210          return sort keys %{ $self->{attrs} };          return sort keys %{ $self->{attrs} };
211  }  }
212    
# Line 221  Returns value of an attribute. Line 222  Returns value of an attribute.
222  sub attr {  sub attr {
223          my $self = shift;          my $self = shift;
224          my $name = shift;          my $name = shift;
225            return unless (defined($name) && $self->{attrs});
226          return $self->{'attrs'}->{ $name };          return $self->{attrs}->{ $name };
227  }  }
228    
229    
# Line 236  Returns array with text sentences. Line 237  Returns array with text sentences.
237    
238  sub texts {  sub texts {
239          my $self = shift;          my $self = shift;
240          confess "texts return array, not scalar" if (! wantarray);          #confess "texts return array, not scalar" if (! wantarray);
241          return @{ $self->{dtexts} };          return @{ $self->{dtexts} } if ($self->{dtexts});
242  }  }
243    
244    
# Line 251  Return whole text as single scalar. Line 252  Return whole text as single scalar.
252    
253  sub cat_texts {  sub cat_texts {
254          my $self = shift;          my $self = shift;
255          return join(' ',@{ $self->{dtexts} });          return join(' ',@{ $self->{dtexts} }) if ($self->{dtexts});
256  }  }
257    
258    
# Line 460  Return search result attrs. Line 461  Return search result attrs.
461  sub attrs {  sub attrs {
462          my $self = shift;          my $self = shift;
463          #croak "attrs return array, not scalar" if (! wantarray);          #croak "attrs return array, not scalar" if (! wantarray);
464          return @{ $self->{attrs} };          return @{ $self->{attrs} } if ($self->{attrs});
465  }  }
466    
467    
# Line 645  Return number of documents Line 646  Return number of documents
646    
647  sub doc_num {  sub doc_num {
648          my $self = shift;          my $self = shift;
649          return $#{$self->{docs}};          return $#{$self->{docs}} + 1;
650  }  }
651    
652    
# Line 692  use Carp qw/carp croak confess/; Line 693  use Carp qw/carp croak confess/;
693  use URI;  use URI;
694  use MIME::Base64;  use MIME::Base64;
695  use IO::Socket::INET;  use IO::Socket::INET;
696    use URI::Escape qw/uri_escape/;
697    
698  =head1 Search::Estraier::Node  =head1 Search::Estraier::Node
699    
# Line 716  sub new { Line 718  sub new {
718          };          };
719          bless($self, $class);          bless($self, $class);
720    
721          if (@_) {          my $args = {@_};
722                  $self->{debug} = shift;  
723                  warn "## Node debug on\n";          $self->{debug} = $args->{debug};
724          }          warn "## Node debug on\n" if ($self->{debug});
725    
726          $self ? return $self : return undef;          $self ? return $self : return undef;
727  }  }
# Line 866  sub out_doc_by_uri { Line 868  sub out_doc_by_uri {
868          return unless ($self->{url});          return unless ($self->{url});
869          $self->shuttle_url( $self->{url} . '/out_doc',          $self->shuttle_url( $self->{url} . '/out_doc',
870                  'application/x-www-form-urlencoded',                  'application/x-www-form-urlencoded',
871                  "uri=$uri",                  "uri=" . uri_escape($uri),
872                  undef                  undef
873          ) == 200;          ) == 200;
874  }  }
# Line 928  sub get_doc_by_uri { Line 930  sub get_doc_by_uri {
930  }  }
931    
932    
933    =head2 get_doc_attr
934    
935    Retrieve the value of an atribute from object
936    
937      my $val = $node->get_doc_attr( document_id, 'attribute_name' ) or
938            die "can't get document attribute";
939    
940    =cut
941    
942    sub get_doc_attr {
943            my $self = shift;
944            my ($id,$name) = @_;
945            return unless ($id && $name);
946            return $self->_fetch_doc( id => $id, attr => $name );
947    }
948    
949    
950    =head2 get_doc_attr_by_uri
951    
952    Retrieve the value of an atribute from object
953    
954      my $val = $node->get_doc_attr_by_uri( document_id, 'attribute_name' ) or
955            die "can't get document attribute";
956    
957    =cut
958    
959    sub get_doc_attr_by_uri {
960            my $self = shift;
961            my ($uri,$name) = @_;
962            return unless ($uri && $name);
963            return $self->_fetch_doc( uri => $uri, attr => $name );
964    }
965    
966    
967  =head2 etch_doc  =head2 etch_doc
968    
969  Exctract document keywords  Exctract document keywords
# Line 936  Exctract document keywords Line 972  Exctract document keywords
972    
973  =cut  =cut
974    
975  sub erch_doc {  sub etch_doc {
976          my $self = shift;          my $self = shift;
977          my $id = shift || return;          my $id = shift || return;
978          return $self->_fetch_doc( id => $id, etch => 1 );          return $self->_fetch_doc( id => $id, etch => 1 );
# Line 987  C<etch_doc>, C<etch_doc_by_uri>. Line 1023  C<etch_doc>, C<etch_doc_by_uri>.
1023   my $doc = $node->_fetch_doc( id => 42, etch => 1 );   my $doc = $node->_fetch_doc( id => 42, etch => 1 );
1024   my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', etch => 1 );   my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', etch => 1 );
1025    
1026     # to get document attrubute add attr
1027     my $doc = $node->_fetch_doc( id => 42, attr => '@mdate' );
1028     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', attr => '@mdate' );
1029    
1030   # more general form which allows implementation of   # more general form which allows implementation of
1031   # uri_to_id   # uri_to_id
1032   my $id = $node->_fetch_doc(   my $id = $node->_fetch_doc(
# Line 1011  sub _fetch_doc { Line 1051  sub _fetch_doc {
1051                  croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);                  croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);
1052                  $arg = 'id=' . $a->{id};                  $arg = 'id=' . $a->{id};
1053          } elsif ($a->{uri}) {          } elsif ($a->{uri}) {
1054                  $arg = 'uri=' . $a->{uri};                  $arg = 'uri=' . uri_escape($a->{uri});
1055          } else {          } else {
1056                  confess "unhandled argument. Need id or uri.";                  confess "unhandled argument. Need id or uri.";
1057          }          }
1058    
1059            if ($a->{attr}) {
1060                    $path = '/get_doc_attr';
1061                    $arg .= '&attr=' . uri_escape($a->{attr});
1062                    $a->{chomp_resbody} = 1;
1063            }
1064    
1065          my $rv = $self->shuttle_url( $self->{url} . $path,          my $rv = $self->shuttle_url( $self->{url} . $path,
1066                  'application/x-www-form-urlencoded',                  'application/x-www-form-urlencoded',
1067                  $arg,                  $arg,
# Line 1042  sub _fetch_doc { Line 1088  sub _fetch_doc {
1088  }  }
1089    
1090    
1091    =head2 name
1092    
1093      my $node_name = $node->name;
1094    
1095    =cut
1096    
1097    sub name {
1098            my $self = shift;
1099            $self->_set_info unless ($self->{name});
1100            return $self->{name};
1101    }
1102    
1103    
1104    =head2 label
1105    
1106      my $node_label = $node->label;
1107    
1108    =cut
1109    
1110    sub label {
1111            my $self = shift;
1112            $self->_set_info unless ($self->{label});
1113            return $self->{label};
1114    }
1115    
1116    
1117    =head2 doc_num
1118    
1119      my $documents_in_node = $node->doc_num;
1120    
1121    =cut
1122    
1123    sub doc_num {
1124            my $self = shift;
1125            $self->_set_info if ($self->{dnum} < 0);
1126            return $self->{dnum};
1127    }
1128    
1129    
1130    =head2 word_num
1131    
1132      my $words_in_node = $node->word_num;
1133    
1134    =cut
1135    
1136    sub word_num {
1137            my $self = shift;
1138            $self->_set_info if ($self->{wnum} < 0);
1139            return $self->{wnum};
1140    }
1141    
1142    
1143    =head2 size
1144    
1145      my $node_size = $node->size;
1146    
1147    =cut
1148    
1149    sub size {
1150            my $self = shift;
1151            $self->_set_info if ($self->{size} < 0);
1152            return $self->{size};
1153    }
1154    
1155    
1156    =head2 search
1157    
1158    Search documents which match condition
1159    
1160      my $nres = $node->search( $cond, $depth );
1161    
1162    C<$cond> is C<Search::Estraier::Condition> object, while <$depth> specifies
1163    depth for meta search.
1164    
1165    Function results C<Search::Estraier::NodeResult> object.
1166    
1167    =cut
1168    
1169    sub search {
1170            my $self = shift;
1171            my ($cond, $depth) = @_;
1172            return unless ($cond && defined($depth) && $self->{url});
1173            croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1174            croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);
1175    
1176            my $resbody;
1177    
1178            my $rv = $self->shuttle_url( $self->{url} . '/search',
1179                    'application/x-www-form-urlencoded',
1180                    $self->cond_to_query( $cond ),
1181                    \$resbody,
1182            );
1183            return if ($rv != 200);
1184    
1185            my (@docs, $hints);
1186    
1187            my @lines = split(/\n/, $resbody);
1188            return unless (@lines);
1189    
1190            my $border = $lines[0];
1191            my $isend = 0;
1192            my $lnum = 1;
1193    
1194            while ( $lnum <= $#lines ) {
1195                    my $line = $lines[$lnum];
1196                    $lnum++;
1197    
1198                    #warn "## $line\n";
1199                    if ($line && $line =~ m/^\Q$border\E(:END)*$/) {
1200                            $isend = $1;
1201                            last;
1202                    }
1203    
1204                    if ($line =~ /\t/) {
1205                            my ($k,$v) = split(/\t/, $line, 2);
1206                            $hints->{$k} = $v;
1207                    }
1208            }
1209    
1210            my $snum = $lnum;
1211    
1212            while( ! $isend && $lnum <= $#lines ) {
1213                    my $line = $lines[$lnum];
1214                    #warn "# $lnum: $line\n";
1215                    $lnum++;
1216    
1217                    if ($line && $line =~ m/^\Q$border\E/) {
1218                            if ($lnum > $snum) {
1219                                    my $rdattrs;
1220                                    my $rdvector;
1221                                    my $rdsnippet;
1222                                    
1223                                    my $rlnum = $snum;
1224                                    while ($rlnum < $lnum - 1 ) {
1225                                            #my $rdline = $self->_s($lines[$rlnum]);
1226                                            my $rdline = $lines[$rlnum];
1227                                            $rlnum++;
1228                                            last unless ($rdline);
1229                                            if ($rdline =~ /^%/) {
1230                                                    $rdvector = $1 if ($rdline =~ /^%VECTOR\t(.+)$/);
1231                                            } elsif($rdline =~ /=/) {
1232                                                    $rdattrs->{$1} = $2 if ($rdline =~ /^(.+)=(.+)$/);
1233                                            } else {
1234                                                    confess "invalid format of response";
1235                                            }
1236                                    }
1237                                    while($rlnum < $lnum - 1) {
1238                                            my $rdline = $lines[$rlnum];
1239                                            $rlnum++;
1240                                            $rdsnippet .= "$rdline\n";
1241                                    }
1242                                    #warn Dumper($rdvector, $rdattrs, $rdsnippet);
1243                                    if (my $rduri = $rdattrs->{'@uri'}) {
1244                                            push @docs, new Search::Estraier::ResultDocument(
1245                                                    uri => $rduri,
1246                                                    attrs => $rdattrs,
1247                                                    snippet => $rdsnippet,
1248                                                    keywords => $rdvector,
1249                                            );
1250                                    }
1251                            }
1252                            $snum = $lnum;
1253                            #warn "### $line\n";
1254                            $isend = 1 if ($line =~ /:END$/);
1255                    }
1256    
1257            }
1258    
1259            if (! $isend) {
1260                    warn "received result doesn't have :END\n$resbody";
1261                    return;
1262            }
1263    
1264            #warn Dumper(\@docs, $hints);
1265    
1266            return new Search::Estraier::NodeResult( docs => \@docs, hints => $hints );
1267    }
1268    
1269    
1270    =head2 cond_to_query
1271    
1272    Return URI encoded string generated from Search::Estraier::Condition
1273    
1274      my $args = $node->cond_to_query( $cond );
1275    
1276    =cut
1277    
1278    sub cond_to_query {
1279            my $self = shift;
1280    
1281            my $cond = shift || return;
1282            croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1283    
1284            my @args;
1285    
1286            if (my $phrase = $cond->phrase) {
1287                    push @args, 'phrase=' . uri_escape($phrase);
1288            }
1289    
1290            if (my @attrs = $cond->attrs) {
1291                    for my $i ( 0 .. $#attrs ) {
1292                            push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] );
1293                    }
1294            }
1295    
1296            if (my $order = $cond->order) {
1297                    push @args, 'order=' . uri_escape($order);
1298            }
1299                    
1300            if (my $max = $cond->max) {
1301                    push @args, 'max=' . $max;
1302            } else {
1303                    push @args, 'max=' . (1 << 30);
1304            }
1305    
1306            if (my $options = $cond->options) {
1307                    push @args, 'options=' . $options;
1308            }
1309    
1310            push @args, 'depth=' . $self->{depth} if ($self->{depth});
1311            push @args, 'wwidth=' . $self->{wwidth};
1312            push @args, 'hwidth=' . $self->{hwidth};
1313            push @args, 'awidth=' . $self->{awidth};
1314    
1315            return join('&', @args);
1316    }
1317    
1318    
1319  =head2 shuttle_url  =head2 shuttle_url
# Line 1049  sub _fetch_doc { Line 1321  sub _fetch_doc {
1321  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node
1322  master.  master.
1323    
1324    my $rv = shuttle_url( $url, $content_type, \$req_body, \$resbody );    my $rv = shuttle_url( $url, $content_type, $req_body, \$resbody );
1325    
1326  C<$resheads> and C<$resbody> booleans controll if response headers and/or response  C<$resheads> and C<$resbody> booleans controll if response headers and/or response
1327  body will be saved within object.  body will be saved within object.
1328    
1329  =cut  =cut
1330    
1331    use LWP::UserAgent;
1332    
1333  sub shuttle_url {  sub shuttle_url {
1334          my $self = shift;          my $self = shift;
1335    
# Line 1074  sub shuttle_url { Line 1348  sub shuttle_url {
1348                  return -1;                  return -1;
1349          }          }
1350    
1351          my ($host,$port,$query) = ($url->host, $url->port, $url->path);          my $ua = LWP::UserAgent->new;
1352            $ua->agent( "Search-Estraier/$Search::Estraier::VERSION" );
         if ($self->{pxhost}) {  
                 ($host,$port) = ($self->{pxhost}, $self->{pxport});  
                 $query = "http://$host:$port/$query";  
         }  
   
         $query .= '?' . $url->query if ($url->query && ! $reqbody);  
   
         my $headers;  
1353    
1354            my $req;
1355          if ($reqbody) {          if ($reqbody) {
1356                  $headers .= "POST $query HTTP/1.0\r\n";                  $req = HTTP::Request->new(POST => $url);
1357          } else {          } else {
1358                  $headers .= "GET $query HTTP/1.0\r\n";                  $req = HTTP::Request->new(GET => $url);
         }  
   
         $headers .= "Host: " . $url->host . ":" . $url->port . "\r\n";  
         $headers .= "Connection: close\r\n";  
         $headers .= "User-Agent: Search-Estraier/$Search::Estraier::VERSION\r\n";  
         $headers .= "Content-Type: $content_type\r\n";  
         $headers .= "Authorization: Basic $self->{auth}\r\n";  
         my $len = 0;  
         {  
                 use bytes;  
                 $len = length($reqbody) if ($reqbody);  
         }  
         $headers .= "Content-Length: $len\r\n";  
         $headers .= "\r\n";  
   
         my $sock = IO::Socket::INET->new(  
                 PeerAddr        => $host,  
                 PeerPort        => $port,  
                 Proto           => 'tcp',  
                 Timeout         => $self->{timeout} || 90,  
         );  
   
         if (! $sock) {  
                 carp "can't open socket to $host:$port";  
                 return -1;  
1359          }          }
1360    
1361          warn $headers if ($self->{debug});          $req->headers->header( 'Host' => $url->host . ":" . $url->port );
1362            $req->headers->header( 'Connection', 'close' );
1363            $req->headers->header( 'Authorization', 'Basic ' . $self->{auth} );
1364            $req->content_type( $content_type );
1365    
1366          print $sock $headers or          warn $req->headers->as_string,"\n" if ($self->{debug});
                 carp "can't send headers to network:\n$headers\n" and return -1;  
1367    
1368          if ($reqbody) {          if ($reqbody) {
1369                  warn "$reqbody\n" if ($self->{debug});                  warn "$reqbody\n" if ($self->{debug});
1370                  print $sock $reqbody or                  $req->content( $reqbody );
                         carp "can't send request body to network:\n$$reqbody\n" and return -1;  
1371          }          }
1372    
1373          my $line = <$sock>;          my $res = $ua->request($req) || croak "can't make request to $url: $!";
1374          chomp($line);  
1375          my ($schema, $res_status, undef) = split(/  */, $line, 3);          warn "## response status: ",$res->status_line,"\n" if ($self->{debug});
         return if ($schema !~ /^HTTP/ || ! $res_status);  
   
         $self->{status} = $res_status;  
         warn "## response status: $res_status\n" if ($self->{debug});  
   
         # skip rest of headers  
         $line = <$sock>;  
         while ($line) {  
                 $line = <$sock>;  
                 $line =~ s/[\r\n]+$//;  
                 warn "## ", $line || 'NULL', " ##\n" if ($self->{debug});  
         };  
1376    
1377          # read body          return -1 if (! $res->is_success);
1378          $len = 0;  
1379          do {          ($self->{status}, $self->{status_message}) = split(/\s+/, $res->status_line, 2);
1380                  $len = read($sock, my $buf, 8192);  
1381                  $$resbody .= $buf if ($resbody);          $$resbody .= $res->content;
         } while ($len);  
1382    
1383          warn "## response body:\n$$resbody\n" if ($resbody && $self->{debug});          warn "## response body:\n$$resbody\n" if ($resbody && $self->{debug});
1384    
1385          return $self->{status};          return $self->{status};
1386  }  }
1387    
1388    
1389    =head2 set_snippet_width
1390    
1391    Set width of snippets in results
1392    
1393      $node->set_snippet_width( $wwidth, $hwidth, $awidth );
1394    
1395    C<$wwidth> specifies whole width of snippet. It's C<480> by default. If it's C<0> snippet
1396    is not sent with results. If it is negative, whole document text is sent instead of snippet.
1397    
1398    C<$hwidth> specified width of strings from beginning of string. Default
1399    value is C<96>. Negative or zero value keep previous value.
1400    
1401    C<$awidth> specifies width of strings around each highlighted word. It's C<96> by default.
1402    If negative of zero value is provided previous value is kept unchanged.
1403    
1404    =cut
1405    
1406    sub set_snippet_width {
1407            my $self = shift;
1408    
1409            my ($wwidth, $hwidth, $awidth) = @_;
1410            $self->{wwidth} = $wwidth;
1411            $self->{hwidth} = $hwidth if ($hwidth >= 0);
1412            $self->{awidth} = $awidth if ($awidth >= 0);
1413    }
1414    
1415    
1416    =head2 set_user
1417    
1418    Manage users of node
1419    
1420      $node->set_user( 'name', $mode );
1421    
1422    C<$mode> can be one of:
1423    
1424    =over 4
1425    
1426    =item 0
1427    
1428    delete account
1429    
1430    =item 1
1431    
1432    set administrative right for user
1433    
1434    =item 2
1435    
1436    set user account as guest
1437    
1438    =back
1439    
1440    Return true on success, otherwise false.
1441    
1442    =cut
1443    
1444    sub set_user {
1445            my $self = shift;
1446            my ($name, $mode) = @_;
1447    
1448            return unless ($self->{url});
1449            croak "mode must be number, not '$mode'" unless ($mode =~ m/^\d+$/);
1450    
1451            $self->shuttle_url( $self->{url} . '/_set_user',
1452                    'text/plain',
1453                    'name=' . uri_escape($name) . '&mode=' . $mode,
1454                    undef
1455            ) == 200;
1456    }
1457    
1458    
1459    =head2 set_link
1460    
1461    Manage node links
1462    
1463      $node->set_link('http://localhost:1978/node/another', 'another node label', $credit);
1464    
1465    If C<$credit> is negative, link is removed.
1466    
1467    =cut
1468    
1469    sub set_link {
1470            my $self = shift;
1471            my ($url, $label, $credit) = @_;
1472    
1473            return unless ($self->{url});
1474            croak "mode credit be number, not '$credit'" unless ($credit =~ m/^\d+$/);
1475    
1476            my $reqbody = 'url=' . uri_escape($url) . '&label=' . uri_escape($label);
1477            $reqbody .= '&credit=' . $credit if ($credit > 0);
1478    
1479            $self->shuttle_url( $self->{url} . '/_set_link',
1480                    'text/plain',
1481                    $reqbody,
1482                    undef
1483            ) == 200;
1484    }
1485    
1486    
1487    =head1 PRIVATE METHODS
1488    
1489    You could call those directly, but you don't have to. I hope.
1490    
1491    =head2 _set_info
1492    
1493    Set information for node
1494    
1495      $node->_set_info;
1496    
1497    =cut
1498    
1499    sub _set_info {
1500            my $self = shift;
1501    
1502            $self->{status} = -1;
1503            return unless ($self->{url});
1504    
1505            my $resbody;
1506            my $rv = $self->shuttle_url( $self->{url} . '/inform',
1507                    'text/plain',
1508                    undef,
1509                    \$resbody,
1510            );
1511    
1512            return if ($rv != 200 || !$resbody);
1513    
1514            # it seems that response can have multiple line endings
1515            $resbody =~ s/[\r\n]+$//;
1516    
1517            ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =
1518                    split(/\t/, $resbody, 5);
1519    
1520    }
1521    
1522  ###  ###
1523    
1524  =head1 EXPORT  =head1 EXPORT

Legend:
Removed from v.47  
changed lines
  Added in v.60

  ViewVC Help
Powered by ViewVC 1.1.26