/[Search-Estraier]/trunk/lib/Search/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/Search/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 49 by dpavlin, Fri Jan 6 12:40:23 2006 UTC revision 58 by dpavlin, Fri Jan 6 21:05:05 2006 UTC
# Line 645  Return number of documents Line 645  Return number of documents
645    
646  sub doc_num {  sub doc_num {
647          my $self = shift;          my $self = shift;
648          return $#{$self->{docs}};          return $#{$self->{docs}} + 1;
649  }  }
650    
651    
# Line 717  sub new { Line 717  sub new {
717          };          };
718          bless($self, $class);          bless($self, $class);
719    
720          if (@_) {          my $args = {@_};
721                  $self->{debug} = shift;  
722                  warn "## Node debug on\n";          $self->{debug} = $args->{debug};
723          }          warn "## Node debug on\n" if ($self->{debug});
724    
725          $self ? return $self : return undef;          $self ? return $self : return undef;
726  }  }
# Line 867  sub out_doc_by_uri { Line 867  sub out_doc_by_uri {
867          return unless ($self->{url});          return unless ($self->{url});
868          $self->shuttle_url( $self->{url} . '/out_doc',          $self->shuttle_url( $self->{url} . '/out_doc',
869                  'application/x-www-form-urlencoded',                  'application/x-www-form-urlencoded',
870                  "uri=$uri",                  "uri=" . uri_escape($uri),
871                  undef                  undef
872          ) == 200;          ) == 200;
873  }  }
# Line 1050  sub _fetch_doc { Line 1050  sub _fetch_doc {
1050                  croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);                  croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);
1051                  $arg = 'id=' . $a->{id};                  $arg = 'id=' . $a->{id};
1052          } elsif ($a->{uri}) {          } elsif ($a->{uri}) {
1053                  $arg = 'uri=' . $a->{uri};                  $arg = 'uri=' . uri_escape($a->{uri});
1054          } else {          } else {
1055                  confess "unhandled argument. Need id or uri.";                  confess "unhandled argument. Need id or uri.";
1056          }          }
# Line 1095  sub _fetch_doc { Line 1095  sub _fetch_doc {
1095    
1096  sub name {  sub name {
1097          my $self = shift;          my $self = shift;
1098          $self->set_info unless ($self->{name});          $self->_set_info unless ($self->{name});
1099          return $self->{name};          return $self->{name};
1100  }  }
1101    
# Line 1108  sub name { Line 1108  sub name {
1108    
1109  sub label {  sub label {
1110          my $self = shift;          my $self = shift;
1111          $self->set_info unless ($self->{label});          $self->_set_info unless ($self->{label});
1112          return $self->{label};          return $self->{label};
1113  }  }
1114    
# Line 1121  sub label { Line 1121  sub label {
1121    
1122  sub doc_num {  sub doc_num {
1123          my $self = shift;          my $self = shift;
1124          $self->set_info if ($self->{dnum} < 0);          $self->_set_info if ($self->{dnum} < 0);
1125          return $self->{dnum};          return $self->{dnum};
1126  }  }
1127    
# Line 1134  sub doc_num { Line 1134  sub doc_num {
1134    
1135  sub word_num {  sub word_num {
1136          my $self = shift;          my $self = shift;
1137          $self->set_info if ($self->{wnum} < 0);          $self->_set_info if ($self->{wnum} < 0);
1138          return $self->{wnum};          return $self->{wnum};
1139  }  }
1140    
# Line 1147  sub word_num { Line 1147  sub word_num {
1147    
1148  sub size {  sub size {
1149          my $self = shift;          my $self = shift;
1150          $self->set_info if ($self->{size} < 0);          $self->_set_info if ($self->{size} < 0);
1151          return $self->{size};          return $self->{size};
1152  }  }
1153    
1154    
1155    =head2 search
1156    
1157    Search documents which match condition
1158    
1159      my $nres = $node->search( $cond, $depth );
1160    
1161    C<$cond> is C<Search::Estraier::Condition> object, while <$depth> specifies
1162    depth for meta search.
1163    
1164    Function results C<Search::Estraier::NodeResult> object.
1165    
1166    =cut
1167    
1168    sub search {
1169            my $self = shift;
1170            my ($cond, $depth) = @_;
1171            return unless ($cond && defined($depth) && $self->{url});
1172            croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1173            croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);
1174    
1175            my $resbody;
1176    
1177            my $rv = $self->shuttle_url( $self->{url} . '/search',
1178                    'application/x-www-form-urlencoded',
1179                    $self->cond_to_query( $cond ),
1180                    \$resbody,
1181            );
1182            return if ($rv != 200);
1183    
1184            my (@docs, $hints);
1185    
1186            my @lines = split(/\n/, $resbody);
1187            return unless (@lines);
1188    
1189            my $border = $lines[0];
1190            my $isend = 0;
1191            my $lnum = 1;
1192    
1193            while ( $lnum <= $#lines ) {
1194                    my $line = $lines[$lnum];
1195                    $lnum++;
1196    
1197                    #warn "## $line\n";
1198                    if ($line && $line =~ m/^\Q$border\E(:END)*$/) {
1199                            $isend = $1;
1200                            last;
1201                    }
1202    
1203                    if ($line =~ /\t/) {
1204                            my ($k,$v) = split(/\t/, $line, 2);
1205                            $hints->{$k} = $v;
1206                    }
1207            }
1208    
1209            my $snum = $lnum;
1210    
1211            while( ! $isend && $lnum <= $#lines ) {
1212                    my $line = $lines[$lnum];
1213                    #warn "# $lnum: $line\n";
1214                    $lnum++;
1215    
1216                    if ($line && $line =~ m/^\Q$border\E/) {
1217                            if ($lnum > $snum) {
1218                                    my $rdattrs;
1219                                    my $rdvector;
1220                                    my $rdsnippet;
1221                                    
1222                                    my $rlnum = $snum;
1223                                    while ($rlnum < $lnum - 1 ) {
1224                                            #my $rdline = $self->_s($lines[$rlnum]);
1225                                            my $rdline = $lines[$rlnum];
1226                                            $rlnum++;
1227                                            last unless ($rdline);
1228                                            if ($rdline =~ /^%/) {
1229                                                    $rdvector = $1 if ($rdline =~ /^%VECTOR\t(.+)$/);
1230                                            } elsif($rdline =~ /=/) {
1231                                                    $rdattrs->{$1} = $2 if ($rdline =~ /^(.+)=(.+)$/);
1232                                            } else {
1233                                                    confess "invalid format of response";
1234                                            }
1235                                    }
1236                                    while($rlnum < $lnum - 1) {
1237                                            my $rdline = $lines[$rlnum];
1238                                            $rlnum++;
1239                                            $rdsnippet .= "$rdline\n";
1240                                    }
1241                                    #warn Dumper($rdvector, $rdattrs, $rdsnippet);
1242                                    if (my $rduri = $rdattrs->{'@uri'}) {
1243                                            push @docs, new Search::Estraier::ResultDocument(
1244                                                    uri => $rduri,
1245                                                    attrs => $rdattrs,
1246                                                    snippet => $rdsnippet,
1247                                                    keywords => $rdvector,
1248                                            );
1249                                    }
1250                            }
1251                            $snum = $lnum;
1252                            #warn "### $line\n";
1253                            $isend = 1 if ($line =~ /:END$/);
1254                    }
1255    
1256            }
1257    
1258            if (! $isend) {
1259                    warn "received result doesn't have :END\n$resbody";
1260                    return;
1261            }
1262    
1263            #warn Dumper(\@docs, $hints);
1264    
1265            return new Search::Estraier::NodeResult( docs => \@docs, hints => $hints );
1266    }
1267    
1268    
1269    =head2 cond_to_query
1270    
1271    Return URI encoded string generated from Search::Estraier::Condition
1272    
1273      my $args = $node->cond_to_query( $cond );
1274    
1275    =cut
1276    
1277    sub cond_to_query {
1278            my $self = shift;
1279    
1280            my $cond = shift || return;
1281            croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1282    
1283            my @args;
1284    
1285            if (my $phrase = $cond->phrase) {
1286                    push @args, 'phrase=' . uri_escape($phrase);
1287            }
1288    
1289            if (my @attrs = $cond->attrs) {
1290                    for my $i ( 0 .. $#attrs ) {
1291                            push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] );
1292                    }
1293            }
1294    
1295            if (my $order = $cond->order) {
1296                    push @args, 'order=' . uri_escape($order);
1297            }
1298                    
1299            if (my $max = $cond->max) {
1300                    push @args, 'max=' . $max;
1301            } else {
1302                    push @args, 'max=' . (1 << 30);
1303            }
1304    
1305            if (my $options = $cond->options) {
1306                    push @args, 'options=' . $options;
1307            }
1308    
1309            push @args, 'depth=' . $self->{depth} if ($self->{depth});
1310            push @args, 'wwidth=' . $self->{wwidth};
1311            push @args, 'hwidth=' . $self->{hwidth};
1312            push @args, 'awidth=' . $self->{awidth};
1313    
1314            return join('&', @args);
1315    }
1316    
1317    
1318  =head2 shuttle_url  =head2 shuttle_url
1319    
1320  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node
1321  master.  master.
1322    
1323    my $rv = shuttle_url( $url, $content_type, \$req_body, \$resbody );    my $rv = shuttle_url( $url, $content_type, $req_body, \$resbody );
1324    
1325  C<$resheads> and C<$resbody> booleans controll if response headers and/or response  C<$resheads> and C<$resbody> booleans controll if response headers and/or response
1326  body will be saved within object.  body will be saved within object.
# Line 1265  sub shuttle_url { Line 1427  sub shuttle_url {
1427  }  }
1428    
1429    
1430  =head2 set_info  =head2 set_snippet_width
1431    
1432    Set width of snippets in results
1433    
1434      $node->set_snippet_width( $wwidth, $hwidth, $awidth );
1435    
1436    C<$wwidth> specifies whole width of snippet. It's C<480> by default. If it's C<0> snippet
1437    is not sent with results. If it is negative, whole document text is sent instead of snippet.
1438    
1439    C<$hwidth> specified width of strings from beginning of string. Default
1440    value is C<96>. Negative or zero value keep previous value.
1441    
1442    C<$awidth> specifies width of strings around each highlighted word. It's C<96> by default.
1443    If negative of zero value is provided previous value is kept unchanged.
1444    
1445    =cut
1446    
1447    sub set_snippet_width {
1448            my $self = shift;
1449    
1450            my ($wwidth, $hwidth, $awidth) = @_;
1451            $self->{wwidth} = $wwidth;
1452            $self->{hwidth} = $hwidth if ($hwidth >= 0);
1453            $self->{awidth} = $awidth if ($awidth >= 0);
1454    }
1455    
1456    
1457    =head2 set_user
1458    
1459    Manage users of node
1460    
1461      $node->set_user( 'name', $mode );
1462    
1463    C<$mode> can be one of:
1464    
1465    =over 4
1466    
1467    =item 0
1468    
1469    delete account
1470    
1471    =item 1
1472    
1473    set administrative right for user
1474    
1475    =item 2
1476    
1477    set user account as guest
1478    
1479    =back
1480    
1481    Return true on success, otherwise false.
1482    
1483    =cut
1484    
1485    sub set_user {
1486            my $self = shift;
1487            my ($name, $mode) = @_;
1488    
1489            return unless ($self->{url});
1490            croak "mode must be number, not '$mode'" unless ($mode =~ m/^\d+$/);
1491    
1492            $self->shuttle_url( $self->{url} . '/_set_user',
1493                    'text/plain',
1494                    'name=' . uri_escape($name) . '&mode=' . $mode,
1495                    undef
1496            ) == 200;
1497    }
1498    
1499    
1500    =head2 set_link
1501    
1502    Manage node links
1503    
1504      $node->set_link('http://localhost:1978/node/another', 'another node label', $credit);
1505    
1506    If C<$credit> is negative, link is removed.
1507    
1508    =cut
1509    
1510    sub set_link {
1511            my $self = shift;
1512            my ($url, $label, $credit) = @_;
1513    
1514            return unless ($self->{url});
1515            croak "mode credit be number, not '$credit'" unless ($credit =~ m/^\d+$/);
1516    
1517            my $reqbody = 'url=' . uri_escape($url) . '&label=' . uri_escape($label);
1518            $reqbody .= '&credit=' . $credit if ($credit > 0);
1519    
1520            $self->shuttle_url( $self->{url} . '/_set_link',
1521                    'text/plain',
1522                    $reqbody,
1523                    undef
1524            ) == 200;
1525    }
1526    
1527    
1528    =head1 PRIVATE METHODS
1529    
1530    You could call those directly, but you don't have to. I hope.
1531    
1532    =head2 _set_info
1533    
1534  Set information for node  Set information for node
1535    
1536    $node->set_info;    $node->_set_info;
1537    
1538  =cut  =cut
1539    
1540  sub set_info {  sub _set_info {
1541          my $self = shift;          my $self = shift;
1542    
1543          $self->{status} = -1;          $self->{status} = -1;
# Line 1288  sub set_info { Line 1552  sub set_info {
1552    
1553          return if ($rv != 200 || !$resbody);          return if ($rv != 200 || !$resbody);
1554    
1555          chomp($resbody);          # it seems that response can have multiple line endings
1556            $resbody =~ s/[\r\n]+$//;
1557    
1558          ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =          ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =
1559                  split(/\t/, $resbody, 5);                  split(/\t/, $resbody, 5);

Legend:
Removed from v.49  
changed lines
  Added in v.58

  ViewVC Help
Powered by ViewVC 1.1.26