/[Search-Estraier]/trunk/lib/Search/Estraier.pm
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/lib/Search/Estraier.pm

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 43 by dpavlin, Fri Jan 6 00:04:28 2006 UTC revision 52 by dpavlin, Fri Jan 6 14:10:29 2006 UTC
# Line 688  sub hint { Line 688  sub hint {
688    
689  package Search::Estraier::Node;  package Search::Estraier::Node;
690    
691  use Carp qw/carp croak/;  use Carp qw/carp croak confess/;
692  use URI;  use URI;
693  use MIME::Base64;  use MIME::Base64;
694  use IO::Socket::INET;  use IO::Socket::INET;
695    use URI::Escape qw/uri_escape/;
696    
697  =head1 Search::Estraier::Node  =head1 Search::Estraier::Node
698    
# Line 818  Return true on success or false on failt Line 819  Return true on success or false on failt
819  sub put_doc {  sub put_doc {
820          my $self = shift;          my $self = shift;
821          my $doc = shift || return;          my $doc = shift || return;
822          return unless ($self->{url});          return unless ($self->{url} && $doc->isa('Search::Estraier::Document'));
823          $self->shuttle_url( $self->{url} . '/put_doc',          $self->shuttle_url( $self->{url} . '/put_doc',
824                  'text/x-estraier-draft',                  'text/x-estraier-draft',
825                  $doc->dump_draft,                  $doc->dump_draft,
# Line 854  sub out_doc { Line 855  sub out_doc {
855    
856  Remove a registrated document using it's uri  Remove a registrated document using it's uri
857    
858    $node->out_doc_by_uri( 'file:///document_url' ) or "can't remove document";    $node->out_doc_by_uri( 'file:///document/uri/42' ) or "can't remove document";
859    
860  Return true on success or false on failture.  Return true on success or false on failture.
861    
# Line 866  sub out_doc_by_uri { Line 867  sub out_doc_by_uri {
867          return unless ($self->{url});          return unless ($self->{url});
868          $self->shuttle_url( $self->{url} . '/out_doc',          $self->shuttle_url( $self->{url} . '/out_doc',
869                  'application/x-www-form-urlencoded',                  'application/x-www-form-urlencoded',
870                  "uri=$uri",                  "uri=" . uri_escape($uri),
871                  undef                  undef
872          ) == 200;          ) == 200;
873  }  }
# Line 885  Return true on success or false on failt Line 886  Return true on success or false on failt
886  sub edit_doc {  sub edit_doc {
887          my $self = shift;          my $self = shift;
888          my $doc = shift || return;          my $doc = shift || return;
889          return unless ($self->{url});          return unless ($self->{url} && $doc->isa('Search::Estraier::Document'));
890          $self->shuttle_url( $self->{url} . '/edit_doc',          $self->shuttle_url( $self->{url} . '/edit_doc',
891                  'text/x-estraier-draft',                  'text/x-estraier-draft',
892                  $doc->dump_draft,                  $doc->dump_draft,
# Line 910  sub get_doc { Line 911  sub get_doc {
911          return $self->_fetch_doc( id => $id );          return $self->_fetch_doc( id => $id );
912  }  }
913    
914    
915  =head2 get_doc_by_uri  =head2 get_doc_by_uri
916    
917  Retreive document  Retreive document
918    
919    my $doc = $node->get_doc_by_uri( 'file:///document_uri' ) or die "can't get document";    my $doc = $node->get_doc_by_uri( 'file:///document/uri/42' ) or die "can't get document";
920    
921  Return true on success or false on failture.  Return true on success or false on failture.
922    
# Line 926  sub get_doc_by_uri { Line 928  sub get_doc_by_uri {
928          return $self->_fetch_doc( uri => $uri );          return $self->_fetch_doc( uri => $uri );
929  }  }
930    
931    
932    =head2 get_doc_attr
933    
934    Retrieve the value of an atribute from object
935    
936      my $val = $node->get_doc_attr( document_id, 'attribute_name' ) or
937            die "can't get document attribute";
938    
939    =cut
940    
941    sub get_doc_attr {
942            my $self = shift;
943            my ($id,$name) = @_;
944            return unless ($id && $name);
945            return $self->_fetch_doc( id => $id, attr => $name );
946    }
947    
948    
949    =head2 get_doc_attr_by_uri
950    
951    Retrieve the value of an atribute from object
952    
953      my $val = $node->get_doc_attr_by_uri( document_id, 'attribute_name' ) or
954            die "can't get document attribute";
955    
956    =cut
957    
958    sub get_doc_attr_by_uri {
959            my $self = shift;
960            my ($uri,$name) = @_;
961            return unless ($uri && $name);
962            return $self->_fetch_doc( uri => $uri, attr => $name );
963    }
964    
965    
966    =head2 etch_doc
967    
968    Exctract document keywords
969    
970      my $keywords = $node->etch_doc( document_id ) or die "can't etch document";
971    
972    =cut
973    
974    sub etch_doc {
975            my $self = shift;
976            my $id = shift || return;
977            return $self->_fetch_doc( id => $id, etch => 1 );
978    }
979    
980    =head2 etch_doc_by_uri
981    
982    Retreive document
983    
984      my $keywords = $node->etch_doc_by_uri( 'file:///document/uri/42' ) or die "can't etch document";
985    
986    Return true on success or false on failture.
987    
988    =cut
989    
990    sub etch_doc_by_uri {
991            my $self = shift;
992            my $uri = shift || return;
993            return $self->_fetch_doc( uri => $uri, etch => 1 );
994    }
995    
996    
997    =head2 uri_to_id
998    
999    Get ID of document specified by URI
1000    
1001      my $id = $node->uri_to_id( 'file:///document/uri/42' );
1002    
1003    =cut
1004    
1005    sub uri_to_id {
1006            my $self = shift;
1007            my $uri = shift || return;
1008            return $self->_fetch_doc( uri => $uri, path => '/uri_to_id', chomp_resbody => 1 );
1009    }
1010    
1011    
1012  =head2 _fetch_doc  =head2 _fetch_doc
1013    
1014  Private function used for implementation of C<get_doc> and C<get_doc_by_uri>.  Private function used for implementing of C<get_doc>, C<get_doc_by_uri>,
1015    C<etch_doc>, C<etch_doc_by_uri>.
1016    
1017   my $doc = $node->fetch_doc( id => 42 );   # this will decode received draft into Search::Estraier::Document object
1018   my $doc = $node->fetch_doc( uri => 'file://uri/42' );   my $doc = $node->_fetch_doc( id => 42 );
1019     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42' );
1020    
1021     # to extract keywords, add etch
1022     my $doc = $node->_fetch_doc( id => 42, etch => 1 );
1023     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', etch => 1 );
1024    
1025     # to get document attrubute add attr
1026     my $doc = $node->_fetch_doc( id => 42, attr => '@mdate' );
1027     my $doc = $node->_fetch_doc( uri => 'file:///document/uri/42', attr => '@mdate' );
1028    
1029     # more general form which allows implementation of
1030     # uri_to_id
1031     my $id = $node->_fetch_doc(
1032            uri => 'file:///document/uri/42',
1033            path => '/uri_to_id',
1034            chomp_resbody => 1
1035     );
1036    
1037  =cut  =cut
1038    
1039  sub _fetch_doc {  sub _fetch_doc {
1040          my $self = shift;          my $self = shift;
1041          my ($name,$val) = @_;          my $a = {@_};
1042          return unless ($name && defined($val) && $self->{url});          return unless ( ($a->{id} || $a->{uri}) && $self->{url} );
1043          if ($name eq 'id') {  
1044                  croak "id must be numberm not '$val'" unless ($val =~ m/^\d+$/);          my ($arg, $resbody);
1045    
1046            my $path = $a->{path} || '/get_doc';
1047            $path = '/etch_doc' if ($a->{etch});
1048    
1049            if ($a->{id}) {
1050                    croak "id must be numberm not '$a->{id}'" unless ($a->{id} =~ m/^\d+$/);
1051                    $arg = 'id=' . $a->{id};
1052            } elsif ($a->{uri}) {
1053                    $arg = 'uri=' . uri_escape($a->{uri});
1054            } else {
1055                    confess "unhandled argument. Need id or uri.";
1056            }
1057    
1058            if ($a->{attr}) {
1059                    $path = '/get_doc_attr';
1060                    $arg .= '&attr=' . uri_escape($a->{attr});
1061                    $a->{chomp_resbody} = 1;
1062          }          }
1063          my $rv = $self->shuttle_url( $self->{url} . '/get_doc',  
1064            my $rv = $self->shuttle_url( $self->{url} . $path,
1065                  'application/x-www-form-urlencoded',                  'application/x-www-form-urlencoded',
1066                  "$name=$val",                  $arg,
1067                  my $draft,                  \$resbody,
1068          );          );
1069    
1070          return if ($rv != 200);          return if ($rv != 200);
1071          return new Search::Estraier::Document($draft);  
1072            if ($a->{etch}) {
1073                    $self->{kwords} = {};
1074                    return +{} unless ($resbody);
1075                    foreach my $l (split(/\n/, $resbody)) {
1076                            my ($k,$v) = split(/\t/, $l, 2);
1077                            $self->{kwords}->{$k} = $v if ($v);
1078                    }
1079                    return $self->{kwords};
1080            } elsif ($a->{chomp_resbody}) {
1081                    return unless (defined($resbody));
1082                    chomp($resbody);
1083                    return $resbody;
1084            } else {
1085                    return new Search::Estraier::Document($resbody);
1086            }
1087  }  }
1088    
1089    
1090    =head2 name
1091    
1092      my $node_name = $node->name;
1093    
1094    =cut
1095    
1096    sub name {
1097            my $self = shift;
1098            $self->set_info unless ($self->{name});
1099            return $self->{name};
1100    }
1101    
1102    
1103    =head2 label
1104    
1105      my $node_label = $node->label;
1106    
1107    =cut
1108    
1109    sub label {
1110            my $self = shift;
1111            $self->set_info unless ($self->{label});
1112            return $self->{label};
1113    }
1114    
1115    
1116    =head2 doc_num
1117    
1118      my $documents_in_node = $node->doc_num;
1119    
1120    =cut
1121    
1122    sub doc_num {
1123            my $self = shift;
1124            $self->set_info if ($self->{dnum} < 0);
1125            return $self->{dnum};
1126    }
1127    
1128    
1129    =head2 word_num
1130    
1131      my $words_in_node = $node->word_num;
1132    
1133    =cut
1134    
1135    sub word_num {
1136            my $self = shift;
1137            $self->set_info if ($self->{wnum} < 0);
1138            return $self->{wnum};
1139    }
1140    
1141    
1142    =head2 size
1143    
1144      my $node_size = $node->size;
1145    
1146    =cut
1147    
1148    sub size {
1149            my $self = shift;
1150            $self->set_info if ($self->{size} < 0);
1151            return $self->{size};
1152    }
1153    
1154    
1155    =head2 search
1156    
1157    Search documents which match condition
1158    
1159      my $nres = $node->search( $cond, $depth );
1160    
1161    C<$cond> is C<Search::Estraier::Condition> object, while <$depth> specifies
1162    depth for meta search.
1163    
1164    Function results C<Search::Estraier::NodeResult> object.
1165    
1166    =cut
1167    
1168    sub search {
1169            my $self = shift;
1170            my ($cond, $depth) = @_;
1171            return unless ($cond && defined($depth) && $self->{url});
1172            croak "cond mush be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1173            croak "depth needs number, not '$depth'" unless ($depth =~ m/^\d+$/);
1174    
1175            my $resbody;
1176    
1177            my $rv = $self->shuttle_url( $self->{url} . '/search',
1178                    'text/x-estraier-draft',
1179                    $self->cond_to_query( $cond ),
1180                    \$resbody,
1181            );
1182            return if ($rv != 200);
1183    
1184            my (@docs, $hints);
1185    
1186            my @lines = split(/\n/, $resbody);
1187            return unless (@lines);
1188    
1189            my $border = $lines[0];
1190            my $isend = 0;
1191            my $lnum = 1;
1192    
1193            while ( $lnum <= $#lines ) {
1194                    my $line = $lines[$lnum];
1195                    $lnum++;
1196    
1197                    #warn "## $line\n";
1198                    if ($line && $line =~ m/^\Q$border\E(:END)*$/) {
1199                            $isend = $1;
1200                            last;
1201                    }
1202    
1203                    if ($line =~ /\t/) {
1204                            my ($k,$v) = split(/\t/, $line, 2);
1205                            $hints->{$k} = $v;
1206                    }
1207            }
1208    
1209            my $snum = $lnum;
1210    
1211            while( ! $isend && $lnum <= $#lines ) {
1212                    my $line = $lines[$lnum];
1213                    $lnum++;
1214    
1215                    if ($line && $line =~ m/^\Q$border\E/) {
1216                            if ($lnum > $snum) {
1217                                    my $rdattrs;
1218                                    my $rdvector;
1219                                    my $rdsnippet;
1220                                    
1221                                    my $rlnum = $snum;
1222                                    while ($rlnum < $lnum - 1 ) {
1223                                            #my $rdline = $self->_s($lines[$rlnum]);
1224                                            my $rdline = $lines[$rlnum];
1225                                            $rlnum++;
1226                                            last unless ($rdline);
1227                                            if ($rdline =~ /^%/) {
1228                                                    $rdvector = $1 if ($rdline =~ /^%VECTOR\t(.+)$/);
1229                                            } else {
1230                                                    $rdattrs->{$1} = {$2} if ($line =~ /^(.+)=(.+)$/);
1231                                            }
1232                                    }
1233                                    while($rlnum < $lnum - 1) {
1234                                            my $rdline = $lines[$rlnum];
1235                                            $rlnum++;
1236                                            $rdsnippet .= "$rdline\n";
1237                                    }
1238                                    if (my $rduri = $rdattrs->{'@uri'}) {
1239                                            push @docs, new Search::Estraier::ResultDocument(
1240                                                    uri => $rduri,
1241                                                    attrs => $rdattrs,
1242                                                    snippet => $rdsnippet,
1243                                                    keywords => $rdvector,
1244                                            );
1245                                    }
1246                            }
1247                            $snum = $lnum;
1248                            #warn "### $line\n";
1249                            $isend = 1 if ($line =~ /:END$/);
1250                    }
1251    
1252                    if (! $isend) {
1253                            warn "received result doesn't have :END\n$resbody";
1254                            return;
1255                    }
1256            }
1257    
1258            if (! $isend) {
1259                    warn "received result doesn't have :END\n$resbody";
1260                    return;
1261            }
1262                                            
1263    
1264            return new Search::Estraier::NodeResult( docs => \@docs, hints => $hints );
1265    }
1266    
1267    
1268    =head2 cond_to_query
1269    
1270      my $args = $node->cond_to_query( $cond );
1271    
1272    =cut
1273    
1274    sub cond_to_query {
1275            my $self = shift;
1276    
1277            my $cond = shift || return;
1278            croak "condition must be Search::Estraier::Condition, not '$cond->isa'" unless ($cond->isa('Search::Estraier::Condition'));
1279    
1280            my @args;
1281    
1282            if (my $phrase = $cond->phrase) {
1283                    push @args, 'phrase=' . uri_escape($phrase);
1284            }
1285    
1286            if (my @attrs = $cond->attrs) {
1287                    for my $i ( 0 .. $#attrs ) {
1288                            push @args,'attr' . ($i+1) . '=' . uri_escape( $attrs[$i] );
1289                    }
1290            }
1291    
1292            if (my $order = $cond->order) {
1293                    push @args, 'order=' . uri_escape($order);
1294            }
1295                    
1296            if (my $max = $cond->max) {
1297                    push @args, 'max=' . $max;
1298            } else {
1299                    push @args, 'max=' . (1 << 30);
1300            }
1301    
1302            if (my $options = $cond->options) {
1303                    push @args, 'options=' . $options;
1304            }
1305    
1306            push @args, 'depth=' . $self->{depth} if ($self->{depth});
1307            push @args, 'wwidth=' . $self->{wwidth};
1308            push @args, 'hwidth=' . $self->{hwidth};
1309            push @args, 'awidth=' . $self->{awidth};
1310    
1311            return join('&', @args);
1312    }
1313    
1314    
1315  =head2 shuttle_url  =head2 shuttle_url
# Line 959  sub _fetch_doc { Line 1317  sub _fetch_doc {
1317  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node  This is method which uses C<IO::Socket::INET> to communicate with Hyper Estraier node
1318  master.  master.
1319    
1320    my $rv = shuttle_url( $url, $content_type, \$req_body, \$resbody );    my $rv = shuttle_url( $url, $content_type, $req_body, \$resbody );
1321    
1322  C<$resheads> and C<$resbody> booleans controll if response headers and/or response  C<$resheads> and C<$resbody> booleans controll if response headers and/or response
1323  body will be saved within object.  body will be saved within object.
# Line 1065  sub shuttle_url { Line 1423  sub shuttle_url {
1423          return $self->{status};          return $self->{status};
1424  }  }
1425    
1426    
1427    =head2 set_info
1428    
1429    Set information for node
1430    
1431      $node->set_info;
1432    
1433    =cut
1434    
1435    sub set_info {
1436            my $self = shift;
1437    
1438            $self->{status} = -1;
1439            return unless ($self->{url});
1440    
1441            my $resbody;
1442            my $rv = $self->shuttle_url( $self->{url} . '/inform',
1443                    'text/plain',
1444                    undef,
1445                    \$resbody,
1446            );
1447    
1448            return if ($rv != 200 || !$resbody);
1449    
1450            chomp($resbody);
1451    
1452            ( $self->{name}, $self->{label}, $self->{dnum}, $self->{wnum}, $self->{size} ) =
1453                    split(/\t/, $resbody, 5);
1454    
1455    }
1456    
1457  ###  ###
1458    
1459  =head1 EXPORT  =head1 EXPORT

Legend:
Removed from v.43  
changed lines
  Added in v.52

  ViewVC Help
Powered by ViewVC 1.1.26