/[nn]/swish/html2xml.pl

This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!

Diff of /swish/html2xml.pl

Parent Directory | Revision Log | View Patch Patch

-revision 1.1 by dpavlin,
Wed Jun 19 11:20:41 2002 UTC
+revision 1.5 by dpavlin,
Fri Sep 13 09:20:52 2002 UTC
 Line 16
  use strict;
  use Getopt::Std;
  use Lingua::Spelling::Alternative;
+ require Unicode::Map8;
  my $sadrzaj=0;
  my $nr=0;
-Line 26 
 my $god;       ## godina NN
+Line 27 
 my $god;       ## godina NN
  my $aname;      ## ancor name na originalnim stranicama
  my $nn_dir="../";               # dir u kojem su wget-ani fileovi
+ my $url="http://www.nn.hr/CijeliBrojS.asp?god=%d&br=%s&mid=%s#%d";
  my %opts;
  getopts("vqdl:", \%opts);
-Line 37 
 my $hr = new Lingua::Spelling::Alternati
+Line 39 
 my $hr = new Lingua::Spelling::Alternati
  #$hr->load_affix("$nn_dir/search/croatian.aff");
  $hr->load_findaffix("$nn_dir/prvih_50.txt");
+ my $l2_map = Unicode::Map8->new("ISO-8859-2") || die;
  #--------------------------------------------------------------------
+ sub dump_to_swish {
+         my $xml = shift @_;
+         my ($god,$br,$nr,$aname) = @_;
+         use utf8;
+         print   "Path-Name: ".sprintf($url,$god,$br,$nr,$aname)."\n".
+                 "Content-Length: ".length($xml)."\n".
+                 "Document-Type: XML\n".
+                 "\n$xml";
+ }
+ #--------------------------------------------------------------------
  opendir(DIR,$nn_dir) || warn "opendir: $!";
  my @files;
-Line 51 
 if ($opts{l}) {
+Line 68 
 if ($opts{l}) {
  }
  closedir(DIR);
- print "<xml>\n";
  foreach my $file (@files) {
          open(IN,"$nn_dir/$file") || die "can't open '$nn_dir/$file': $!";
-Line 84 
 foreach my $file (@files) {
+Line 99 
 foreach my $file (@files) {
                          $naslov_czs =~ tr/a-zA-Z/ /cs;  # non a-z  -> space
                          $naslov_czs = join(" ",$hr->alternatives(split(/ /,$naslov_czs)));
  #                       $naslov_czs = $hr->minimal(split(/ /,$naslov_czs));
-                         print "<br>$br</br><god>$god</god><nr>$nr</nr><aname>$aname</aname>\n<naslov>$naslov</naslov>\n<naslov_czs>$naslov_czs</naslov_czs>\n";
+                         my $xml="<nn>\n<br>$br</br>\n<god>$god</god>\n<nr>$nr</nr>\n<aname>$aname</aname>\n";
+                         my $naslov_utf=$l2_map->tou($naslov)->utf8;
+                         # Escape <, >, & and ", and to produce valid XML
+                         my %escape = ('<'=>'&lt;', '>'=>'&gt;', '&'=>'&amp;', '"'=>'&quot;');
+                         my $escape_re  = join '|' => keys %escape;
+                         $naslov_utf =~ s/($escape_re)/$escape{$1}/g;
+                         $xml.="<naslov>$naslov_utf</naslov>\n";
+                         $xml.="<naslov_czs>$naslov_czs</naslov_czs>\n</nn>\n\n";
+                         dump_to_swish($xml,$god,$br,$nr,$aname);
                          $naslov="";
                          $nr=0;
                          $zakona++;
                  }
                  if ($sadrzaj) {
-                         if (s/<a href="#([^"]+)">\s*(\d+)\.\s*<[^>]+>//i) {
+                         if (s/<a href="#([^"]+)">\s*(\S+)\.\s*<[^>]+>//i) {
                                  ($aname,$nr) = ($1,$2);
                          } elsif (s/<a href="Javascript:Mojdok\((\d+),(\d+),'*(\w+)'*,(\d+)\)[^>]*>//i) {
                                  ($nr,$aname) = ($3,$4);
-Line 109 
 foreach my $file (@files) {
+Line 135 
 foreach my $file (@files) {
          close(IN);
  }
- print "</xml>\n";
  print STDERR "Ukupno $brojeva brojeva NN, sa $zakona zakona...\n" if (! $opts{q});

 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.5
 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.5
-Removed from v.1.1
+Added in v.1.5

	ViewVC Help
Powered by ViewVC 1.1.26