/[nn]/swish/html2xml.pl
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /swish/html2xml.pl

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.2 by dpavlin, Wed Jun 19 12:33:23 2002 UTC revision 1.5 by dpavlin, Fri Sep 13 09:20:52 2002 UTC
# Line 27  my $god;       ## godina NN Line 27  my $god;       ## godina NN
27  my $aname;      ## ancor name na originalnim stranicama  my $aname;      ## ancor name na originalnim stranicama
28    
29  my $nn_dir="../";               # dir u kojem su wget-ani fileovi  my $nn_dir="../";               # dir u kojem su wget-ani fileovi
30  my $url="http://www.nn.hr/CijeliBrojS.asp?god=%d&br=%d&mid=%d#%d";  my $url="http://www.nn.hr/CijeliBrojS.asp?god=%d&br=%s&mid=%s#%d";
31    
32  my %opts;  my %opts;
33  getopts("vqdl:", \%opts);  getopts("vqdl:", \%opts);
# Line 100  foreach my $file (@files) { Line 100  foreach my $file (@files) {
100                          $naslov_czs = join(" ",$hr->alternatives(split(/ /,$naslov_czs)));                          $naslov_czs = join(" ",$hr->alternatives(split(/ /,$naslov_czs)));
101  #                       $naslov_czs = $hr->minimal(split(/ /,$naslov_czs));  #                       $naslov_czs = $hr->minimal(split(/ /,$naslov_czs));
102                          my $xml="<nn>\n<br>$br</br>\n<god>$god</god>\n<nr>$nr</nr>\n<aname>$aname</aname>\n";                          my $xml="<nn>\n<br>$br</br>\n<god>$god</god>\n<nr>$nr</nr>\n<aname>$aname</aname>\n";
103                          $xml.="<naslov>". $l2_map->tou($naslov)->utf8 ."</naslov>\n";                          my $naslov_utf=$l2_map->tou($naslov)->utf8;
104    
105                            # Escape <, >, & and ", and to produce valid XML
106                            my %escape = ('<'=>'&lt;', '>'=>'&gt;', '&'=>'&amp;', '"'=>'&quot;');  
107                            my $escape_re  = join '|' => keys %escape;
108                            $naslov_utf =~ s/($escape_re)/$escape{$1}/g;
109    
110                            $xml.="<naslov>$naslov_utf</naslov>\n";
111                          $xml.="<naslov_czs>$naslov_czs</naslov_czs>\n</nn>\n\n";                          $xml.="<naslov_czs>$naslov_czs</naslov_czs>\n</nn>\n\n";
112                          dump_to_swish($xml,$god,$br,$nr,$aname);                          dump_to_swish($xml,$god,$br,$nr,$aname);
113                                                    
# Line 110  foreach my $file (@files) { Line 117  foreach my $file (@files) {
117                  }                  }
118    
119                  if ($sadrzaj) {                  if ($sadrzaj) {
120                          if (s/<a href="#([^"]+)">\s*(\d+)\.\s*<[^>]+>//i) {                          if (s/<a href="#([^"]+)">\s*(\S+)\.\s*<[^>]+>//i) {
121                                  ($aname,$nr) = ($1,$2);                                  ($aname,$nr) = ($1,$2);
122                          } elsif (s/<a href="Javascript:Mojdok\((\d+),(\d+),'*(\w+)'*,(\d+)\)[^>]*>//i) {                          } elsif (s/<a href="Javascript:Mojdok\((\d+),(\d+),'*(\w+)'*,(\d+)\)[^>]*>//i) {
123                                  ($nr,$aname) = ($3,$4);                                  ($nr,$aname) = ($3,$4);

Legend:
Removed from v.1.2  
changed lines
  Added in v.1.5

  ViewVC Help
Powered by ViewVC 1.1.26