changes to support UTF-8 encoding from
[webpac] / parse_format.pm
index 9123832..e348dde 100644 (file)
@@ -55,6 +55,9 @@ sub parse_iso_format {
 
                my $f = $format;
 
+               my $eval;
+               $eval = $1 if ($f =~ s/^eval{([^}]+?)}//);
+
                if ($f =~ s/^([^\d]+)//) {
                        if ($f) {       # there is more to parse
                                push @fmt,$1;
@@ -111,6 +114,9 @@ sub parse_iso_format {
                        }
                }
                push @fmt,'' if ($#fmt % 3 != 0);       # add empty suffix
+
+               $cache->{format_eval}->{$format} = $eval; # store eval string (if any)
+
                $cache->{format}->{$format} = \@fmt;
                
 #              print STDERR "storing format for '$format': [",join("|",@fmt),"]\n";
@@ -151,9 +157,31 @@ sub parse_iso_format {
                $sufix = shift @fmt;
        }
        $display = $prefix.$display.$sufix if ($display);
-       print STDERR "format left unused: [",join("|",@fmt),"]\n" if (@fmt);
 
-       print STDERR "format: [",join("|",@{$tmp}),"]\n" if (@fmt);
+       my $eval = $cache->{format_eval}->{$format};
+       if ($eval) {
+               sub fld2str {
+                       my ($func,$row,$f,$sf,$i) = @_;
+#print STDERR "## in fld2str\n";
+                       my $tmp = $codepage->convert(&$func($row,$f,$sf,$i)) ||  $codepage->convert(&$func($row,$f,$sf,0)) || '';
+                       return "'$tmp'";
+               }
+
+               $eval =~ s/v(\d+)\^(\w*)/fld2str($func,$row,$1,$2,$i)/eg;
+#print STDERR "## eval: $eval\n";
+               if (eval "$eval") {
+                       die "eval error: eval{$eval}: $@" if ($@);
+                       return ($swish,$display);
+               } else {
+                       die "eval error: eval{$eval}: $@" if ($@);
+                       return (undef,undef);
+               }
+       }
+
+       if (@fmt) {
+               print STDERR "format left unused: [",join("|",@fmt),"]\n";
+               print STDERR "format: [",join("|",@{$tmp}),"]\n";
+       }
 
 #      print STDERR "format: {",$format || '',"} display: {",$display || '',"} swish: {",$swish || '',"}\n";
 
@@ -166,7 +194,14 @@ sub parse_excel_format {
        my $format = shift;
        my $row = shift;
        my $i = shift;
-       my $codepage = shift;
+       #my $codepage = shift;
+       #
+       # data allready comes in utf-8 due to change in
+       # SpreadSheet::ParseExcel::FmtDefault line 69 from
+       #       return pack('C*', unpack('n*', $sTxt));
+       # to following which returns utf-8:
+       #       return pack('U*', unpack('n*', $sTxt));
+       #
 
        return if ($i > 0);     # Excel doesn't support repeatable fields
 
@@ -187,9 +222,6 @@ sub parse_excel_format {
 #print STDERR "--$1-> $format -[",length($format),"] ";
                        if ($row->{$1}) {
                                my $tmp = $row->{$1};
-                               if ($codepage) {
-                                       $tmp = $codepage->convert($tmp) || warn "excel: $1 '$tmp' can't convert";
-                               }
                                $display .= $prefix . $tmp;
                                $swish .= $tmp." ";
 #print STDERR " == $tmp";
@@ -198,7 +230,7 @@ sub parse_excel_format {
                } elsif ($format =~ s/^([^A-Z\|]+)(\|[A-Z]{1,2}\|)/$2/) {
                        $prefix .= $1 if ($display);
                } else {
-                       print STDERR "unparsed format: $format\n";
+                       #print STDERR "unparsed format: $format\n";
                        $prefix .= $format;
                        $format = "";
                }