eprints-dev: /home/dpavlin/mtoolkit/utf8-fix.pl [commit]
authorDobrica Pavlinusic <dpavlin@rot13.org>
Tue, 19 Oct 2010 00:05:12 +0000 (02:05 +0200)
committerDobrica Pavlinusic <dpavlin@rot13.org>
Tue, 19 Oct 2010 00:05:12 +0000 (02:05 +0200)
mtoolkit/utf8-fix.pl

index 5054189..4a37346 100755 (executable)
@@ -7,7 +7,7 @@ use Data::Dump qw(dump);
 use Encode;
 use bytes;
 
-my $junk = '[\xC0-\xC4][\x80-\xC4]+(\xC2\x80|\xC3\x82)';
+my $junk = '[\xC0-\xC4][\x80-\xC4]+';
 
 my $file = shift @ARGV;
 my $stat;
@@ -32,29 +32,31 @@ s/\xC3\x83\xC2\x83\xC3\xA2\xC2\x80\xC2\x99/V/gs && $stat->{'V fake'}++;
 # njemački
 s/\xC3\x83\xC2\x83\xC3\x85\xC2\xB8/ß/gs && $stat->{'ss'}++;
 
-s/$junk\xC2\x8D/č/gs && $stat->{'č'}++;
-s/$junk\xC2\xA1/ć/gs && $stat->{'ć'}++;
-s/$junk\xC2\xA1/š/gs && $stat->{'š'}++;
-s/$junk\xC4\xA1/š/gs && $stat->{'š C4'}++;
-s/$junk\xC2\xBE/ž/gs && $stat->{'ž'}++;
-s/$junk\xC4\xBE/ž/gs && $stat->{'ž C4'}++;
+s/$junk\xC3\x82\xC2\x8D/č/gs && $stat->{'cv'}++;
+s/$junk\xC2\x80\xC2\xA1/ć/gs && $stat->{"c"}++;
+s/$junk\xC3\x82\xC2\xA1/š/gs && $stat->{'s'}++;
+s/$junk\xC2\x80\xC4\xA1/š/gs && $stat->{'s C4'}++;
+s/$junk\xC3\x82\xC2\xBE/ž/gs && $stat->{'z'}++;
 
-s/$junk\xC2\x98/đ/gs && $stat->{'đ'}++;
-s/$junk\xC2\x90/Đ/gs && $stat->{'Đ'}++;
+s/$junk\xC2\x80\xC2\x98/đ/gs && $stat->{'d'}++;
+s/$junk\xC2\x80\xC2\x90/Đ/gs && $stat->{'D'}++;
 
-s/$junk\xC2\x92/Č/gs && $stat->{'Č'}++;
-s/$junk\xC2\xBD/Ž/gs && $stat->{'Ž'}++;
-s/$junk\xC2\xA0/Š/gs && $stat->{'Š'}++;
+s/$junk\xC2\x80\xC2\x92/Č/gs && $stat->{'Cv'}++;
+s/$junk\xC3\x85\xC2\x92/Č/gs && $stat->{'Cv C385'}++;
+s/$junk\xC2\x80\xC2\xA0/Ć/gs && $stat->{'C'}++;
+s/$junk\xC3\x82\xC2\xBD/Ž/gs && $stat->{'Z'}++;
+s/$junk\xC3\x82\xC2\xA0/Š/gs && $stat->{'S'}++;
 
-s/$junk\xC2\xAB/"/gs && $stat->{'" open ?'}++;
+s/$junk\xC2\x80\xC2\xAB/"/gs && $stat->{'" open ?'}++;
 
-s/$junk\xC2\xBE/"/gs && $stat->{'" open'}++;
-s/$junk\xC2\x93/"/gs && $stat->{'" close'}++;
+s/$junk\xC2\xBE/"/gs && $stat->{'"'}++;
+s/$junk\xC2\x93/"/gs && $stat->{'"'}++;
 
-s/$junk\xC2\xA2/'/gs && $stat->{"'"}++;
+s/$junk\xC2\x84\xC2\xA2/'/gs && $stat->{"'"}++;
+s/$junk\xC3\x82\xC2\xB4/'/gs && $stat->{"' C2B4"}++;
 s/$junk\xC2\xAD/-/gs && $stat->{'-'}++;
 
-s/$junk\xC2\x9C/-/gs && $stat->{'--'}++;
+s/$junk\xC2\x80\xC2\x9C/-/gs && $stat->{'--'}++;
 s/$junk\xC2\x9D/-/gs && $stat->{'-- ?'}++;