From: Dobrica Pavlinusic Date: Tue, 19 Oct 2010 00:05:12 +0000 (+0200) Subject: eprints-dev: /home/dpavlin/mtoolkit/utf8-fix.pl [commit] X-Git-Url: http://git.rot13.org/?a=commitdiff_plain;h=24c3b6569699607107bee8f99e28e4a0c5b26354;p=eprints3-migration.git eprints-dev: /home/dpavlin/mtoolkit/utf8-fix.pl [commit] --- diff --git a/mtoolkit/utf8-fix.pl b/mtoolkit/utf8-fix.pl index 5054189..4a37346 100755 --- a/mtoolkit/utf8-fix.pl +++ b/mtoolkit/utf8-fix.pl @@ -7,7 +7,7 @@ use Data::Dump qw(dump); use Encode; use bytes; -my $junk = '[\xC0-\xC4][\x80-\xC4]+(\xC2\x80|\xC3\x82)'; +my $junk = '[\xC0-\xC4][\x80-\xC4]+'; my $file = shift @ARGV; my $stat; @@ -32,29 +32,31 @@ s/\xC3\x83\xC2\x83\xC3\xA2\xC2\x80\xC2\x99/V/gs && $stat->{'V fake'}++; # njemački s/\xC3\x83\xC2\x83\xC3\x85\xC2\xB8/ß/gs && $stat->{'ss'}++; -s/$junk\xC2\x8D/č/gs && $stat->{'č'}++; -s/$junk\xC2\xA1/ć/gs && $stat->{'ć'}++; -s/$junk\xC2\xA1/š/gs && $stat->{'š'}++; -s/$junk\xC4\xA1/š/gs && $stat->{'š C4'}++; -s/$junk\xC2\xBE/ž/gs && $stat->{'ž'}++; -s/$junk\xC4\xBE/ž/gs && $stat->{'ž C4'}++; +s/$junk\xC3\x82\xC2\x8D/č/gs && $stat->{'cv'}++; +s/$junk\xC2\x80\xC2\xA1/ć/gs && $stat->{"c"}++; +s/$junk\xC3\x82\xC2\xA1/š/gs && $stat->{'s'}++; +s/$junk\xC2\x80\xC4\xA1/š/gs && $stat->{'s C4'}++; +s/$junk\xC3\x82\xC2\xBE/ž/gs && $stat->{'z'}++; -s/$junk\xC2\x98/đ/gs && $stat->{'đ'}++; -s/$junk\xC2\x90/Đ/gs && $stat->{'Đ'}++; +s/$junk\xC2\x80\xC2\x98/đ/gs && $stat->{'d'}++; +s/$junk\xC2\x80\xC2\x90/Đ/gs && $stat->{'D'}++; -s/$junk\xC2\x92/Č/gs && $stat->{'Č'}++; -s/$junk\xC2\xBD/Ž/gs && $stat->{'Ž'}++; -s/$junk\xC2\xA0/Š/gs && $stat->{'Š'}++; +s/$junk\xC2\x80\xC2\x92/Č/gs && $stat->{'Cv'}++; +s/$junk\xC3\x85\xC2\x92/Č/gs && $stat->{'Cv C385'}++; +s/$junk\xC2\x80\xC2\xA0/Ć/gs && $stat->{'C'}++; +s/$junk\xC3\x82\xC2\xBD/Ž/gs && $stat->{'Z'}++; +s/$junk\xC3\x82\xC2\xA0/Š/gs && $stat->{'S'}++; -s/$junk\xC2\xAB/"/gs && $stat->{'" open ?'}++; +s/$junk\xC2\x80\xC2\xAB/"/gs && $stat->{'" open ?'}++; -s/$junk\xC2\xBE/"/gs && $stat->{'" open'}++; -s/$junk\xC2\x93/"/gs && $stat->{'" close'}++; +s/$junk\xC2\xBE/"/gs && $stat->{'"'}++; +s/$junk\xC2\x93/"/gs && $stat->{'"'}++; -s/$junk\xC2\xA2/'/gs && $stat->{"'"}++; +s/$junk\xC2\x84\xC2\xA2/'/gs && $stat->{"'"}++; +s/$junk\xC3\x82\xC2\xB4/'/gs && $stat->{"' C2B4"}++; s/$junk\xC2\xAD/-/gs && $stat->{'-'}++; -s/$junk\xC2\x9C/-/gs && $stat->{'--'}++; +s/$junk\xC2\x80\xC2\x9C/-/gs && $stat->{'--'}++; s/$junk\xC2\x9D/-/gs && $stat->{'-- ?'}++;