X-Git-Url: http://git.rot13.org/?a=blobdiff_plain;f=mtoolkit%2Futf8-fix.pl;h=b818870817a7eb1b11162e3a935822145cd2ebbd;hb=02929a67d6018ca3e9ff8314e5117b81471d8215;hp=2fe50323fdc35b250fc50b75ce40c919d153fad5;hpb=a23a68b03606c5161f70f35253120b2b28ca0076;p=eprints3-migration.git diff --git a/mtoolkit/utf8-fix.pl b/mtoolkit/utf8-fix.pl index 2fe5032..b818870 100755 --- a/mtoolkit/utf8-fix.pl +++ b/mtoolkit/utf8-fix.pl @@ -33,9 +33,17 @@ s/\xC3\x83\xC2\x83\xC3\xA2\xC2\x80\xC2\x99/V/gs && $stat->{'V fake'}++; s/\xC3\x83\xC2\x83\xC3\x85\xC2\xB8/ß/gs && $stat->{'ss'}++; s/$junk\xC3\x82\xC2\x8D/č/gs && $stat->{'cv'}++; +s/\xC3\x84\xC2\x8D/č/gs && $stat->{'cv 84'}++; + s/$junk\xC2\x80\xC2\xA1/ć/gs && $stat->{"c"}++; +# #Buri\xC3\x84\xC2\x87.pdf +s/\xC3\x84\xC2\x87/ć/gs && $stat->{'c C384C287'}++; + s/$junk\xC3\x82\xC2\xA1/š/gs && $stat->{'s'}++; +#Ma\xC3\x85\xC2\xA1a +s/\xC3\x85\xC2\xA1/š/gs && $stat->{'s C385C2'}++; s/$junk\xC2\x80\xC4\xA1/š/gs && $stat->{'s C4'}++; + s/$junk\xC3\x82\xC2\xBE/ž/gs && $stat->{'z'}++; s/$junk\xC2\x80\xC2\x98/đ/gs && $stat->{'d'}++; @@ -46,6 +54,7 @@ s/$junk\xC3\x85\xC2\x92/Č/gs && $stat->{'Cv C385'}++; s/$junk\xC2\x80\xC2\xA0/Ć/gs && $stat->{'C'}++; s/$junk\xC3\x82\xC2\xBD/Ž/gs && $stat->{'Z'}++; s/$junk\xC3\x82\xC2\xA0/Š/gs && $stat->{'S'}++; +s/$junk\xC3\x82\xC2\xA6/Š/gs && $stat->{'S C2A6'}++; s/$junk\xC2\xAB/"/gs && $stat->{'" open'}++; s/$junk\xC2\xBB/"/gs && $stat->{'" close'}++; @@ -53,6 +62,8 @@ s/$junk\xC2\xBB/"/gs && $stat->{'" close'}++; s/$junk\xC2\xBE/"/gs && $stat->{'"'}++; s/$junk\xC2\x93/"/gs && $stat->{'"'}++; +s/$junk\xC3\x82\xC2\xB2/"/gs && $stat->{'" C2B2'}++; + s/$junk\xC2\x84\xC2\xA2/'/gs && $stat->{"'"}++; s/$junk\xC3\x82\xC2\xB4/'/gs && $stat->{"' C2B4"}++; s/$junk\xC3\x8B\xC2\x9C/'/gs && $stat->{"' C29C"}++; @@ -61,9 +72,12 @@ s/$junk\xC2\xAD/-/gs && $stat->{'-'}++; s/$junk\xC2\x80\xC2\x9C/-/gs && $stat->{'--'}++; s/$junk\xC2\x9D/-/gs && $stat->{'-- ?'}++; +s/$junk\xC3\x82\xC2\xA2/- /gs && $stat->{'dot'}++; + + my $e = $_; - if ( $e =~ m/([\xC0-\xC4][\x80-\xff]{4,8})/s ) { + if ( $e =~ m/([\xC0-\xC4][\x80-\xff]{3,99})/s ) { warn "XXX ", dump($e), "\n$e\n"; } print $e;