eprints-dev: /home/dpavlin/mtoolkit/utf8-fix.pl [commit]
authorDobrica Pavlinusic <dpavlin@rot13.org>
Tue, 19 Oct 2010 16:19:52 +0000 (18:19 +0200)
committerDobrica Pavlinusic <dpavlin@rot13.org>
Tue, 19 Oct 2010 16:19:52 +0000 (18:19 +0200)
mtoolkit/utf8-fix.pl

index 3946bcd..3592209 100755 (executable)
@@ -67,8 +67,9 @@ s/$junk\xC2\x9D/-/gs && $stat->{'-- ?'}++;
 s/$junk\xC3\x82\xC2\xA2/- /gs && $stat->{'dot'}++;
 
 
+
        my $e = $_;
-       if ( $e =~ m/([\xC0-\xC4][\x80-\xff]{4,8})/s ) {
+       if ( $e =~ m/([\xC0-\xC4][\x80-\xff]{3,99})/s ) {
                warn "XXX ", dump($e), "\n$e\n";
        }
        print $e;