UTF-8 to ASCII MAPPINGS -- WARNING: REINDEX REQUIRED
authorJoshua Ferraro <jmf@liblime.com>
Wed, 23 Jul 2008 14:49:57 +0000 (09:49 -0500)
committerJoshua Ferraro <jmf@liblime.com>
Wed, 23 Jul 2008 14:49:57 +0000 (09:49 -0500)
commit9575a5f4fe84fc0b109062ad084ab32e3cc28a23
treeb284c33875629793986796e88c0030f552e435b1
parent4d8963d9c92ec58c90007d645eb9547416c30dd0
UTF-8 to ASCII MAPPINGS -- WARNING: REINDEX REQUIRED

You've been warned :-). This patch contains a more
complete mapping of UTF-8 to ASCII. The mappings are
based on those compiled by Richard Mahoney on the
Zebra list: http://lists.indexdata.dk/pipermail/zebralist/2007-August/001707.html

Note to documentation team: we need an area in the
documentation that discusses how Koha handles searches
and indexing for words that contain diacritics, such
as E-ACUTE (vs E without an acute). If you can paste
this list of mappings from this patch directly into
the docs and it preserves the encoding that would be
great.

NOTE: I don't think this patch addresses issues of
combining vs non-combining forms, and may require
a refactor to address that.

Josh
etc/zebradb/etc/word-phrase-utf.chr