Важен ли порядок, в котором комбинированные диакритические знаки появляются после кодовой точки?

Интересно, меняет ли порядок, в котором комбинированные диакритические знаки появляются после кодовой точки, то, как диакритические знаки должны располагаться над или под символом; или если есть другое семантическое различие.

Указывает ли нормализация какой-либо способ переупорядочивания диакритических знаков, например. грамм. ускорить сравнение строк?


person soc    schedule 31.05.2011    source источник


Ответы (2)


Согласно этой статье в Википедии порядок комбинирования символов важен в некоторых случаях и должен быть нормализован, как указано в других случаях. .

Конкретно порядок комбинирования символов с одним классом комбинирования должен быть сохранен (т. е. релевантен), а группы символов должны быть отсортированы по классу их комбинирования.

person Joachim Sauer    schedule 31.05.2011

Да, это важно, и это должно быть для того, чтобы некоторые случаи были однозначными:

  • Обычная форма D: U, U+0308, U+0304 -> Обычная форма C U+01D6 Строчная латинская буква U с диэрезисом и макроном ǖ

  • Обычная форма D: U, U+0304, U+0308 -> Обычная форма C U+1E7B Строчная латинская буква U с макроном и диэрезисом

В общем, в комбинированном классе вы начинаете ближе к букве и работаете от нее.

person bobince    schedule 01.06.2011