Описание формата файла, описывающего кодировку
Данные представляются в формате tab-delimited со столбцами, указанными ниже.
char — символ или его код, заданный в десятичной или шестнадцатеричной форме 0xHH в той кодировке, которую определяет этот файл.
white-space, digit, hex-digit, letter, word — набор флажков, задающих класс этого символа. Пустое содержимое означает непринадлежность символа к этому классу, непустое [например, x] — принадлежность.
Подробнее о символьных классах см. описание регулярных выражений в литературе.
lowercase — если символ имеет пару в нижнем регистре, то символ или код парного символа. Скажем, у буквы W есть парная w. Используется в регулярных выражениях для поиска, не чувствительного к регистру символов, а также в методах lower и upper класса string.
unicode1 — основной Unicode-код символа. Если совпадает с кодом символа, то можно не указывать. Например, у буквы W он совпадает, а у буквы Я — нет.
unicode2 — дополнительный Unicode-код символа, если имеется.