Unicode e TeX

Unicode é um esquema de código de caractere que tem a capacidade de expressar o texto das línguas do mundo, bem como símbolos importantes (incluindo matemática). Qualquer esquema de codificação que seja diretamente aplicável ao TeX pode ser expresso em bytes individuais (expressando até 256 caracteres); caracteres Unicode podem exigir vários bytes, e o esquema pode expressar um número muito grande de caracteres.

Para que aplicativos “antiquados” (TeX ou PDFTeX) posam lidar com entradas Unicode, a sequência de bytes que compõe o caractere Unicode é processada por um conjunto de macros que fornecem um número de glifo em uma fonte apropriada. As macros que leem esses bytes são complicadas e se manifestam como opção utf8 para o pacote inputenc de distribuição do LaTeX; a cobertura dessa opção está limitada a caracteres Unicode que podem ser representados usando “codificações padrão do LaTeX”. O pacote separado ucs fornece uma cobertura mais ampla, porem menos robusta, por meio de uma opção utf8x do inputenc. option . Como regra geral, você nunca deve usar a utf8x até que esteja convencido de que a utf8 não pode fazer o trabalho para você.

Programas ‘modernos’ similares ao TeX, o XeTeX e o LuaTeX leem suas entradas usando as representações UTF-8 do Unicode como padrão. Eles também usam fontes TrueType ou OpenType para saída; cada uma dessas fontes possui tabelas que indicam ao programa que parte(s) do espaço Unicode ele cobre; as tabelas permitem que os mecanismos decidam qual fonte usar para qual caractere (supondo que haja alguma escolha).

inputenc.sty
Part of the latex distribution
ucs.sty
ucs

This answer last edited: 2012-04-20


Do you have any question? Ask on: latex.net.br - we love qood questions!