Arquivos PDF com opção copiar, colar e pesquisar

Arquivos PDF gerados a partir do TeX (e amigos) manterão, por padrão, seu texto na codificação da fonte original do TeX usada pelo documento.

Quando leitores de PDF etc. oferecem funções de copiar-colar ou de localizar, as operações ocorrem nos códigos de glifo usados para as fontes selecionadas pelo documento. Isso é bom para os documentos mais simples (em Inglês, pelo menos); o problema começa quando você usa um idioma flexionado (com letras acentuadas ou glifos compostos, como ‘æ’) — o TeX normalmente usará uma codificação não padrão, e provavelmente haverá problemas, pois os leitores de PDF presumem que o texto seja apresentado em Unicode.

Para PDF gerado a partir de LaTeX (o DVI sendo convertido, por qualquer que seja o meio) ou a partir de PDFLaTeX, os códigos de caractere usados no arquivo PDF são de fato aqueles da codificação de fonte; do documento; se você estiver usando OT1 ou T1, seu documento ficará OK para quase todos os caracteres ASCII , mas é provável que qualquer coisa “fora do comum” não seja representada corretamente. (Claro, PDF gerado a partir de formatos baseados em XeTeX ou LuaTeX ficará OK, uma vez que esses mecanismos funcionam no Unicode do início ao fim.)

A solução vem das funções de mapeamento de caracteres na especificação do PDF: o arquivo pode especificar uma tabela de traduções dos caracteres presentes na codificação usada no arquivo para uma versão Unicode dos caracteres.

Os pacotes cmap e mmap oferecem meios de gerar tais tabelas (o mmap tem uma cobertura mais ampla, incluindo as várias codificações de matemática); ambos funcionam exclusivamente com o PDFTeX. Assim, seu documento se torna algo como:

\documentclass{article}
\usepackage{mmap} % (or cmap)
\usepackage[T1]{fontenc}
... % your other packages
\begin{document}
... % your actual text

Infelizmente, os pacotes funcionam apenas com fontes que são codificadas diretamente, como a padrão Computer Modern, ou seja, fontes cm e coisas como cm-super ou os conjuntos Latin Modern Fontes como a Adobe Times Roman (que são codificadas para uso com (La)TeX por meio de fontes virtuais) não são passíveis desse tratamento.

cmap.sty
cmap
cm-super fonts
cm-super
Latin Modern fonts
lm
mmap.sty
mmap

This answer last edited: 2013-08-21


Do you have any question? Ask on: latex.net.br - we love qood questions!