Conversão de SGML ou HTML TeX

O SGML é um sistema muito importante para armazenamento e intercâmbio de documentos, mas não tem recursos de formatação; seu companheiro, o padrão ISO DSSSL (veja http://www.jclark.com/dsssl/), é projetado para escrever transformações e formatação, mas este ainda não foi amplamente implementado. Alguns sistemas de criação SGML (por exemplo, SoftQuad Author/Editor) possuem capacidades de formatação, e existem sistemas de ponta especializados em composição tipográfica SGML (por exemplo, o Genera da Miles33’s). No entanto, a maioria dos usuários de SGML provavelmente transforma a fonte para um sistema de composição existente quando quer imprimir. O TeX é um bom candidato para isso. Há três abordagens para se escrever um conversor:

  1. Escrever um conversor independente da maneira tradicional, com ferramentas como yacc e lex; isso é difícil, na prática, devido à complexidade do SGML.
  2. Usar uma linguagem especializada projetada para transformações de SGML; as mais conhecidas são provavelmente a Omnimark e a Balise. Eles são caros, mas poderosos, incorporando capacidades de consulta e transformação SGML bem como simples conversão.
  3. Construir um conversor em cima de um analisador sintático de SGML já existente. De longe, o analisador mais conhecido (e grátis!) é o nsgmls, de James Clark, e ele produz um formato de saída muito mais simples, chamado ESIS, que pode ser analisado de forma bastante direta (e ainda tem a vantagem de uma análise do SGML contra o DTD). Dois bons pacotes de domínio público usam esse método: Ambos permitem que o usuário escreva "manipuladores" para cada elemento de SGML, com bastante acesso a atributos, entidades, e informações sobre o contexto na árvore (estrutura) do documento.

    Se estes pacotes não atenderem às suas necessidades para um trabalho mediano de composição tipográfica de SGML, então você precisa de uma grande versão comercial.

Como o HTML é simplesmente um exemplo de SGML, não precisamos de um sistema específico para HTML. No entanto, Nathan Torkington desenvolveu o html2latex a partir do analisador de HTML do pacote Xmasaic da NCSA. O programa pega um arquivo HTML e gera um arquivo LaTeX. O código de conversão está sujeito a restrições da NCSA, mas a fonte está toda disponível no CTAN.

Michel Goossens e Janne Saarela publicaram um resumo muito útil do SGML e de ferramentas de domínio público para escrevê-lo e manipulá-lo na TUGboat 16(2).

html2latex source
html2latex


Do you have any question? Ask on: latex.net.br - we love qood questions!