Segundo HAREM: sintaxe

HAREM, Linguateca
Uma EM é identificada pela etiqueta <EM> com atributos e terminada por </EM>.

Por exemplo, <EM ID="xxx" CATEG="A" TIPO="B" SUBTIPO="C" COREL="corel" TIPOREL="tiporel">Qualquer Coisa</EM>

Os atributos possíveis

O único atributo obrigatório é o ID, que tem de ser uma combinação de apenas letras não acentuadas (maiúsculas ou minúsculas), algarismos, e os caracteres "-" e "_". A cada EM corresponde um ID único.

Os valores dos atributos COREL e TIPOREL estão descritos nas directivas do ReRelEM.

Os valores dos atributos TEMPO_REF, SENTIDO, VAL_NORM e VAL_DELTA estão descritos nas directivas do TEMPO.

Se várias possibilidades de identificar uma expressão correspondem a segmentações diferentes, usa-se <ALT>, separando as várias alternativas pelo caracter |.

Por exemplo, <ALT> alt1 | alt2 | alt3 </ALT>, em que alt1, alt2, alt3 são texto eventualmente marcado com <EM>. Para cada alternativa alt1, alt2, alt3 deve corresponder um ID diferente.

Para a tarefa de classificação, para todas as EM excepto as do TEMPO, uma EM no máximo terá a forma <EM ID="xxx" CATEG="A" TIPO="B" SUBTIPO="C">Entidade</EM>.

Os valores possíveis para CATEG, TIPO e SUBTIPO:

É possível incluir o que se quiser dentro do atributo COMENT, excepto caracteres especiais do XML como & < > ou aspas.


Última actualização: 19 de Março de 2008.