Segundo HAREM: directivas de anotação

HAREM, Linguateca
Diana Santos, Paula Carvalho, Cláudia Freitas, Hugo Oliveira

Versão 4.1, 12 de Março de 2008


Este texto descreve a tarefa objecto do Segundo HAREM, concentrando-se nas modificações em relação ao Primeiro, já bem documentado em Cardoso & Santos (2007).

Como seria de esperar, o Segundo HAREM vai ser mais abrangente que o anterior, não só ao corrigir e melhorar algumas arestas em relação ao Primeiro (muitas delas já discutidas no livro), mas por incluir duas novas tarefas/pistas, nomeadamente a normalização de expressões temporais, Hagège Baptista e Mamede (2007) e a detecção de relações semânticas entre EM, o ReRelEM.

De forma a compatibilizar todas estas alterações num único formato, tornámos a sintaxe mais flexível, combinando numa mesma caracterização de saída a identificação de (i) apenas categorias, (ii) categorias e tipos, e (iii) categorias, tipos e subtipos, sendo todas estas classificações opcionais.

Todas as EM começam com <EM ID="xxx"> e acabam com </EM>. O único atributo obrigatório é o ID; que, para facilidade de processamento, restringimos a uma combinação de apenas letras não acentuadas (maiúsculas ou minúsculas), algarismos, e os caracteres "-" e "_". Veja sintaxe para mais pormenores.

Note-se também que, visto que CATEGs, TIPOs e SUBTIPOs são opcionais, passa a haver uma maior clarificação no significado de OUTRO, que não significará ignorância, visto que esta será marcada pela falta de valor desse atributo. OUTRO indica assim explicitamente uma classificação distinta do elenco sugerido (seja a nível das CATEGorias, dos TIPOs ou dos SUBTIPOs).

Da mesma forma, considera-se opcional a identificação da relação entre duas EM (COREL) e o tipo de relação (TIPOREL), assim como os vários atributos associados a uma análise mais fina de expressões temporais.

Motivação para as presentes directivas

Embora a nova organização tenha naturalmente algumas opiniões divergentes em relação à anterior (em particular em relação à elegância de algumas distinções), tentámos, excepto nos casos mais problemáticos, manter aquilo que já tinha sido feito na edição anterior, para poupar trabalho aos antigos participantes e garantir alguma continuidade.

Descrevemos, em seguida, as modificações que as diferentes categorias sofreram. Excepto em relação aos subtipos, todas essas modificações se encontram reflectidas na nova versão das colecções douradas do Primeiro HAREM.


Questões de delimitação

Mudámos ligeiramente a definição operacional de EM, de três formas.

Desaparecimento de entidades complexas

No Primeiro HAREM, tínhamos algumas categorias que poderiam ser designadas como entidades complexas, ou semi-estruturadas, cuja identificação -- embora extremamente relevante num contexto de extracção de informação -- era difícil de conceber como REM, como era o caso de que pensamos agora fazer mais sentido analisar em termos dos mais pequenos constituintes, aliás em termos semelhantes ao que já tinha sido feito para outro tipo de "entidades complexas", como, por exemplo

Tratamento mais convencional de expressões com várias palavras

Além disso, e visto que a sugestão de ter EM iniciadas por "de" não foi considerada satisfatória, passámos a considerar que Resumindo, o critério formal da obrigatoriedade de maiúscula na identificação de EM mantém-se (ou seja, "médio oriente" não é considerado EM), excepto para o TEMPO, em que as regras são diferentes.

Contudo, quando outras expressões que fazem claramente parte da EM se encontram grafadas em minúsculas devem ser igualmente identificadas, pois a incorrecta identificação das EM põe em causa a sua própria classificação.

Note-se contudo que isto é apenas válido para casos em que se pode defender que estamos em presença de uma expressão com várias palavras, e não é para ser generalizado à detecção de sintagmas nominais. Assim, em a casa do João apenas João como pessoa deve ser marcado.

Introdução de intervalos de valores como EM

Também inspirados pela proposta de reclassificação das entidades temporais, decidimos que intervalos de valores, assim como a especificação mais fina desses valores passava a fazer parte integrante da EM de VALOR. Por exemplo, veja-se a frase

Ele saltou <EM ID= CATEG="VALOR" TIPO="QUANTIDADE">entre 7 a 10 metros</EM>na sua fuga.

em que uma EM substitui as duas que seriam esperadas no Primeiro HAREM.

Mudanças por categoria

Passamos agora a fazer um apanhado das mudanças nas categorias.

VALOR

Mantemos a classificação anterior, com os TIPOs CLASSIFICACAO, MOEDA e QUANTIDADE.

A única diferença é que intervalos de valores, como entre 3 e 4% ou de 5 a 10 kg, passam a ser uma única EM, assim como as EM também incluem as preposições ou quantificadores relacionados com outras formas de descrever uma quantidade, tal como cerca de 200 gramas, menos de 10% ou aproximadamente 15 euros.

VARIADO

Deixa de haver a categoria VARIADO, passando a haver também a categoria OUTRO, com a mesma interpretação do OUTRO nos TIPOs ou SUBTIPOs.

PESSOA

Foi adicionado mais um TIPO, o de POVO, para cobrir casos como Não há música como a do Brasil, A House Music conquistou Inglaterra, Holanda, Alemanha e Ibiza ou Lisboa ficou horrorizada com essa notícia.

Além disso, não sofreu modificações, excepto na lista de formas de tratamento, que foi actualizada, entre outras coisas ao tentar incluir-se mais sistematicamente as usadas no Brasil.

ORGANIZAÇÃO

Passou-se SUB para SUBTIPO do tipo de organização em questão, ou seja, passam a ser possíveis os casos O subtipo SUB não será contudo alvo de análise, anotação ou comparação no Segundo HAREM, mas foi mantido nas CD do Primeiro HAREM por uma questão de consistência.

LOCAL

Como indicado acima, deixámos de considerar o tipo CORREIO como uma EM, preferindo a marcação separada de ruas, estados e países dentro de moradas.

Além disso a informação marcada como LOCAL ALARGADO no Primeiro HAREM passou a ser considerada como informação adicional em relação aos tipos ADMINISTRATIVO ou GEOGRAFICO (agora rebaptizados de HUMANO ou FISICO). Assim, as EM anteriormente marcadas como LOCAL tipo ALARGADO passam a ter um SUBTIPO.

Passa pois a existir apenas uma tripartição da categoria LOCAL em FISICO, HUMANO e VIRTUAL, em que FISICO substitui o anterior termo GEOGRAFICO, e HUMANO o anterior termo ADMINISTRATIVO.

Além da categoria TEMPO, esta foi a única categoria onde os participantes desejaram uma classificação mais fina de SUBTIPOs. Esta lista é o resultado da discussão pelos participantes envolvidos (mencionados na secção dos agradecimentos), a qual não pretende de forma alguma ser uma descrição exaustiva de todos os tipos conceptuais de lugares em português, mas apenas a soma das várias sensibilidades, experiências e opiniões da organização e dos já mencionados participantes.

Para locais de TIPO HUMANO (note-se que os nomes são indicativos, não exaustivos)

Para locais de TIPO FISICO Quanto a locais de TIPO VIRTUAL, que indica localização abstracta, propomos os seguintes SUBTIPOs ilustrados respectivamente pelos seguintes exemplos: Note-se que se a comunicação social é explicitamente na internet, então é SITIO. De resto, se nada for dito sobre isso (ou seja, não estiver a indicação online ou outra forma de o indicar, por exemplo através de um URL), então considera-se COMSOC.

Note-se também que, além de deixar de considerar URL como EM, também deixámos fora números de telefone e de fax.

ACONTECIMENTO

Não sofreu alteração, ou seja, mantém inalterados os TIPOs EFEMERIDE, EVENTO e ORGANIZADO.

OBRA

Em relação às EM da categoria OBRA, reduzimos os tipos de OBRA aos seguintes: Na mesma linha que retirámos a categoria de CORREIO dos LOCAL, deixámos de entrar em conta com PUBLICACAO, que deixa de ser considerada uma EM de todo.

ABSTRACCAO

Esta categoria foi consideravelmente simplificada, retendo apenas os tipos DISCIPLINA, ESTADO, IDEIA e NOME. Por um lado, foram retirados desta categoria os tipos MARCA (convertido para categoria COISA de tipo CLASSE ou IDEIA) e PLANO (passado para categoria OBRA tipo PLANO). Por outro lado, DISCIPLINA, ESCOLA e OBRA foram todas juntas em DISCIPLINA. Muito resumidamente, então:

COISA

Esta categoria foi a que sofreu mais alterações, e por isso decidimos reescrever completamente as directivas no que lhe diz respeito. Em primeiro lugar e como já mencionado, mudámos os critérios de identificação, de forma a que casos em que apenas por questões de convenção se grafam com letra maiúscula deixem de ser abrangidas pela noção de EM: ou seja, pastéis de Belém, flauta de Bisel, visto que estão em variação livre com pastéis de feijão ou guitarra acústica, e apenas se grafam em maiúscula por os seus nomes derivarem de locais ou pessoas.

Noutros casos sobretudo de terminologia científica, mantivemos a classificação de COISA tipo CLASSE mas identificando o conceito todo, ou seja, as EM passam a ser constante de Planck e aparelho de Golgi.

Basicamente a principal questão associada à categoria COISA é que debaixo desta designação estão "coisas" ontologicamente muito diferentes mas que a linguagem natural e em particular o português não distingue formalmente, como classe/membro, classe/subclasse e exemplo/classe. Para tentar produzir sobretudo critérios mais claros de anotação, sem querer forçar distinções que não estão lá (ou que os anotadores humanos têm dificuldade em fazer), redefinimos o seguinte elenco de tipos de COISA objecto de classificação no Segundo HAREM:

Agradecimentos

Agradecemos ao Marcirio Chaves, Nuno Cardoso, Caroline Hagège, Nuno Mamede, Bruno Martins e Mário Silva os comentários, sugestões e dúvidas formulados na discussão dos SUBTIPOS de LOCAL, cujo resultado final é, contudo, da nossa responsabilidade. Agradecemos também ao Nuno Cardoso e à Cristina Mota a correcção de muitos problemas em versões anteriores.
Última actualização: 12 de Março de 2008.