Opções tomadas relativamente à anotação da colecção dourada do Segundo HAREM, pista ReRelEM

HAREM, Linguateca
Cláudia Freitas, Paula Carvalho, Diana Santos
Versão 2.0
Apresentamos aqui a documentação relativa à anotação da coleção dourada do Segundo HAREM, pista ReRelEM, um subconjunto da coleção dourada do Segundo HAREM que contém, além da informação semântica relativa à identificação e classificação de entidades mencionadas (já presentes na coleção dourada do HAREM), informação relativa às relações semânticas entre as EM de um mesmo texto.

O que anotámos

Nas directivas do ReRelEM, afirmámos que a ocorrência de duas ou mais EM no mesmo texto não seria uma condição suficiente para garantir a existência de uma relação semântica entre elas. Por outro lado, isso pode levar a questionar se toda e qualquer outra relação entre EM deve ser anotada, desde que algum vínculo entre essas EM esteja implícito no texto. Considere-se os exemplos abaixo:
  1. "Pequena Notável" ou a "Brazilian Bombshell"-- não há no mundo quem não conheça essa genial estrela que conquistou o Brasil, a Broadway e Hollywood.
  2. A exposição acontece no Memorial da América Latina. (...) Em particular, há uma sala especial com retratos da artista feitos em 1931, em Buenos Aires, pela alemã Annemarie Heinrich.
  3. O finlandês Kimi Raikkonen sagrou-se campeão do Mundo de F1 vencendo o GP Brasil
e as seguintes questões que podem ser levantadas:
  1. No exemplo 1, devemos marcar alguma relação entre "Pequena Notável"/"Brazilian Bombshell", por um lado, e Brasil, Broadway ou Hollywood, pelo outro? Por exemplo, através de uma relação conhecida_em?
  2. No exemplo 2, devemos marcar uma relação de inclusão entre América Latina e Buenos Aires?
  3. No exemplo 3, devemos marcar alguma relação entre F1 e GP Brasil? Talvez uma relação praticado_em?
De facto, estes exemplos ilustram duas questões distintas, embora relacionadas: a noção de relevância e os limites relativos à incorporação de conhecimento de mundo no estabelecimento de relações entre EM. Portanto, concluímos que, para que uma dada relação mereça ser anotada, deve atender simultaneamente a dois critérios: a) relevância (entendida como um equilíbrio arbitrário entre generalidade e informatividade); b) contribuição para a coesão textual (entendida como possibilidade de uma compreensão mais profunda do texto).

Ou seja, embora presente no texto, conhecida_em não nos parece uma relação relevante portanto, não está anotada. Considerámos igualmente como não relevante a possível relação entre Praça Luís de Camões e Luís de Camões.

A relação de inclusão entre Buenos Aires e América Latina nos parece relevante, mas não contribui para o entendimento do texto, isto é, no exemplo anterior tanto faz os retratos de Carmen Miranda terem sido feitos em Buenos Aires como na Nova Zelândia.

Porém, para que o ReRelEM pudesse acautelar os interesses dos participantes, anotámos igualmente as relações que não contribuem necessariamente para a coesão textual (isto é, a relação entre Buenos Aires e América Latina no contexto acima), mas distinguimos esses casos, na anotação, por meio de um outro atributo adicional que em nada altera a avaliação: distinguimos (internamente) tais relações com a anotação nomedarelação_INDEP.

Por fim, a relação entre a categoria DISCIPLINA (correspondente à entidade F1) e a categoria ACONTECIMENTO (correspondente à entidade GP Brasil) nos parece relevante/produtiva e contribui para o entendimento do texto, pelo que foi, naturalmente, marcada.

Tipos de relações

Conforme indicado no texto Directivas sobre a identificação de relações semânticas entre EM, pista ReRelEM, tentámos seleccionar as relações relevantes no ReRelEM, que atendessem aos critérios acima descritos. Assim, além da naturalmente prevista relação de identidade, chegámos às seguintes categorias:
Inclusão (inclui/incluido)
Esta relação é bastante abrangente, e tem como requisito a igualdade entre as categorias envolvidas na relação.
Localização (ocorre_em/sede_de)
Esta relação é aplicável quando as categorias envolvidas são LOCAL e ORGANIZACAO ou ACONTECIMENTO.
Outra (outra)
Esta relação, assim como a categoria OUTRO no HAREM, nos permitiu anotar relações não previamente contempladas no elenco de relações que propusemos no âmbito desta tarefa piloto, mas que nos pareceram serem relevantes e, por isso, deveriam ser identificadas. Assim, a análise dos casos marcados inicialmente com {tt outra} permitiu, por um lado, não restringir à partida a possibilidade de identificação de relações potencialmente interessantes do ponto de vista dos participantes; por outro lado, e em consequência disso, permitiu aos avaliadores analisar com maior detalhe e com mais tempo o tipo de relações abrangidas por essa relação, apontando casos gerais/produtivos/interessantes. De fato, essa análise produziu um total de 22 sub-categorias. Embora a especificação de tais categorias não tenha sido alvo de avaliação do ReRelEM (visto que ocorreu posteriormente à definição da tarefa), permitiu criar um recurso semântico mais rico e informativo para servir de base a outros estudos/aplicações futuras. Mas repetimos: para fins de avaliação, tais categorias foram consideradas apenas como outra.

Implicações da anotação HAREM no ReReLEM

Dependência do contexto

A pista ReRelEM está incluída no HAREM, e portanto segue a sua filosofia de anotação que considera o valor semântico das EM apenas quando inserido em um contexto de uso. Por isso, relações que, embora façam sentido de um ponto de vista "puramente lexical" (ou de conhecimento de dicionário/almanaque), NÃO foram marcadas por não fazerem sentido de acordo com a perspectiva do HAREM.

Por exemplo, considere-se

Depois de ser exibida no <EM ID="bob-14949-580" CATEG="LOCAL" TIPO="HUMANO" SUBTIPO="DIVISAO">Rio</EM>, chega a 
<EM ID="bob-14949-581" CATEG="LOCAL" TIPO="HUMANO" SUBTIPO="DIVISAO">São Paulo</EM> a mostra (?)
(...) não há no mundo quem não conheça essa genial estrela que conquistou 
o <EM ID="bob-14949-589" CATEG="PESSOA" TIPO="POVO">Brasil</EM> 
Neste caso, não anotamos a relação entre Rio / São Paulo e Brasil, pois Brasil, naquele contexto, está sendo utilizado como PESSOA POVO. Contudo, se, no decorrer do texto, houver outra ocorrência de Brasil marcada com LOCAL, a relação será marcada.

Tratamento dos ALT

Consideramos que não há relação entre EM alternativas:
<ALT>
<EM ID="hub-94570-118" CATEG="LOCAL|ORGANIZACAO" TIPO="HUMANO|INSTITUICAO" SUBTIPO="CONSTRUCAO|">Universidade de Lisboa</EM> 
| 
<EM ID="hub-94570-118-aa" CATEG="LOCAL|ORGANIZACAO" TIPO="HUMANO|INSTITUICAO" SUBTIPO="CONSTRUCAO|">Universidade</EM> de <EM ID="hub-94570-131" CATEG="LOCAL" TIPO="HUMANO" SUBTIPO="DIVISAO" COREL="hub-94570-118-aa" TIPOREL="outra" COMENT="outra_vagueza">Lisboa</EM> 
</ALT>
Ou seja, não marcamos relações entre EM que se encontrem em alternativas dentro do mesmo ALT.

Vagueza

Embora inicialmente tivéssemos pensado chamar de outra as relações que envolvessem pelo menos uma EM vaga (já que, por exemplo, uma relação de identidade entre A e B não nos parecia correta, ainda que ambos partilhem facetas em comum), essa solução foi descartada porque
  1. descaracteriza a função original da relação outra, que era dar conta das relações possíveis entre EM, mas que não se encontravam explicitadas nas directivas;
  2. aglutina numa relação geral, e com pouco interesse linguístico, um conjunto de relações específicas e semanticamente motivadas;
  3. impossibilita a identificação de relações entre EM só porque são vagas em um dado contexto.
No exemplo abaixo, "perder-se-ia" a relação sede_de entre Presidência e Portugal, que passaria a ser considerada apenas outra:
Expressando ainda a "honra" por <EM ID="aa56088-497" CATEG="ORGANIZACAO|LOCAL" TIPO="ADMINISTRACAO|HUMANO" SUBTIPO="|PAIS">Portugal</EM> 
ficar associado a "uma importante etapa da cidadania europeia" -- foi durante a <EM ID="aa56088-498" CATEG="ACONTECIMENTO" TIPO="ORGANIZADO" 
COREL="aa56088-497" TIPOREL="outra">Presidência</EM> em 2000 que se iniciou a Convenção que ...
Ora, nas relações que envolvem EM vagas, nada impede que uma dada EM seja vaga em um dado contexto, mas que, posteriormente, no discurso, quando referida por outra EM, tenha o seu significado refinado. É exatamente o que acontece no exemplo acima, em que Presidência, ao indiretamente se referir a Portugal, acaba por refinar o significado deste.

Tendo em conta todas estas considerações, optámos por explicitar as relações não apenas entre EM, mas também entre facetas de EM, adoptando um tipo de anotação ligeiramente diferente do inicialmente proposto. Em particular, essa anotação passa por explicitar no campo TIPOREL não apenas o nome da relação, como também as facetas (categorias) das EM participantes nessa relação, como o ilustra o seguinte exemplo:

<EM ID="aa56088-12" CATEG="ORGANIZACAO" TIPO="ADMINISTRACAO" 
COREL="aa56088-10 aa56088-454aa aa56088-459" TIPOREL="ident autor_de ocorre_em">União Europeia</EM>
(...)
<EM ID="aa56088-463" CATEG="LOCAL" TIPO="HUMANO" SUBTIPO="PAIS" 
COREL="aa56088-12 aa56088-459" TIPOREL="sede_de inclui" 
COMENT="inclui_INDEP">União Europeia</EM>
(...)
<EM ID="aa56088-467" CATEG="LOCAL|ORGANIZACAO" TIPO="HUMANO|ADMINISTRACAO" 
SUBTIPO="DIVISAO|" COREL="aa56088-463 aa56088-12 aa56088-12" 
TIPOREL="LOCAL**ident**aa56088-463**LOCAL LOCAL**sede_de**aa56088-12**ORGANIZACAO ORGANIZACAO**ident**aa56088-12**ORGANIZACAO">Europa</EM>
Neste caso, tendo em vista a EM cujo ID é aa56088-467, dá-se a indicação de que:
  1. a sua faceta de LOCAL mantém uma relação de identidade com a EM ID="aa56088-463", que corresponde também ela a um LOCAL
  2. a faceta de LOCAL mantém uma relação do tipo sede_de com a EM ID="aa56088-12", uma ORGANIZACAO, e ainda que
  3. a faceta de ORGANIZACAO mantém uma relação de identidade com a EM ID="aa56088-12".
Ou seja, na anotacao da relação entre EM vagas, no TIPOREL, há:
  1. a explicitaçao da faceta da categoria da EM-origem
  2. o tipo de relação envolvida
  3. a ID da EM-alvo, isto é, a EM relacionada
  4. a faceta da EM-alvo.
Por uma questão de legibilidade, passou-se também a repetir no campo COREL o ID da EM, sempre que ela participe numa dada relação. É essa a razão que leva a que, no exemplo acima, se repita o ID aa56088-12, uma vez que esta EM integra duas relações diferentes. Além disso, passou a ser uma exigência a ordenação entre os atributos presentes no COREL e TIPOREL.

O uso de ** na anotação tem como objetivo apenas facilitar a leitura e a busca por relacões que envolvem EM vagas.

Outras opções

Factualidade das relações

Marcamos igualmente relações que, no texto, são consideradas expectativas, decorrência de uma ação futura. Por exemplo, na frase
Há "expectativa de estréia na Euronext" (a bolsa de de valores) das empresas A, B etc
marcamos a relação mesmo que não tenha ainda sido realizada.

Não marcamos

Determinadas relações temporais como uma data incluída no período de vida de uma pessoa, ou em períodos de tempo em geral, tal como em:
Foi desenvolvida <EM ID="hub-94570-110" CATEG="TEMPO" TIPO="TEMPO_CALEND" SUBTIPO="DATA">em 1935</EM> pelo médico neurologista português 
António Egas Moniz (<EM ID="hub-94570-117" CATEG="TEMPO" TIPO="TEMPO_CALEND" SUBTIPO="INTERVALO" COREL="hub-94570-112" TIPOREL="outra" COMENT="periodo_vida">1874-1955</EM> )

Omissões / problemas na colecção dourada final do ReRelEM

Mantemos uma lista de eventuais problemas descobertos após a publicação da LÂMPADA aqui. Se encontrar problemas avise-nos, que os juntaremos à lista.


Última actualização: 11 de Março de 2009.