Segundo HAREM: Avaliação da pista ReRelEM

HAREM, Linguateca
Este documento descreve de forma detalhada o método de avaliação a ser usado na pista ReRelEM.

Algumas considerações iniciais

Vagueza

  1. o ID de uma EM    
  2. o ID de uma EM e a(s) facetas da(s) EM(s) envolvida(s) na(s) relação quando se tratar de relação que envolve uma ou mais EM vagas.
Ou seja, no exemplo abaixo, em que a EM “Bibliotheca Lusitana” é vaga entre LOCAL VIRTUAL e OBRA REPRODUZIDA, a relação que se estabelece é de inclusão entre apenas a faceta LOCAL:

"conta Diogo Barbosa Machado na <EM ID="hub-49343-64" CATEG="LOCAL|OBRA" TIPO="VIRTUAL|REPRODUZIDA" SUBTIPO="OBRA|LIVRO">Bibliotheca Lusitana</EM> (<EM ID="hub-49343-65" CATEG="LOCAL" TIPO="VIRTUAL" SUBTIPO="OBRA" COREL="hub-49343-64" TIPOREL="LOCAL**incluido**hub-49343-64**LOCAL">Tomo I</EM>"

A
 relação avaliada é:
hub-49343-65LOCALincluido hub-49343-64LOCAL

Uma descrição detalhada da motivação e da anotação para as relações entre EM vagas está em
Opções de anotação do ReRelEM

Segmentações alternativas (ALT)

No ReRelEM, não há qualquer penalização (sobrevalorização) relativa à utilização de ALT, pois a avaliacão deve incidir sobre as relações e não sobre a tarefa de identificação de EM. Deste modo, após o alinhamento, são retiradas da CD ReRelEM todas as alternativas que não foram sugeridas pelo participante. Só então é que o processo de avaliação propriamente tem início.

Avaliação do ReRelEM

Como afirmamos diversas vezes, o ReReLEM é uma tarefa dependente do HAREM, o que se manifesta também na forma de avaliação, que começa, propriamente, após a saída da etapa 5 do HAREM Clássico, o “Organizador de ALTs”, conforme documentado em Programas de avaliação do HAREM clássico.

Como o objectivo do ReRelEM é avaliar a identificação de relações, e não de EM, as relações que contêm pelo menos um elemento espúrio são ignoradas, isto é, nao recebem qualquer tipo de pontuação. Do mesmo modo, também sao ignoradas relações entre EM classificadas diferentemente na CD e na saída de um sistema. A seguir, detalhamos o processo de avaliação de relações.

Em termos gerais, a avaliação é feita da seguinte maneira:

1. Seleção de alinhamentos ReRelEM

O módulo "selecionador de alinhamentos" seleciona e elimina alinhamentos. Para cada alinhamento Por exemplo,
        CD: Portugal  LOCAL | ORGANIZACAO
        Saída do sistema 1: Portugal LOCAL 
        Saída do sistema 2: Portugal PESSOA
Se a interseção for vazia (saída do sistema 2), o alinhamento é ignorado. Se a interseção não for vazia (saída do sistema 1), as categorias das EM na CD e na participação ficam iguais ao resultado da interseção. Desse modo, temos que as saídas acima passam a:
        CD: Portugal LOCAL
        saída do sistema 1: Portugal LOCAL
        saída do sistema 2: o alinhamento que contém Portugal PESSOA é ignorado.
Com esse procedimento, eliminamos também eventuais diferenças entre as saídas dos sistemas e a CD no que diz respeito às segmentações alternativas (ALT). Isto é, se o sistema participante acertou alguma das segmentações alternativas, são eliminadas todas as outras (as erradas) de acordo com o item "b", e se o sistema não acertou nenhuma das alternativas, o alinhamento já foi removido como descrito no item "a", pois a EM foi considerada EM em falta.

2. Normalização de IDs

Nessa etapa são normalizados os IDs das EM, o que permite a comparação entre as saídas enviadas pelos participantes e a CD. Cada ID de cada EM na participação é igualado ao ID da EM com que ela está alinhada. São normalizados, também os IDs relativos à informação no COREL. Se um COREL contiver um ID inexistente (porque foi eliminado pelo selecionador de alinhamentos (secção 1)), este será removido, bem como o respectivo TIPOREL.

3. Expansão de relações

Após a normalização, acontece a explicitação (e expansão) das relações – nomeadamente, das relações de identidade, das relações inversas e das relações decorrentes da aplicação das regras de transitividade. Abaixo ilustramos explicamos brevemente cada uma dessas “explicitações”

3.1 Relações de identidade não explícitas

De acordo com as directivas do ReRelEM, a ausência do atributo TIPOREL é entendida como TIPOREL="ident". Por isso, esta normalização trata de transformar:

<EM ID="FG51">João Steiner</EM>, astrofísico da USP (...), explicou <EM ID="FG560" COREL="FG51">Steiner</EM>

Em:

<EM ID="FG51">João Steiner</EM>, astrofísico da USP (...), explicou <EM ID="FG560" COREL="FG51" TIPOREL="ident">Steiner</EM>

3.2 Relações inversas

De acordo com as directivas do ReRelEM, a marcação de uma relação implica a sua inversa, o que acontece nas relações "inclusao" e "ocorre_em".

Ou seja:

Partindo do seguinte excerto de texto já com as relações inversas anotadas:

Em <EM ID="ex1">Tomar</EM>, bem no centro de <EM ID="ex2" COREL="ex1" TIPOREL="inclui">Portugal</EM>, podemos encontrar o <EM ID="ex3" COREL="ex1" TIPOREL="incluido">Convento de Cristo</EM>.

Passaremos a ter, após a explicitação das relações inversas:

Em <EM ID="ex1" COREL="ex2 ex3" TIPOREL="incluido_em inclui">Tomar</EM>, bem no centro de <EM ID="ex2" COREL="ex1" TIPOREL="inclui">Portugal</EM>, podemos encontrar o <EM ID="ex3" COREL="ex1" TIPOREL="incluido">Convento de Cristo</EM>.

3.3 Relações por transitividade ou por combinação

Nesta fase, são explicitadas as relações decorrentes de transitividade (por exemplo referentes a identidade e inclui / incluido), asim como outras relações que se podem inferir da combinação de mais do que uma relação.

Exemplo de expansão de relações por transitividade:

Se A é igual a B e B é igual a C então A é igual a C.

Exemplo de combinação de duas relações

Se A está localizado em B e C é igual a A, então C está localizado em B.

Aqui encontra a lista exaustiva das regras que aplicamos no Segundo HAREM, e que denominamos regras de transitividade.

NOTA: Não consideramos a relação "outra" uma relação transitiva justamente por sua abrangência, uma vez que pode, por exemplo, incluir uma relação como "pai_de", que não é transitiva (João é pai de Pedro, Pedro é pai de Antônio, mas João não é pai de Antônio). E ainda pior, se tivermos Pedro é pai de Antônio e Antônio é dono do Bobi ou Antônio é patrão de Alexandra não é lícito avançar uma relação "outra" entre Pedro e Bobi ou entre Pedro e Alexandra.

No exemplo abaixo, já com as relações anotadas e com as relações inversas explícitas

Em <EM ID="ex1" COREL="ex2 ex3" TIPOREL="incluido_em inclui">Tomar</EM>, bem no centro de <EM ID="ex2" COREL="ex1" TIPOREL="inclui">Portugal</EM>, podemos encontrar o <EM ID="ex3" COREL="ex1" TIPOREL="incluido">Convento de Cristo</EM>.

Após a expansão das relações passaremos a ter:

Em <EM ID="ex1" COREL="ex2 ex3" TIPOREL="incluido_em inclui">Tomar</EM>, bem no centro de <EM ID="ex2" COREL="ex1 ex3" TIPOREL="inclui inclui">Portugal</EM>, podemos encontrar o <EM ID="ex3" COREL="ex1 ex2" TIPOREL="incluido incluido">Convento de Cristo</EM>.

4. Aplicação de véus ReRelEM

Nessa etapa, há um filtro por tipo de relações, a fim de possibilitar a avaliação por cenários selectivos ReRelEM, ou seja, entrando em conta apenas com um subconjunto das relações.

No Segundo HAREM, houve um grupo que tentou todas as relações menos a outra, e outro que se limitou ao par inclui/incluido.

5. Cálculo da pontuação

Uma relação é uma tripla (argumento1; tipo de relação; argumento2), em que os argumentos correspondem ao ID + a faceta (ou categoria) da EM. Nessa etapa, são avaliadas todas as relações por meio de uma comparacão entre as relações da CD e as da participação. São apresentados resultados para a avaliação das relações completas (avaliação dos argumentos + tipo de relação), avaliação apenas dos argumentos das relações (avaliação de COREL) e ainda avaliação por meio da fórmula:

Uma relação é uma tripla (argumento1; tipo de relação; argumento2), em que os argumentos correspondem ao ID + a faceta (ou categoria) da EM.

α. corel_certo + β. tiporel_certo – γ. corel_espurio

Aplicando a fórmula a cada relação, existem apenas três resultados possíveis:

relação certa → α + β

corel certo → α

corel espúrio → - γ

Em que

α = 0.5

β = 0.5

γ = 0.2


Última actualização: 4 de setembro de 2008.