Segundo HAREM: Avaliação

HAREM, Linguateca

In English


Pontuação

As EM podem ser consideradas como tendo um de três possíveis pontuações: correcta, em falta ou espúria, ao serem emparelhadas com o que está na colecção dourada.

Medidas

No Segundo HAREM vamos usar a medida (melhorada) de classificação semântica combinada (CSC) para as EM correctas do ponto de vista de emparelhamento/identificação.

Para o caso genérico em que uma EM pode estar marcada na CD como vaga entre várias (N) interpretações, e um sistema também pode atribuir vagueza na sua saída (podendo dar origem a M classificações espúrias), a fórmula geral usada para avaliar uma dada EM no Segundo HAREM será a seguinte:

1 + Σ(1, N) { α*(1 - 1/ num-cats )* cat-certa + β*(1 - 1/ num-tipos )* tipo-certo + γ*(1 - 1/ num-subtipos )* subtipo-certo } - Σ(1, M) {α*(1/ num-cats )* cat-espuria + β*(1/ num-tipos )* tipo-espurio + γ*(1/ num-subtipos )* subtipo-espurio }

num-cats = número total de CATEGORIAs (9 no cenário total, mas variando conforme o cenário selectivo)
num-tipos = número total de TIPOs para a CATEGORIA em questão
num-subtipos = número total de subtipos para o par CATEGORIA/TIPO em questão

cat-certa = 1 (se a CATEGORIA estiver correcta) ou 0 (se a CATEGORIA estiver errada)
cat-espuria = 1 (se a CATEGORIA for espúria) ou 0 (se não o for)
tipo-certo = 1 (se o TIPO estiver correcta) ou 0 (se o TIPO estiver errado)
tipo-espurio = 1 (se o TIPO for espúrio) ou 0 (se não o for)
subtipo-certo = 1 (se o SUBTIPO estiver correcta) ou 0 (se o SUBTIPO estiver errado)
subtipo-espurio = 1 (se o SUBTIPO for espúrio) ou 0 (se não o for)

α, β e γ são parâmetros que serão ajustados mais tarde, correspondendo a pesos que podem ser diferentes, das categorias, tipos e subtipos.

Se a EM não for vaga nem assim considerada pelo sistema, a fórmula pode escrever-se da seguinte maneira:

CSC = 1 + α*(1 - 1/num-cats)*cat-certa + β*(1 - 1/num-tipos)*tipo_certo + γ*(1-1/num-subtipos)*subtipo-certo - α*(1/num-cats)*cat-espuria - β*(1/num-tipos)*tipo-espurio - γ*(1/num-subtipos)*subtipo-espurio

Naturalmente, além da medida que acabamos de referir para as EM identificadas, avaliamos simplesmente as EM EmFalta contando-as (cada EM vale 1) e da mesma forma para as EM espúrias.

Métricas

As métricas (correspondendo à agregação dos valores das medidas para todas as EM) que usaremos são as usuais:

Precisão

A precisão é uma medida da qualidade da resposta do sistema, e mede a proporção de respostas correctas em todas as respostas fornecidas pelo sistema. Calcula-se da seguinte forma (a primeira linha é a versão padrão, a segunda é a sua generalização quando cada EM não conta apenas 1:

Precisão = Nº de EM correctamente classificadas / Nº de EM classificadas pelo sistema

Precisão = Σ pontuação obtida por cada EM / Pontuação máxima se as EM estivessem todas certas

Abrangência

A abrangência mede a percentagem de soluções (neste caso, contidas na colecção dourada, CD) que o sistema conseguiu recuperar. Calcula-se da seguinte forma:

Abrangência = Nº de EM correctamente classificadas / Nº de EM classificadas na CD

Abrangência = Σ pontuação obtida por cada EM / pontuação máxima na CD

Medida F

A medida F combina as medidas de precisão e de abrangência, de acordo com a seguinte fórmula:

Medida-F = (2 * Precisão * Abrangência) / (Precisão + Abrangência)

Sobre-geração

A sobre-geração mede o excesso de resultados espúrios que um sistema produz, ou seja, quantas vezes produz resultados errados. Calcula-se da seguinte forma:

Sobre-geração = Nº de EM espúrias / Nº de EM classificadas pelo sistema

Sub-geração

A sub-geração é uma medida de quanto faltou ao sistema analisar, dada a solução conhecida (a colecção dourada, no nosso caso). Calcula-se da seguinte forma:

Sub-geração = Nº de EM em falta / Nº de EM na CD

Notas


Última actualização: 1 de Abril de 2008.