Avaliação de Sistemas de Reconhecimento de Entidades Mencionadas (REM)

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

Com o objectivo de motivar a avaliação conjunta de sistemas (ou módulos de sistemas) de reconhecimento de entidades mencionadas, foi enviada a todos os interessados na avaliação conjunta uma primeira proposta de avaliação nesta área.

Uma vez que o primeiro passo sugerido foi a anotação dos 10 primeiros extractos do CETEMPúblico e dos 20 primeiros do CETENFolha, de modo a que todos marquem exactamente a mesma versão dos extractos, disponibilizamos nesta página esses extractos:

10 primeiros extractos do CETEMPúblico (versão 1.7)

20 primeiros extractos do CETENFolha (versão 1.0)

Todas as sequências consideradas pelos participantes como sendo nomes próprios devem ser delimitadas com a etiqueta SGML NOMEPROP, em que o atributo TIPO deverá ter um dos seguintes valores: PESSOA, ORGANIZAÇÃO, LUGAR ou OUTRO. Em alternativa, em vez de OUTRO poderão ser usadas etiquetas mais específicas da escolha do participante. Exemplo de anotação, usando uma frase do extracto 26 do CETEMPúblico:

<s>Naquele ano, as <NOMEPROP TIPO="ORGANIZAÇÃO">Brigadas Vermelhas</NOMEPROP> (<NOMEPROP TIPO="ORGANIZAÇÃO">BR</NOMEPROP>) estavam no auge da actividade terrorista, o líder cristão-democrata <NOMEPROP TIPO="PESSOA">Aldo Moro</NOMEPROP> acabara de ser raptado, e o príncipe -- proibido de entrar em <NOMEPROP TIPO="LUGAR">Itália</NOMEPROP> desde o exílio do pai em 1946 -- teria mesmo recebido ameaças das <NOMEPROP TIPO="ORGANIZAÇÃO">BR</NOMEPROP>.</s>

Foi sugerido um primeiro prazo de 3 semanas que findou em 21 de Fevereiro de 2003. Dado que não foi previsto inicialmente o interesse dos participantes em diversas conferências internacionais que tinham prazos de envio de artigos próximos dessa data, estabeleceu-se que 10 de Março de 2003 seria a nova data limite para envio dos extractos anotados.

Primeiros Resultados: Nesta primeira fase, 9 participantes/anotadores enviaram os extractos inicialmente propostos, com a anotação das entidades mencionadas que consideraram. Como primeiros resultados, destaca-se que no CETEMPúblico foram identificadas de 81 a 106 entidades, tendo havido uma concordância de 31,6%, e que no CETENFolha foram identificadas de 98 a 134 entidades, tendo havido uma concordância de  24,6%.

 

NOTA1: Inicialmente foi sugerido marcar os 10 primeiros extractos do CETENFolha. No entanto, em termos quantitativos os 20 primeiros extractos são mais semelhantes aos 10 extractos do CETEMPublico e daí a alteração.

NOTA2: As cores usadas no exemplo têm por objectivo apenas realçar as entidades mencionadas na frase, não sendo naturalmente necessário usá-las nos resultados.


Autora: Cristina Mota, pólo do LabEL da Linguateca.
Data da última revisão: 22 de Maio de 2003