Conferências de avaliação conjunta realizadas

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

Abaixo pretendemos coligir uma série de resumos das principais conferências realizadas (em sua maioria para o inglês, naturalmente) assim como apontar uma bibliografia mais especializada para os interessados.

1 - TREC (Text REtrieval Conference)

Estas conferências tiveram início em 1992, cujo propósito era avançar o estado da arte em recuperação de textos (text retrieval) através do provimento da infraestrutura necessária para a avaliação em grande escala das metodologias de recuperação de textos [Voorhees e Tice, 1998].

O número de participantes da primeira TREC foi de 25 (50 no TREC-6)[Hirschman, 1998]. A primeira TREC possuia como principais características [Hirschman, 1998]:

1.1 - TREC-8 Question Answering Track

O propósito desta conferência foi promover a primeira avaliação em grande escala de sistemas de question answering independentes de domínio.

Conforme [Voorhees e Tice, 1998], os participantes receberam uma grande coletânea de documentos (1.5 Gb de textos, em sua maioria jornalísticos) e 200 questões cujas respostas eram curtas e factuais. Cada questão possuia garantidamente uma resposta em pelo menos um dos documentos na coleção que explicitamente respondia à questão.

Os participantes deveriam retornar uma lista ordenada de 5 pares [documento-id, string-resposta] por questão. As strings de resposta estavam limitadas a 50 ou a 250 bytes dependendo do teste e deveriam ser extraídas do documento correspondente ou automaticamente geradas a partir da informação contida no documento.

A avaliação dos resultados consistia em decisões binárias entre os juízes se a string continha ou não uma resposta à questão, no contexto do documento. A métrica utilizada nesta conferência [Voorhees e Tice, 1998] era a ordem recíproca média (mean reciprocal rank): cada questão recebe uma pontuação igual ao recíproco da ordem na qual a primeira resposta correta fosse encontrada ou 0 caso a resposta não se encontrasse entre os 5 pares. A pontuação geral era dada pela média dos recíprocos da ordem dado a cada questão.

Este tipo de métrica possui as seguintes vantagens:

Mas possui as seguintes desvantagens:

2 - MUC e ATIS

Os propósitos destas duas conferências são [Hirschman, 1998]:

2.1 - MUC - Message Understanding Conference [Hirschman, 1998]

MUC é essencialmente uma avaliação de tecnologia, isto é, uma comparação entre sistemas. Esta avaliação é baseada em corpus. Teve início em 1987. A principal tarefa era a simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular (por exemplo, atividades terroristas nas Américas).

As principais características do primeiro MUC são:

2.2 - MUC-2 (1989)

O MUC-2 usou um corpus maior, também da US Navy. A saída foi previamente planejada, em um formato previamente definido (gabarito). Entre outras coisas o gabarito deveria conter:

2.3 - MUC-3 e MUC-4 (1991 e 1992)

Características:

2.4 - MUC-5 (1993)

Características:

2.5 - MUC-6 (1995)

Características:

2.6 - MUC-7 (1998)

Características: Métricas utilizadas nas MUCs:

3 - ATIS (1990) [Hirschman, 1998]

Da mesma forma que os MUCs, o ATIS é avaliação de tecnologia. Ele utiliza um corpus chamado ATIS (Air Travel Information System).

A tarefa deste evento era responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas).

Como características deste evento podemos citar:

4 - Parseval [Hirschman, 1998]

Características:

Referências

Sites sobre conferências de avaliação

AMARYLLIS (Accès à l'information textuelle en français) http://amaryllis.inist.fr/

ARCADE (Evaluation of parallel text alignment systems) http://www.lpl.univ-aix.fr/projects/arcade/index-en.html

CLEF (Cross-Language Evaluation Forum) http://clef.iei.pi.cnr.it/

DARPA Communicator http://fofoca.mitre.org/

DIET (Diagnostic and Evaluation Tools for Natural Language Applications) http://www.dfki.de/lt/projects/diet-e.html

DUC (Document Understanding Conference) http://www-nlpir.nist.gov/projects/duc/main.html

EAGLES (The Expert Advisory Group on Language Engineering Standards - Evaluation Workgroup) - http://issco-www.unige.ch/projects/ewg97/ewg97.html

ELSE (Evaluation of Language and Speech Engineering) http://www.limsi.fr/TLP/ELSE/

FRACAS (A Framework for Computational Semantics) http://www.cogsci.ed.ac.uk/~fracas

GRACE (Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation - CNRS) http://www.limsi.fr/TLP/grace/

ISLE (International Standards for Language Engineering - Evaluation Working Group) http://www.issco.unige.ch/projects/isle/ewg.html

JST-FRANCIL (Journées Scientifiques et Techniques du Réseau FRANCophone de l'Ingénierie de la Langue, programme de l’Aupelf-Uref) http://www.limsi.fr/Recherche/FRANCIL/frcl.html

MT Evaluation Workshop "Who Did What to Whom" (MT Summit VIII) http://www.eamt.org/summitVIII/workshop-papers.html

MTEval Workshop (Workshop on Machine Translation Evaluation) http://issco-www.unige.ch/projects/isle/mteval-april01/

MUC (Message Understanding Conference)

NTCIR (NII-NACSIS Test Collection for IR Systems) http://research.nii.ac.jp/ntcir/index-en.html

SENSEVAL (Evaluating Word Sense Disambiguation Systems) http://www.itri.brighton.ac.uk/events/senseval/

SUMMAC (First Automatic Text Summarization - DARPA) http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/sumslides.htm

TEMAA (A Testbed Study of Evaluation Methodologies: Authoring Aids) http://www.cst.ku.dk/projects/temaa/temaa.html

TIPSTER Text Program http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/

TREC (Text REtrieval Conference) http://trec.nist.gov/

TSNLP (Test Suites for Natural Language Processing) http://cl-www.dfki.uni-sb.de/tsnlp/

Outras informações sobre avaliação

Santos, Diana - Tutorial on "Evaluation of Natural Language Processing systems", apresentado na Joint International Conference IBERAMIA/SBIA 2000 (Atibaia, São Paulo, Brazil), 19 November 2000 (PowerPoint slides in PostScript format, reference list).


Autor: Alexsandro Soares no âmbito da Linguateca.
Data da última revisão: 20 de Junho de 2002
Perguntas, comentários e sugestões