Avaliação de corpora anotados sintacticamente: sugestão para o português

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

Iniciamos a questão da avaliação -- ou melhor da definição de critérios de avaliação com propriedades puramente formais:

Olhando para cada corpus, é preciso: Para uma dada selecção aleatória de frases pertencentes ao corpus, analisar manualmente seguindo as informações, e comparar com o resultado.

Especificar as seguintes consultas:

e avaliar os 100 primeiros resultados / 100 resultados obtidos aleatoriamente / 100 resultados de formas diferentes (tirando as repetições)

Comparação entre corpora

Se se está a querer comparar corpora diferentes, e não avaliar cada um, algumas medidas possíveis serão: Possivelmente, e conforme o tipo de aplicação, algumas destas propriedades podem ser qualidades ou defeitos para utilizadores diferentes.

A experiência de fazer este tipo de avaliação aos corpora anotados do projectp AC/DC encontra-se descrita em Santos & Gasperin (no prelo).

Outras avaliações mais custosas

Comparar com o mesmo corpus analisado automaticamente, se houver analisadores sintácticos que produzam algum subconjunto da informação codificada, e verificar (um subconjunto d)as diferenças manualmente.

Avaliar o corpus para uma dada aplicação.

Referências

Santos, Diana & Caroline Gasperin. "Evaluation of parsed corpora: experiments in user-transparent and user-visible evaluation", Proceedings of LREC'2002. rtf ps
Autor: Diana Santos no âmbito da Linguateca.
Última alteração: 5 de Abril de 2002.
Perguntas, comentários e sugestões