Avaliação em Recuperação de Informação

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

Conhecer a eficiência de sistemas de Recuperação de Informação (RI) é importante não só para os pesquisadores de RI, mas também para quem usa estes sistemas. Pesquisadores e usuários precisam ter maneiras efetivas para saber quão bons são os sistemas para uma dada tarefa e como estes podem ser melhorados. A RI pode ser avaliada segundo estes dois diferentes ângulos (Wu & Sonnenwald, 1999; Pratt & Fagan, 2000; Bennett et al., 1999): sob o ponto de vista do sistema ou sob o ponto de vista do usuário.

Na RI textual, quando os sistemas são avaliados sob o ponto de vista do sistema as duas medidas mais utilizadas são precision e recall (Rijsbergen, 1979). Precision e Recall são medidas baseadas na noção de documentos relevantes de acordo com uma determinada necessidade de informação. Recall é a proporção de documentos relevantes de uma coleção que foram recuperados e precision é a proporção dos documentos recuperados em uma busca que são relevantes. Em geral, precision e recall são calculados usando uma coleção de consultas, documentos e julgamentos de relevâncias conhecidos. Outras medidas utilizadas são a medida F, a medida E e o fallout (Rijsbergen, 1979). A decisão de quais medidas utilizar em uma avaliação depende da aplicação e há sempre discussões sobre a confiabilidade de tais medidas (Su, 1998). Um exemplo é o artigo de Gwizdka & Chignell (1999), aonde se discute como avaliar máquinas de busca. Não é claro, por exemplo, o quanto pequenas diferenças na precision e recall têm algum efeito no sucesso na busca de um usuário.

Um exemplo de conferência de avaliação de RI textual sob o o ponto de vista do sistema é a TREC (Text Retrieval Conference). Esta conferência permite comparar as diversas técnicas utilizadas pelos grupos participantes. Para cada tarefa (track) há uma base de documentos com cerca de 2 gigabytes de texto (entre um milhão e um milhão e meio de documentos) e 50 consultas que informam o que é a informação procurada e o que constitui um documento relevante. Existem várias críticas a este tipo de avaliação: serem realizadas em ambientes de "laboratório" e não em ambientes reais, qual a credibilidade que se deve dar aos julgamentos de relevância já que este é um conceito subjetivo (Wu & Sonnenwald, 1999), e quão representativo é o conjunto de consultas e de documentos uma vez que costumam ser voltados para a ciência e tecnologia. Apesar destas questões, este tipo de avaliação tem sido proveitoso para RI já que tem indicado como melhorar a RI através de novas técnicas (Hawking et al., 1999).

Para a avaliação de RI sob o ponto de vista do usuário não há uma metodologia de avaliação padrão mesmo quando falamos de conferências, por exemplo a Information Seeking in Context (http://information.net/ir/calls.html). Para avaliar o comportamento, necessidades e satisfação dos usuários, os métodos utilizados incluem: entrevistas, observações, experimentos "think-aloud" e pesquisas. Este tipo de avaliação é bem mais caro e demorado, mas tem a vantagem de refletir melhor as necessidades de usuários reais.

Ambos os tipos de avaliação são importantes. Uma opção, como ainda não foram realizadas avaliações para RI para português, seria começar pela avaliação sob o ponto de vista do sistema para não restringir a avaliação aos sistemas que já se encontram em um estado mais desenvolvido e têm interfaces. Nesse caso seria possível participarmos de processos de avaliação já existentes, como o TREC e o CLEF. Ou optarmos por realizar a avaliação para português em separado e assim decidirmos quais seriam as medidas utilizadas e até mesmo incluir a avaliação sob o ponto de vista do usuário.

É importante notar que, qualquer que seja a opção, temos uma tarefa inicial a realizar, que é a criação da coleção de documentos a ser utilizada e da lista de consultas (com suas respectivas descrições do que é um documento relevante para aquela consulta).

Primeiro passo: Definição de tarefas

A comunidade que trabalha com RI para português deve definir que tarefas quer cobrir nesta primeira avaliação. Isto é necessário para esclarecer como devem ser criados a(as) coleção(ções) de documentos e a coleção(ções) de consultas. Para a avaliação de máquinas de busca, por exemplo, os documentos poderiam ser recolhidos da web e a lista de consultas poderia ser composta pelas consultas mais comuns feitas em algumas destas máquinas.

Segundo passo: Criação da(s) coleção(ções) de documentos e consultas

Definidas as tarefas que serão avaliadas, é possível seguir diferentes estratégias na construção do conjunto de documentos e consultas. Por exemplo, na avaliação de máquinas de busca, seria possível criar o conjunto de documentos a partir das 100 primeiras respostas a um determinado conjunto de consultas dadas por um conjunto de máquinas de busca. O conjunto de consultas poderia ser criado pela reunião das consultas sugeridas pelos grupos participantes.

Terceiro passo: Definição de critérios

Nota: Este último passo só acontece no caso de se optar por realizar a avaliação em separado das conferências já existentes, pois nestas conferências já existe um padrão de critérios e metodologia a ser seguido.

Há que definir:

  1. O que se quer avaliar: interface e/ou sistema.
  2. Que medidas irão ser utilizadas: precision, recall, fallout, tempo de resposta, etc.
  3. Quem irá julgar a relevância dos documentos para uma determinada consulta no momento da criação das coleções.
  4. De que forma irá ser medida a relevância. De forma binária (relevante ou não relevante) ou em níveis de relevância (de 0 a 5 por exemplo).
  5. Como lidar com direitos de autor, por exemplo, fazendo com que todos os participantes assinem um termo aonde estará explícito como estes dados serão utilizados.
  6. Qual o tempo máximo que cada grupo tem para rodar os experimentos com os dados da avaliação, por exemplo um mês.
  7. Quanto tempo depois a avaliação dos resultados é divulgada para os grupos.
  8. Quem serão os responsáveis por desenvolver os sistemas que farão a comparação entre os resultados dos sistemas e o conjunto de respostas "corretas".
  9. Os critérios para se aceitar ou não um grupo como participante da avaliação.
  10. Quais as obrigações dos grupos participantes. Se será permitido a participação posterior apresentando apenas os resultados de seus sistemas, ou se deverão ser divulgados além dos resultados também informações sobre os sistemas.
  11. Quanto tempo depois da entrega dos resultados, acontecerá a conferência.

Referências

BENNETT, Jeffrey; Tong, Xiang; Evans, David A. CLARIT TREC-8 Experiments in Searching Web Data. 1999. Disponível em http://trec.nist.gov/pubs/trec8/papers/index.track.html.

GWIZDKA, Jacek; Chignell, Mark. Towards Information Retrieval Measures for Evaluation of Web Search Engines. 1999. Disponível em http://anarch.ie.utoronto.ca/~jacekg/pubs/webIR_eval1_99.pdf

HAWKING, David; Craswell, Nick; Thistlewaite, Paul; Harman, Donna. Results and challenges in Web search evaluation. Disponível em http://www8.org/w8-papers/2c-search-discover/results/results.html

PRATT, Wanda; Fagan, Lawrence. The Usefulness of Dynamically Categorizing Search Results. Journal of the American Medical Informatics Association. Volume 7. 2000. Disponível em http://www1.ics.uci.edu/~pratt/main.html

RIJSBERGEN, C. J. van. Information Retrieval. 1979. Disponível em http://www.dcs.gla.ac.uk/Keith/Preface.html.

SU, Louise T. Value of search results as a whole as the best measure of information retrieval performance. Information Processing and Management Vol.34, nº 5, 557-579. 1998.

WU, Mei-Mei; Sonnenwald, Diane H. Reflections on Information Retrieval Evaluation. 1999. Disponível em http://pnclink.org/events-report/1999/Proceedings/wu-mm.pdf


Autor: Rachel Aires no âmbito da Linguateca.
Última alteração: 2 de Abril de 2002.

Perguntas, comentários e sugestões