CLEF: Recolha de informação cruzada com português

Página em português, mantida pela Linguateca, sobre o projecto internacional CLEF.

Perguntas gerais

O que é o CLEF?

O CLEF (Cross-Language Evaluation Forum, Forum de avaliação entre várias línguas) é uma série de avaliações conjuntas pretendendo promever a pesquisa e desenvolvimento na área de recolha de informação entre várias línguas (cruzada). A responsável global por este projecto é Carol Peters.

Quem financia o CLEF?

O CLEF começou em 1998 como uma parte do TREC (o chamado "CLIR track").

Nos anos 2000-2001, foi financiado através da rede DELOS e pelo NIST (National Institute of Standards and Technology, dos Estados Unidos).

Foi, em seguida, financiado no âmbito do Quinto Programa Quadro de I&D da União Europeia (projecto IST-2000-31002, mais informação pode ser encontrada nas páginas do CORDIS, Serviço de Informação à Comunidade de Pesquisa e Desenvolvimento).

Desde 2004, foi financiado pela rede DELOS Network of Excellence on Digital Libraries.

Desde 2008, é financiado pelo projecto TrebleCLEF.

Porque participa a Linguateca na organização do CLEF?

A Linguateca participa na organização do CLEF, no âmbito da nossa missão de promover e organizar avaliações conjuntas na área do processamento computacional da língua portuguesa.

Quem financia a participação do português no CLEF?

A participação do português é financiada pela Linguateca, a nível de recursos humanos, e pelo diários PÚBLICO (Portugal) e Folha de São Paulo (Brasil), a nível de fornecimento de recursos.

Em que pistas ("tracks") do CLEF se apresenta o português?

Como posso inscrever o meu sistema?

Para informações sobre o registo e condições de participação no CLEF, consulte a página relativa à edição do corrente ano do CLEF.

Que colecções de textos são usadas para o português?

Nos anos 2004 a 2008, foram usados textos jornalísticos: A colecção está descrita e é disponibilizada na página da colecção CHAVE.

A partir de Abril de 2007, a Linguateca também disponibiliza uma versão da mesma colecção anotada pelo PALAVRAS (Bick, 2000).

A partir de 2007 também diversos instantâneos da Wikipédia foram usados, tanto para RAP como no GikiP e no GikiCLEF.

Em 2009, ainda outras colecções multilingues incluindo o português foram utilizadas, como se pode ver na página respectiva.

Como posso obter as colecções de textos a ser usadas?

Encontrará informações relativas à obtenção de cada colecção nas páginas respectivas.

No entanto, para participar oficialmente no CLEF, deve requisitá-las à organização do CLEF durante a realização do mesmo.

Quais são os resultados da participação da Linguateca no CLEF?

A Linguateca disponibiliza a colecção CHAVE, contendo os textos, tópicos e perguntas utilizados nas edições prévias do CLEF. Para mais informações, consulte a página da colecção CHAVE.

Compilamos e mantemos uma lista já razoável sobre a participação do português no CLEF, em Lista de publicações no CLEF.

Finalmente, em 2007 associámos informação sintáctica produzida pelo PALAVRAS à colecção CHAVE e disponibilizámos mais esta versão publicamente.

Quais os recursos disponíveis para RI em português?

Além da colecção CHAVE mencionada acima, e das colecções de RI acessíveis através do repositório da Linguateca, estão ainda disponíveis
Última actualização: 23 de Março de 2009.
Perguntas, comentários e sugestões