CLEF 2006 - Presença do português

Esta página, mantida e criada pela Linguateca, refere-se à edição de 2006 do CLEF.


Notícias


Perguntas sobre o CLEF'2006

Como posso inscrever o meu sistema no CLEF'2006?

AS INSCRIÇÕES ESTÃO ENCERRADAS.
Pode encontrar informação sobre as condições de participação na página http://clef.isti.cnr.it/2006/2006howto.html.

Em que pistas ("tracks") do CLEF'2006 está presente o português?

Na edição de 2006, o português está confirmadamente presente em três pistas diferentes.
  1. O português está presente na pista de Recolha de Informação, quer para RI monolingue, quer para RI cruzada (em inglês, "crosslingual IR"). A responsável destas pistas é Carol Peters (mail).
  2. O português está presente no QA@CLEF, resposta automática a perguntas (RAP, em inglês: QA), tanto como língua fonte como língua alvo (ou seja, perguntas em português e respostas em português). O responsável por estas pistas é Bernardo Magnigni (mail).
  3. O português está ainda presente no GeoCLEF.
Foi ainda considerada a possibilidade de incluir o português noutras pistas, conforme existissem ou não possíveis participantes. Como não se apresentaram interessados, a participação do português nessas pistas foi adiada para uma próxima oportunidade.
  1. O WebCLEF, quer em tópicos em português quer fazendo parte da colecção EuroGov, para cuja última, contudo, a Linguateca não contribuiu. A parte portuguesa do WebCLEF continua, no entanto, a ser usada.
  2. O ImageCLEF, recolha cruzada de imagens baseada em legendas. Apenas as legendas foram traduzidas para português.
  3. O WiQA, respostas a perguntas usando a Wikipedia, pista presente pela primeira vez no CLEF.

Que colecção de textos será usada para o português?

Para a edição do CLEF de 2006, foram usados os mesmos textos usados em 2005, ou seja os textos dos anos de 1994 e 1995 do diário português PÚBLICO e os textos dos mesmos anos do diário brasileiro Folha de São Paulo.

Quer para RI, quer para RAP, em 2005 serão usados os textos de ambos os anos (note-se que no CLEF'2004, a pista de RI apenas utilizou textos de 1995). O Público não é publicado nos dias de Natal e Ano Novo, o que explica as quatro edições a menos.

Na tabela abaixo, uma palavra foi definida como uma letra seguida de uma sequência (eventualmente vazia) de letras e hífens.

ColecçõesPúblicoFolha de São Paulo
Anos1994-19951994-1995
Edições726730
Documentos106.821103.913
Tamanho348.078 kB226.690 kB
UnidadesTotal64.573.98342.317.112
Diferentes605.092530.382
PalavrasTotal55.538.48335.907.591
Diferentes392.999497.798

Divulgamos aqui uma amostra dos ficheiros dessa colecção, para o Público (SGML 351KB, gzipado 135KB, e a respectiva DTD) e para o Folha de São Paulo (SGML, gzipado e a respectiva DTD).

A colecção não está marcada com identificação dos títulos e autores. Contudo,disponibilizamos aqui uma lista de possíveis autores para os textos do Público, com base na marcação feita anteriormente no CETEMPúblico, e outra de possíveis autores para os textos do Folha, tendo por base o CETENFolha.


Calendário

Para mais informação sobre o calendário de cada pista, consulte a página dessa pista.

Para mais informação sobre todas as pistas e respectivo calendário, veja-se a Agenda do CLEF'2006.

Recolha de Informação (RI) Ad Hoc Track

Resposta Automática a Perguntas QA@CLEF

Recolha de Informação Geográfica GeoCLEF


Última actualização: 1 de Novembro de 2006.
Perguntas, comentários e sugestões