CLEF 2005 - Presença do português

Esta página, mantida e criada pela Linguateca, refere-se à edição de 2005 do CLEF.


Notícias


Perguntas sobre o CLEF'2005

Como posso inscrever o meu sistema no CLEF'2005?

AS INSCRIÇÕES ENCONTRAM-SE ENCERRADAS!
As instruções para registo e condições de participação encontram-se na página http://clef.isti.cnr.it/2005/2005howto.html.

Em que pistas ("tracks") do CLEF'2005 está presente o português?

Na edição de 2005, o português está presente em cinco pistas diferentes.
  1. O português está presente na pista de Recolha de Informação, quer para RI monolingue, quer para RI cruzada (em inglês, "crosslingual IR"). A responsável destas pistas é Carol Peters (mail).
  2. O português está presente nas categorias de resposta automática a perguntas (RAP, em inglês: QA), tanto como língua fonte como língua alvo (ou seja, perguntas em português e respostas em português), veja-se http://clef-qa.itc.it/2005/. O responsável por estas pistas é Alessandro Vallin (mail).
  3. O português está presente no WebCLEF, quer em tópicos em português quer fazendo parte da colecção EuroGov, para cuja última, contudo, a Linguateca não contribuiu.
  4. O português está igualmente presente no ImageCLEF, recolha cruzada de imagens baseada em legendas.
  5. Finalmente, o português está presente, mas apenas em tópicos, no GeoCLEF, sobre uma colecção de textos em inglês e alemão.
Para mais informação sobre todas as pistas, veja-se a Agenda do CLEF 2005.

Que colecção de textos será usada para o português?

Para a edição do CLEF de 2005, além dos textos usados em 2004, ou seja os textos dos anos de 1994 e 1995 do diário português PÚBLICO, serão utilizados também textos dos mesmos anos do diário brasileiro Folha de São Paulo.

Quer para RI, quer para RAP, em 2005 serão usados os textos de ambos os anos (note-se que no CLEF'2004, a pista de RI apenas utilizou textos de 1995). O Público não é publicado nos dias de Natal e Ano Novo, o que explica as quatro edições aparentemente em falta na tabela abaixo, em que uma palavra foi definida como uma letra seguida de uma sequência (eventualmente vazia) de letras e hífens.

ColecçõesPúblicoFolha de São Paulo
Anos1994-19951994-1995
Edições726730
Documentos106.821103.913
Tamanho348.078 kB226.690 kB
UnidadesTotal64.573.98342.317.112
Diferentes605.092530.382
PalavrasTotal55.538.48335.907.591
Diferentes392.999497.798

Divulgamos aqui uma amostra dos ficheiros dessa colecção, para o Público (SGML 351KB, gzipado 135KB, e a respectiva DTD) e para o Folha de São Paulo (SGML, gzipado e a respectiva DTD).

A colecção não está marcada com identificação dos títulos e autores. Contudo,disponibilizamos aqui uma lista de possíveis autores para os textos do Público, com base na marcação feita anteriormente no CETEMPúblico, e outra de possíveis autores para os textos do Folha, tendo por base o CETENFolha.


Calendário

Recolha de Informação (RI) Ad Hoc Track

Resposta Automática a Perguntas QA@CLEF

Recolha de Informação Cruzada na Rede WebCLEF

Recolha de Imagens ImageCLEF

Recolha de Informação Geográfica GeoCLEF


Última actualização: 28 de Setembro de 2005.
Perguntas, comentários e sugestões