CLEF 2004 - Presença do português

Linguateca


Notícias


Perguntas gerais

O que é o CLEF?

O CLEF (Cross-Language Evaluation Forum, Forum de avaliação conjunta cruzada) é uma série de avaliações conjuntas pretendendo promover a pesquisa e desenvolvimento na área de recolha de informação entre várias línguas (cruzada). A responsável global por este projecto é Carol Peters.

Quem financia o CLEF?

O CLEF foi um projecto que começou como uma parte do TREC (CLIR track) em 1998, foi financiado nos anos 2000-2001 através da rede DELOS e pelo NIST (National Institute of Standards and Technology americano); foi em seguida financiado no âmbito do Quinto Programa Quadro de I&D da União Europeia (projecto IST-2000-31002, mais informação pode ser encontrada nas páginas do CORDIS, Serviço de Informação à Comunidade de Pesquisa e Desenvolvimento).
Em 2004, é financiado pela rede DELOS Network of Excellence on Digital Libraries.

Porque participa a Linguateca na organização do CLEF?

A Linguateca participa na organização do CLEF, no âmbito da nossa missão de promover e organizar avaliações conjuntas na área do processamento computacional da língua portuguesa. Veja-se [Santos & Rocha 2004] para alguma discussão desta motivação.

Quem financia a participação do português no CLEF?

A participação do português é financiada pela Linguateca, a nível de recursos humanos, e pelo diário PÚBLICO, a nível de fornecimento de recursos.

Em que pistas ("tracks") do CLEF esteve presente o português?

O português esteve presente no CLEF, quer para RI monolingue, quer para RI cruzada (em inglês, "crosslingual IR"), veja-se http://clef.iei.pi.cnr.it/2004/2004agenda.html. A responsável destas pistas é Carol Peters.

Além disso, o português também estará presente nas categorias de resposta automática a perguntas (RaP, Q&A), tanto como língua fonte como língua alvo (ou seja, perguntas em português e respostas em português), veja-se http://clef-qa.itc.it/2004/. O responsável por esta pista é Bernardo Magnini.

Que colecção de textos foi usada para o português?

A colecção de textos usada para o português nesta edição do CLEF consiste nos textos dos anos de 1994 e 1995 do diário português PÚBLICO. Para a avaliação de RI, apenas o ano de 1995 foi usado; para a avaliação de RaP, foi usada a colecção completa, ou seja, os textos de ambos os anos.

ColecçõesRIQA@CLEF
OrigemPúblico 1995Público 1994-1995
Edições363726
Documentos55.070106.821
Tamanho183.340 kB348.078 kB
UnidadesTotal33.458.26964.573.983
Diferentes407.631605.092
PalavrasTotal28.596.67455.538.483
Diferentes392.999580.740

Note-se que o Público não é publicado nos dias de Natal e Ano Novo, o que explica as edições aparentemente em falta.

Na tabela acima, uma palavra foi definida como uma letra seguida de uma sequência (eventualmente vazia) de letras e hífens. Divulgamos aqui uma amostra dos ficheiros dessa colecção (SGML 351KB, SGML gzipado 135KB), e a respectiva DTD (provisória).

A colecção não está marcada com identificação dos títulos e autores. Contudo, disponibilizamos aqui uma lista de possíveis autores com base na marcação feita anteriormente no CETEMPúblico.

Que material disponibiliza a Linguateca?

A Linguateca disponibiliza a colecção CHAVE, que, além de conter os textos completos do PÚBLICO de 1994 e 1995, contém:

Como posso obter o material disponibilizado pela Linguateca?

Como é habitual no CLEF, pedimos aos interessados que respeitem as seguintes condições:
  1. Registem-se para obter a colecção
  2. Mencionem sempre os seguintes factos: que a colecção consiste nas edições completas dos anos de 1994 e 1995 do jornal PÚBLICO (www.publico.pt), que foi compilada pela Linguateca (www.linguateca.pt), e que essa compilação ocorreu no quadro do CLEF (www.clef-campaign.org)
  3. Usar a colecção apenas para pesquisa e desenvolvimento; não é permitida a sua revenda, nem o lucro pela sua distribuição directa, online ou offline.
  4. Nenhum resultado obtido fora das avaliações conjuntas oficiais do CLEF pode invocar o nome do CLEF de um modo que sugira que o sistema foi avaliado por elas; i.e., todos os resultados obtidos fora das avaliações conjuntas devem mencionar claramente esse facto.
Informamos que a colecção CHAVE é parte de uma colecção bastante maior, que virá a ser distribuída pela ELRA, e que encorajamos todos os interessados em recolha de informação cruzada a obter.

Informação já desactualizada

Como posso inscrever o meu sistema?

AS INSCRIÇÕES ENCONTRAM-SE ENCERRADAS.
Pode no entanto consultar as instruções para registo e condições de participação na página http://clef.iei.pi.cnr.it:2002/2004/2004howto.html.

Quais as directrizes para a participação na avaliação de RAP?

As directrizes podem ser encontradas no sítio do QA@CLEF, no endereço http://clef-qa.itc.it/2004/guidelines.html.

Calendário(s)

Recolha de Informação (RI)


Perguntas & Respostas (QA@CLEF)


Registo de pedido da colecção CHAVE

Para ter acesso à colecção, basta preencher o seguinte formulário e concordar com as condições acima descritas:

Nome:
Morada (opcional):
E-mail:

Ser-lhe-á fornecida uma senha para aceder à colecção via FTP.

Quem se regista passa a fazer parte da lista de distribuição chave. O objectivo desta lista é informar os utilizadores da colecção CHAVE da criação de novas versões ou de outras informações relevantes.


Última actualização: 15 de Agosto de 2005.
Perguntas, comentários e sugestões