A colecção CHAVE

Linguateca

CHAVE in English


A colecção CHAVE é o resultado da participação da Linguateca na organização do CLEF a partir de 2004, que além de potenciar a participação da comunidade envolvida no processamento da língua portuguesa nesta avaliação conjunta internacional, pretende fomentar e disseminar recursos públicos. Veja a página do CLEF mantida pela Linguateca.

A partir de Abril de 2007, disponibilizamos também uma versão anotada sintacticamente pelo PALAVRAS (Bick, 2000).

A partir de Janeiro de 2010, a colecção CHAVE existe também anotada automaticamente no que se refere às entidades mencionadas, pelo REMBRANDT, versão 0.7. (Cardoso, 2008).

A Linguateca disponibilizou assim a colecção CHAVE, que, além de conter os textos completos do PÚBLICO e da Folha de São Paulo de 1994 e 1995, contém ainda os seguintes recursos, relacionados com as diferentes pistas:

A estrutura dos ficheiros disponibilizados é a seguinte: Informamos que a colecção CHAVE é parte de uma colecção bastante maior, para investigação em recolha de informação cruzada, que virá a ser distribuída pela ELRA, e que encorajamos todos os interessados a obter.

Informação sobre os textos

Além dos textos usados em 2004, ou seja os textos dos anos de 1994 e 1995 do diário português PÚBLICO (note-se, aliás, que no CLEF 2004, na pista de RI apenas foram empregues textos de 1995), a partir de 2005 foram utilizados também textos dos mesmos anos do diário brasileiro Folha de São Paulo quer para RI (adhoc), RAP, ou RIG. Em 2007 deixaram de ser usados na pista de RI, passando a ser usados na pista robusta do CLEF.

A tabela seguinte fornece uma descrição quantitativa das colecções usadas.

ColecçõesPúblicoFolha de São Paulo
Anos1994-19951994-1995
Edições726730
Documentos106.821103.913
Tamanho348.078 kB226.690 kB
UnidadesTotal64.222.79742.109.286
Diferentes500.197426.469
PalavrasTotal54.947.07235.699.765
Diferentes472.817393.885

Notas à tabela:

Divulgamos aqui uma amostra dos ficheiros dessa colecção, para o Público (SGML 351KB, gzipado 135KB, e a respectiva DTD) e para o Folha de São Paulo (SGML 506KB, gzipado 197KB, e a respectiva DTD).

A colecção CHAVE não foi infelizmente marcada com títulos e autores à data da sua primeira disponibilização pelo CLEF, e agora, por questões metodológicas do CLEF, não a podemos alterar. Por isso, como um remendo auxiliar, disponibilizamos aqui uma lista de possíveis autores para os textos do Público, com base na marcação feita anteriormente no CETEMPúblico, e outra de possíveis autores para os textos do Folha, tendo por base o CETENFolha.

Note-se que o acesso através da rede à colecção CHAVE, para consulta, é também possível através do projecto AC/DC, especificamente aqui.

Condições de uso

Como é habitual no CLEF, pedimos aos interessados que respeitem as seguintes condições:
  1. Registem-se (abaixo) para obter a colecção
  2. Mencionem sempre os seguintes factos:
  3. Usar a colecção apenas para pesquisa e desenvolvimento; não é permitida a sua revenda, nem o lucro pela sua distribuição directa, online ou offline.
  4. Nenhum resultado obtido fora das avaliações conjuntas oficiais do CLEF pode invocar o nome do CLEF de um modo que sugira que o sistema foi avaliado por elas; i.e., todos os resultados obtidos fora das avaliações conjuntas devem mencionar claramente esse facto.

Para ter acesso à colecção, basta preencher o seguinte formulário, se concordar com as condições acima descritas:

Nome:
E-mail:    
Morada:
(opcional)

Ser-lhe-á fornecida uma senha para aceder à colecção.


Última actualização: 29 de Janeiro de 2010.
Perguntas, comentários e sugestões