CETEMPúblico: Informações

Information in English

Linguateca
O CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público) é um corpus de aproximadamente 180 milhões de palavras em português europeu, criado pelo projecto Processamento computacional do português (projecto que deu origem à Linguateca) após a assinatura de um protocolo entre o Ministério da Ciência e da Tecnologia (MCT) português e o jornal PÚBLICO em Abril de 2000.

O CETEMPúblico está disponível das seguinte formas:

  1. consulta via rede (versão 1.7), acessível de Projecto AC/DC: corpus CETEMPúblico
  2. download via http (versão 1.7), preenchendo o formulário abaixo.
  3. através do Linguistic Data Consortium (versão 1.7, CETEMPúblico Version 1.7)

O CETEMPúblico foi anotado pelo analisador sintáctico PALAVRAS, de Eckhard Bick, segundo a rotina estabelecida pelo projecto AC/DC (veja-se a página de anotação para mais pormenores).


Sobre o CETEMPúblico em geral

A quem se destina o CETEMPúblico?

Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho. A versão em formato texto distribuída em CD destina-se principalmente a este tipo de investigadores.

Por outro lado, espera-se que o corpus seja útil a todos os estudiosos da língua que queiram confirmar as suas hipóteses em material textual, previamente organizado. As versões CQP e acesso através da rede foram pensadas para este público alvo que, no entanto e se assim o desejar, também pode obter o CD para o ter localmente, e eventualmente codificar o corpus no sistema de processamento de corpora da sua preferência.

O que é o PÚBLICO?

O PÚBLICO é um jornal diário português de grande circulação, fundado em 1991, e o primeiro jornal português a disponibilizar uma edição electrónica na rede (Publico.pt).

Quais são as restrições ao uso do CETEMPúblico?

Conforme também explicitado nos ficheiros Leia-me que seguem com os CDs que distribuímos, o CETEMPúblico pode ser utilizado para fins de investigação e desenvolvimento tecnológico, apenas sendo vedada a sua comercialização.

Quais são as minhas obrigações como utilizador do CETEMPúblico?

O Público deverá ser sempre referido como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a esta ferramenta incluindo, designadamente, artigos, teses, comunicações e conferências.

Deverá ser cedido gratuitamente ao Público qualquer produto que venha a ser comercializado na sequência da execução de projecto de investigação e desenvolvimento em que o CETEMPúblico seja utilizado.

Posso reconstituir as notícias?

A resposta breve é não. O protocolo assinado entre o MCT e o PÚBLICO obrigou-nos a retalhar os artigos em extractos de modo a ser impossível reconstituir os artigos originais. O corpus não pretende substituir os arquivos do jornal.

Qual o conteúdo do CETEMPúblico?

O corpus inclui o texto de cerca de 2.600 edições do PÚBLICO, entre os anos de 1991 e 1998, num total de aproximadamente 180 milhões de palavras (versão 1.0). Isto não corresponde ao texto completo do jornal; faltam nomeadamente algumas edições e suplementos; e por outro lado, existem artigos que não publicados na edição escrita do jornal por razões editoriais.

O CETEMPúblico 1.0 está dividido em 1.567.625 extractos, classificados por semestre e secção do jornal da qual provêm. Cada extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados. Veja aqui alguns exemplos de extractos.

Quais os dados quantitativos do CETEMPúblico?

Considerámos palavras todos os átomos existentes no corpus que contenham pelo menos uma letra ou dígito. Os sinais de pontuação não foram incluídos.

Dados quantitativos aproximados (2000) referentes à versão 1.7 encontram-se aqui:

Tokens Tipos
Unidades 229.038.019 1.033.041
Palavras 191.687.833 999.059
Pontuação13.065.151 33.982

"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.

EstruturaNúmero
Extractos <ext> 1.504.258
Parágrafos <p> 2.571.735
Frases <s> 7.082.094
Títulos <t>655.059
Autores <a>247.392
Elementos de lista <li> 80.060

As listas de unidades, e de lemas constantes do CETEMPúblico encontram-se disponíveis de lista de palavras, lista de lemas.

Mais informação quantitativa sobre o sobre CETEMPúblico encontra-se na página respectiva do AC/DC, Corpus CETEMPúblico, que é actualizada sempre que há novas versões do corpus ou dos programas de processamento dos corpora.

O CETEMPúblico contém exclusivamente texto em português europeu?

A esmagadora maioria do texto do CETEMPúblico está em português europeu, embora haja alguns textos de autores brasileiros e africanos.

O CETEMPúblico inclui a totalidade do texto do PÚBLICO?

Não. Por um lado, faltam várias edições, e várias secções do jornal foram excluídas, por terem sido consideradas de pouco interesse para os objectivos do corpus. Essas secções incluem as citações de outros jornais ("Diz-se"), a secção "O PÚBLICO errou", e tabelas desportivos (classificações, rankings, e resultados).

Por outro lado, o CETEMPúblico inclui inúmeros artigos que não foram publicados no jornal por falta de espaço ou oportunidade.

Nomeadamente devido à falta de um certo número de edições, existe uma distribuição desigual dos textos por ano e por semestre.

Os caracteres utilizados reflectem exactamente o uso do jornal?

Em alguns casos, e por questões associadas a diferentes codificações de caracteres, utilizámos formas alternativas:

Qual a relação entre o CETEMPúblico e o CETENFolha?

Tentámos, com o CETENFolha, criar um corpus tão paralelo quanto possível ao CETEMPúblico, cada qual na sua variante da língua portuguesa. O CETENFolha, sendo posterior, beneficiou da experiência obtida previamente, sendo assim evitados alguns dos erros ocorridos aquando da criação do CETEMPúblico.

Qual a relação entre o CETEMPúblico e a colecção CHAVE?

Cerca de metade da colecção CHAVE é composta essencialmente pelos mesmos textos que foram usados para a criação do CETEMPúblico, mas limitados aos anos de 1994 e 1995 (a outra metade é composta de textos do jornal brasileiro Folha de São Paulo).

Onde posso obter mais informação sobre o CETEMPúblico?

Consulte os artigos, aqui disponíveis em formato electrónico:

Como devo citar o CETEMPúblico?

Se usar o CETEMPúblico agradecemos que indique, pelo menos, uma das seguintes referências mencionadas acima, além do URL http:www.linguateca.pt/CETEMPublico/.


Informação e estrutura do CETEMPúblico

Qual a estrutura do corpus?

O corpus está dividido em extractos Foram usadas as seguintes etiquetas:
<ext>
extracto (normalmente dois parágrafos)
<p>
parágrafo
<s>
frase (<s frag> é um fragmento)
<t>
título
<a>
autor de um texto
<li>
elemento de uma lista
Uma etiqueta <p> inclui uma ou várias etiquetas <s>.

Que informação está associada a cada extracto?

Um exemplo de cabeçalho de extracto é o seguinte:

<ext n=1150929 sec=soc sem=95a>
Os atributos significam
n
o número de ordem do extracto no corpus
sec
a classificação do texto, inspirada nas classificações do CETEMPúblico; os valores possíveis são: pol (política portuguesa e internacional), des (desporto), eco (economia), clt (cultura), opi (opinião), com (informática) e nd (não determinado). Alguns artigos pertencem a mais de uma categoria (clt-soc).
As versões anteriores à 1.3 usam também o valor pol-soc (política e sociedade), que foi alterado nas versões posteriores para pol.
sem
o semestre, representado por dois dígitos indicando o ano, e uma letra (a ou b indicando se se trata do primeiro ou segundo semestre desse ano (os valores possíveis vão de 91a a 98b, respectivamente o primeiro semestre de 1991 e o segundo semestre de 1998).
Exemplos de uso do corpora utilizando estes atributos podem ser encontrados na nossa página de exemplos.

Há alguma especificação sistemática da estrutura do corpus?

Fornecemos aqui uma pequena especificação em BNF, com terminais em carregado (negrito):

corpus = extracto+
extracto = id_extracto conteúdo_extracto </ext>
contéudo_extracto = parágrafo+
parágrafo = título | identif_autor | <p> frase+ </p> | elemento_lista
título = <t> token+ </t>
identif_autor = <a> token+ </a>
elemento_lista = <li> token+ </li>
frase = ( <s> | <s frag> ) token+ </s>
token = <marca num= X > | palavra | sinal_pontuação | identificador
X = ( *+ ) | *+
id_extracto = <ext n=número sec=id_sec sem=semestre >
número = [0-9]+
id_sec= soc | pol | clt | des | opi | eco | com | clt-soc | pol-soc | nd
semestre = 91a | 91b | 92a | 92b | 93a | 93b | 94a | 94b | 95a | 95b | 96a | 96b |97a | 97b | 98a | 98b

Notas:

Uma alternativa de definição da estrutura do corpus é dada pela seguinte DTD de SGML.

O CETEMPúblico encontra-se anotado?

Sim, além da informação descrita na secção anterior, a cada palavra ou átomo (unidade) do corpus encontra-se associada informação gramatical, anotada automaticamente pelo analisador sintáctico PALAVRAS, desenvolvido por Eckhard Bick.

Que informação está associada ao CETEMPúblico anotado?

Mais informação sobre os corpora anotados e os métodos de pesquisa nesses corpora usando informação gramatical pode ser encontrada nas páginas do projecto AC/DC.

Infelizmente, este serviço sofre de falta de eficiência devido ao tamanho do corpus, o que conduz frequentemente a um resultado nulo por excesso de tempo de processamento ("timeout"). Enquanto não resolvemos este problema, sugerimos que os utilizadores usem o comando cut para diminuir o número de resultados: Por exemplo, [word="como" & pos="V.*"] cut 100; ) apresenta apenas os 100 primeiros casos.

Que versão do PALAVRAS foi utilizada para anotar o CETEMPúblico anotado?

A última vez que o CETEMPúblico foi anotado pelo PALAVRAS foi em 2006.

Que mais informação existe sobre o CETEMPúblico anotado?

A anotação do CETEMPúblico não difere da dos outros corpora, cuja informação se encontra reunida a partir da página principal do serviço AC/DC.

Veja também Usos de corpora para algumas dicas de utilização do corpus não anotado.


Problemas conhecidos

Todo o material incluído no CETEMPúblico tem um formato válido?

Não. Infelizmente, devido ao grande volume do corpus (que torna impraticável a sua revisão manual), e ao facto de os ficheiros oriundos do jornal incluírem material em vários formatos diferentes, tais como imagens e outras categorias não legíveis, não nos foi possível, apesar de termos implementado vários filtros, assegurar que todo o conteúdo do corpus é texto limpo.

Podemos no entanto garantir que a partir da versão 1.7 o corpus tem um formato SGML válido. Embora esperemos que extractos com material não textual representem uma parte diminuta do corpus (especialmente nas suas versões corrigidas), prevenimos desde já os utilizadores da sua existência.

Conhecem-se outros problemas com o CETEMPúblico?

Conhecem-se problemas na anotação?

Estamos conscientes de que há problemas com os clíticos na versão actual.


Melhorias introduzidas ao longo do tempo

Como podemos manter-nos actualizados em relação às modificações do CETEMPúblico?

À medida que formos tendo conhecimento de problemas com o corpus, tentaremos disponibilizar a partir desta página pequenos programas para os corrigir, assim como actualizar a versão acessível através da rede.

De qualquer maneira, todos os utilizadores que tenham obtido o corpus através do nosso projecto são automaticamente adicionados à lista do cetempublico. No caso de o ter obtido por outros meios (por exemplo através do LDC), basta enviar-nos uma mensagem pedindo para pertencer à lista.

Os utilizadores da versão 1.0 do corpus em formato texto podem obter o patch 1.0.7 (483kB) em Perl (veja o historial das versões). As ultimas versões de Perl (quer para Linux quer para Windows) estão disponíveis em http://www.perl.com. Agradecemos que os utilizadores que desenvolvam correcções semelhantes noutras linguagens de programação nos enviem uma cópia para redistribuição.

Como executar o patch?

É indespensável ter Perl instalado no seu computador. Execute
	perl patch_cetempublico_1.0.7.pl ficheiro_original > ficheiro_corrigido 
para cada um dos ficheiros distribuídos no CD. Este comando é válido quer para Linux quer para Windows (neste caso, deve ser executado numa janela de MS-DOS).


Historial das versões

Versão 1.7 (18 de Setembro de 2001)

A versão 1.7 pretende que todo o corpus tenha um formato SGML válido. Assim, esta versão

Um patch (patch_cetempublico_1.0.7.pl) que transforma a versão 1.0 (ou 1.1, 1.2, 1.4, 1.6) do CETEMPúblico na versão 1.7 foi disponibilizado a 18 de Setembro de 2001.

Versão 1.6 (23 de Julho de 2001)

A versão 1.6 elimina cerca de 7000 extractos muito pequenos, com menos de 100 caracteres (lista).

Um patch (patch_cetempublico1.0.6.pl) que transforma a versão 1.0 (ou 1.1, 1.2, 1.4) do CETEMPúblico na versão 1.6 foi disponibilizado a 23 de Julho de 2001.

Versão 1.5 (25 de Maio de 2001)

Esta versão resolve apenas problemas referentes ao acesso através da rede, envoolvendo a determinação das unidades básicas para procura (tokenização) e a identificação de extractos.

Versão 1.4 (21 de Março de 2001)

A versão 1.4 elimina 96 extractos com conteúdo inválido (lista), e corrige algumas atributos incorrectos (<s> em vez de <a>).

Um patch (patch_cetempublico_1.0.4.pl) que transforma as versões anteriores do CETEMPúblico na versão 1.4 foi disponibilizado a 21 de Março de 2001.

Nota: Como a aplicação deste patch à versão 1.3 não corrige um problema ligeiro introduzido nessa versão, sugerimos a aplicação deste patch apenas à versão 1.2 ou anteriores do corpus.

Versão 1.3 (2 de Fevereiro de 2001)

A versão 1.3 apresenta as seguintes melhorias Um patch (patch_cetempublico1.0.3.pl) que transforma a versão 1.0 (ou 1.1, 1.2) do CETEMPúblico na versão 1.3 foi disponibilizado a 2 de Fevereiro de 2001.

Versão 1.2 (9 de Janeiro de 2001)

A versão 1.2 apresenta as seguintes melhorias: Um patch (patch_cetempublico1.0.2b.pl) que transforma a versão 1.0 (ou 1.1) do CETEMPúblico na versão 1.2 foi disponibilizado a 9 de Janeiro de 2001.

Versão 1.1 (28 de Setembro de 2000)

A versão 1.1 apresenta as seguintes melhorias: A versão CQP permite pedir a distribuição por classificação e por semestre.

Um patch (patch_cetempublico1.0.0.pl) que transforma a versão 1.0 do CETEMPúblico na versão 1.1 foi criado a 11 de Outubro de 2000. Novo patch -- compatível com versões mais antigas de Perl -- foi instalado a 31 de Outubro de 2000, patch_cetempublico1.0.1.pl.

Versão 1.0 (25 de Julho de 2000)

Versão distribuída em formato texto em CD.


Agradecimentos


Registo de encomenda do CETEMPúblico

Para receber o corpus em formato texto, basta registar-se através do seguinte formulário.

Nome: *
E-mail:*
Endereço: (opcional)


Última actualização: 10 de Setembro de 2007.
Perguntas, comentários e sugestões