Acesso a corpos de português: Projecto AC/DC: corpo CHAVE

CHAVE : AC/DC : Linguateca
O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007). Pode obter o corpus completo em formato texto requerendo-o nesta página.

Estrutura do corpo

Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

Versão do corpo

Corpus CHAVE, criado a 8 de julho de 2024, v. 11.1

Excerto do corpo


<DOC>
<DOCNO valor=FSP941101-001>
<DOCID valor=FSP941101-001>
<DATE valor=941101>
<TEXT>
<s> O país que o presidente eleito Fernando Henrique Cardoso encontrou na volta de sua viagem à Europa Oriental apresenta algumas diferenças
substanciais com relação àquele que havia deixado cerca de duas semanas antes . </s>
<s> E não são diferenças muito animadoras . </s>
<s> A inflação subiu <96>passou de 1,99% na segunda quadrissemana de outubro para 2,68% na terceira e está em ascensão, segundo a Fipe . </s>
<s> O compulsório sobre empréstimos causou espanto e decepção ao dificultar um aumento da produção, em vez de estimulá-lo . </s>
...

Dados quantitativos

Corpo CHAVE Número de formasNúmero de tipos
Unidades 127881425738397
Total de palavras 101324906712188
Palavras em minúscula 73917530231021
Palavras com inicial maiúscula12747887232578
Palavras todas em maiúsculas 86756627556
Números 11064537449
Palavras com números1041049357
Palavras mistas15828120119
Pontuação691535825412

Número de unidades estruturais

Atributo Número
s 4761899
t 579096
p 2272720
mwe 1638219
data 210731
DOC 210731
CATEGORY 210731
EM 210731

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 5485812 9580949
Locuções 1638219 3493966
Palavras gráficas 101324906 101324906
Palavras simples 88249991 88249991
Palavras 95374022 101324906

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 20987921 23,78%
Verbos V.* 12973251 14,70%
Adjectivos ADJ.* 5918829 6,71%
Pronomes pessoais .*PERS.* 1485389 1,68%
Preposições PRP.* 17441149 19,76%
Conjunções K.* 3969413 4,50%
Advérbios ADV.* 4563588 5,17%
Determinantes .*DET.* 17647307 20,00%
Especificadores .*SPEC.* 1777562 2,01%
Numerais NUM.* 2306139 2,61%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 12 de Julho de 2024
Perguntas, comentários e sugestões