Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo OBras, criado a 26 de outubro de 2025, v. 17.11

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 14588670233804
Total de palavras 10338593233700
Palavras em minúscula 8092079137718
Palavras com inicial maiúscula87936138547
Palavras todas em maiúsculas 116093030
Números 9081804
Palavras com números223140
Palavras mistas22021206
Pontuação7894238

Número de unidades estruturais

Atributo Número
p 236227
s 639766
t 1842
v 23015
obra 336
capitulo 697
parte 13
tit 0
autor 336
tituloobra 336
div 2589
mwe 183005

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 244358 342594
Locuções 183005 396964
Palavras gráficas 10338593 10338593
Palavras simples 9599035 9599035
Palavras 10026398 10338593

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 2014271 20,98%
Verbos V.* 1743035 18,16%
Adjectivos ADJ.* 615907 6,42%
Pronomes pessoais .*PERS.* 483045 5,03%
Preposições PRP.* 1496103 15,59%
Conjunções K.* 525654 5,48%
Advérbios ADV.* 662294 6,90%
Determinantes .*DET.* 1834639 19,11%
Especificadores .*SPEC.* 240179 2,50%
Numerais NUM.* 81485 0,85%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 26 de Outubro de 2025
Perguntas, comentários e sugestões