Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo NOBRE, criado a 12 de maio de 2026, v. 13.5

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 13044521248608
Total de palavras 9519239247222
Palavras em minúscula 7391780151436
Palavras com inicial maiúscula80561337562
Palavras todas em maiúsculas 114922219
Números 8920983
Palavras com números445269
Palavras mistas46771933
Pontuação6818888

Número de unidades estruturais

Atributo Número
p 189074
s 542396
v 0
obra 180
capitulo 0
parte 0
tit 0
autor 180
tituloobra 180
div 314
mwe 142147
fala 555
personagem 560
t 260

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 246510 374586
Locuções 142147 309413
Palavras gráficas 9519239 9519239
Palavras simples 8835240 8835240
Palavras 9223897 9519239

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1762893 19,95%
Verbos V.* 1608735 18,21%
Adjectivos ADJ.* 542305 6,14%
Pronomes pessoais .*PERS.* 465163 5,26%
Preposições PRP.* 1375016 15,56%
Conjunções K.* 485908 5,50%
Advérbios ADV.* 601391 6,81%
Determinantes .*DET.* 1630563 18,46%
Especificadores .*SPEC.* 231207 2,62%
Numerais NUM.* 70282 0,80%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 12 de Maio de 2026
Perguntas, comentários e sugestões