Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo NOBRE, criado a 25 de março de 2026, v. 13.2

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 12649648244084
Total de palavras 9232547242760
Palavras em minúscula 7173535149192
Palavras com inicial maiúscula78178436588
Palavras todas em maiúsculas 114232206
Números 8607972
Palavras com números443268
Palavras mistas45201875
Pontuação6629428

Número de unidades estruturais

Atributo Número
p 179804
s 527214
v 0
obra 175
capitulo 0
parte 0
tit 0
autor 175
tituloobra 175
div 202
mwe 137747
fala 555
personagem 560
t 189

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 239110 363740
Locuções 137747 299896
Palavras gráficas 9232547 9232547
Palavras simples 8568911 8568911
Palavras 8945768 9232547

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1709467 19,95%
Verbos V.* 1562864 18,24%
Adjectivos ADJ.* 527421 6,16%
Pronomes pessoais .*PERS.* 452548 5,28%
Preposições PRP.* 1333648 15,56%
Conjunções K.* 470413 5,49%
Advérbios ADV.* 583049 6,80%
Determinantes .*DET.* 1582002 18,46%
Especificadores .*SPEC.* 224256 2,62%
Numerais NUM.* 68110 0,79%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 25 de Março de 2026
Perguntas, comentários e sugestões