Acesso a corpos de português: Projecto AC/DC: corpo FrasesPP

FrasesPP : AC/DC : Linguateca
O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

Marcadores estruturais: s, p.

Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

Versão do corpo

Corpo FrasesPP, criado a 22 de Junho de 2013, anotado a 6 de julho de 2024, v. 10.1

Excerto do corpo


<p par=1>
<s>
O estudo dos sons elementares da língua e das suas combinações para form as palavras chama-se , em gramática , fonética ou fonologia .
</s>
</p>
<p par=2>
<s>
Os nomes que servem para designar particularmente uma determinada pessoa , coisa ou animal , chamam-se substantivos próprios .
</s>
</p>

Dados quantitativos

Corpo FRASESPP Número de formasNúmero de tipos
Unidades 200305104
Total de palavras 162665088
Palavras em minúscula 135054244
Palavras com inicial maiúscula1077567
Palavras todas em maiúsculas 96
Números 9548
Palavras com números44
Palavras mistas
Pontuação79616

Número de unidades estruturais

Atributo Número
p 594
s 594
mwe 296

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 256 409
Locuções 296 648
Palavras gráficas 16266 16266
Palavras simples 15209 15209
Palavras 15761 16266

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 3713 24,41%
Verbos V.* 2291 15,06%
Adjectivos ADJ.* 1288 8,47%
Pronomes pessoais .*PERS.* 405 2,66%
Preposições PRP.* 2862 18,82%
Conjunções K.* 787 5,17%
Advérbios ADV.* 921 6,06%
Determinantes .*DET.* 3109 20,44%
Especificadores .*SPEC.* 365 2,40%
Numerais NUM.* 195 1,28%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões