Acesso a corpos de português: Projecto AC/DC: corpo CORDIAL-SIN

CORDIAL-SIN : AC/DC : Linguateca
O Corpus Dialetal para o Estudo da Sintaxe/Syntax-oriented Corpus of Portuguese Dialects (CORDIAL-SIN) é um corpus anotado (POS-tags e treebank) representativo dos dialetos do português europeu (continentais e insulares). É constituído por transcrições (600.000 palavras) de discurso oral (livre e semidirigido) extraído de gravações do Arquivo Sonoro do Grupo de Dialetologia e Diacronia do Centro de Linguística da Universidade de Lisboa (CLUL), obtidas em 42 pontos do território continental e arquipélagos dos Açores e Madeira. O corpus foi construído no âmbito de projetos financiados pela FCT e deve ser referido como Martins, Ana Maria (coord.). [2000- ]. CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe / Syntax-oriented Corpus of Portuguese Dialects. CC licensed: CORDIAL-SIN by Centro de Linguística da Universidade de Lisboa. ISLRN: 144-935-399-699-8. URL: http://clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects.

Mais informação sobre o corpus em: http://www.clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects

E acesso ao CORDIAL-SIN-TreeBank (ISLRN: 337-389-991-117-2) em: acesso

No AC/DC por enquanto apenas usamos o texto editado, mas é possível que incluamos a anotação numa segunda fase.

Estrutura do corpo

O corpo contém as etiquetas entrevista (documento), fala (fala de um interlocutor), personagem (identificação do interlocutor), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que excerto cada palavra pertence (ver lista das fontes).

Aqui listamos os metadados associados a cada fonte (excerto de entrevista) do CORDIAL-SIN: Metadados CORDIAL-SIN

E aqui a informação genérica relacionada com os informantes: Informantes CORDIAL-SIN

Versão do corpo

Corpo CORDIAL-SIN, versão texto de janeiro de 2021, anotado a 6 de julho de 2024, v. 3.1

Excerto do corpo


<entrevista VPA01>
<p>
<fala INF>
<personagem> INF </personagem>
<s> Nós dantes, nestas redes, era raro o dia que não se pegava um, dois lavagantes ou três . </s>
<s> Agora não há . </s>
<s> Não há . </s>
<s> Vai acontecer como à lagosta, aqui ao norte . </s>
</fala>
</p>
<p>
<fala INQ1>
<personagem> INQ1 </personagem>
<s> Desaparece tudo... </s>
</fala>
</p>

Dados quantitativos

Corpo CORDIAL-SIN Número de formasNúmero de tipos
Unidades 149473629803
Total de palavras 85706629657
Palavras em minúscula 61284819565
Palavras com inicial maiúscula1024554952
Palavras todas em maiúsculas 1965920
Números 13153
Palavras com números2937110
Palavras mistas676422
Pontuação111902145

Número de unidades estruturais

Atributo Número
p 48938
s 98009
entrevista 2058
fala 48938
personagem 48938
mwe 15919

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 56117 58541
Locuções 15919 32775
Palavras gráficas 857066 857066
Palavras simples 765750 765750
Palavras 837786 857066

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 130789 17,08%
Verbos V.* 164704 21,51%
Adjectivos ADJ.* 18896 2,47%
Pronomes pessoais .*PERS.* 39554 5,17%
Preposições PRP.* 83875 10,95%
Conjunções K.* 50799 6,63%
Advérbios ADV.* 110669 14,45%
Determinantes .*DET.* 121330 15,84%
Especificadores .*SPEC.* 27798 3,63%
Numerais NUM.* 9717 1,27%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões