Projeto AC/DC: corpo DiaCLAV

AC/DC : Linguateca
O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por fonte (fonte)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Opções
Resultados por ordem alfabética (só distribuições)
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Amostra aleatória de linhas.

Tipo Jornalístico (regional)
Variante(s) PT
Tamanho (unidades) 7.7 milhões
Tamanho (palavras) 6.6 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil DiaCLAV Diáspora TL-PT ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago Moçambula Museu da Pessoa Natura/Minho OBras P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra "Arganil"ArganilConcordância
frases contendo a palavra "Mealhada" <u> []* "Mealhada" []* <u>Concordância
as palavras "Figueira da Foz" excepto no Diário de Coimbra [word="Figueira" & fonte!="DC"] "da" "Foz" Condordância
formas da palavra "mosteiro" no Diário de Leiria [lema="mosteiro" & fonte="DL"]Concordância
distribuição das palavras "União de Leiria" por fonte "União" "de" "Leiria" Distribuição por fonte

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 02 de Agosto de 2016
Perguntas, comentários e sugestões