Projeto AC/DC: corpo DiaCLAV

AC/DC : Linguateca
O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por identificador do texto (id)
Distribuição por fonte (fonte)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Distribuição de papéis temáticos (papel)
Distribuição das dependências (dependente_de)
Distribuição de molduras (frames) (moldura)
Opções
Resultados por ordem alfabética (só distribuições)
Resultados em formato separado por ponto e vírgula
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Fazer nuvem com limite de
Amostra aleatória de linhas.

Tipo Jornalístico (regional)
Variante(s) PT
Tamanho (unidades) 7.9 milhões
Tamanho (palavras) 6.7 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Ciência Viva Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil CORDIAL-SIN CorTrad, lado português DHBB DiaCLAV Diáspora TL-PT DisPR ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago LeMe Literateca Marielle, presente! Moçambula Museu da Pessoa Natura/Minho NOBRE OBras PANTERA, lado português P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra "Arganil"ArganilConcordância
frases contendo a palavra "Mealhada" <u> []* "Mealhada" []* <u>Concordância
as palavras "Figueira da Foz" excepto no Diário de Coimbra [word="Figueira" & fonte!="DC"] "da" "Foz" Condordância
formas da palavra "mosteiro" no Diário de Leiria [lema="mosteiro" & fonte="DL"]Concordância
distribuição das palavras "União de Leiria" por fonte "União" "de" "Leiria" Distribuição por fonte

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 27 de Julho de 2024
Perguntas, comentários e sugestões