Projecto AC/DC: Anotação dos corpos

Projecto AC/DC, Linguateca


Esta página pretende documentar cabalmente a informação adicionada a todos os corpos, explicando as opções tomadas na sua codificação. Para a utilização do sistema de processamento de corpos subjacente, o IMS Open CWB (tutorial), com exemplos pormenorizados de como os corpos anotados podem ser inquiridos e algumas procuras pertinentes, consulte-se a página de exemplos.

A anotação dos corpos é feita automaticamente pelo PALAVRAS, um analisador sintáctico automático para o português desenvolvido por Eckhard Bick. Para a compreensão dos fundamentos linguísticos deste sistema, a referência fundamental é Bick 2000. Veja-se também

Sobre o processo de anotação que resulta no formato usado no AC/DC, consultar a descrição do processo de anotação abaixo.

Depois os corpos são passados por um anotador semântico (de momento em duas fases) que coloca informação no atributo sema e, em alguns casos, no atributo grupo.


Informação de base

Muito resumidamente, o PALAVRAS, o analisador sintáctico automático utilizado no projecto AC/DC, atribui, a cada unidade do corpo, o seu lema ("base form"), a sua categoria gramatical, características morfológicas (associadas à palavra no dicionário), e a sua função sintáctica, que codificámos, respectivamente, nos atributos lema, pos, temcagr, pessnum e gen e func. Além disso, o analisador tenta identificar, através de heurísticas morfológicas, palavras não constantes do dicionário, e que codificamos através do atributo deriv. Alguns exemplos simples do uso destes atributos podem ser vistos aqui.

De uma forma mais completa, documentamos em seguida a procura de informação morfossintáctica constante dos atributos pos, temcagr, pessnum, gen e func, assim como o conteúdo dos atributos lema e deriv.

Informação presente no atributo pos

O atributo pos (do inglês "part of speech") contém a classe gramatical produzida pelo analisador sintáctico PALAVRAS de Eckhard Bick (Word class tags, http://visl.sdu.dk/visl/pt/portsymbol.html#morftags), além de um conjunto de outras especificações que poderíamos chamar indicações de subclasse, que podem ser consultadas em http://visl.sdu.dk/visl/pt/portsymbol.html#sectags.

A classe gramatical e as indicações de subclasse podem ter os seguintes valores (todos atribuídos pelo PALAVRAS):

NomeClasse gramaticalIndicações de subclasse
NSubstantivoprop
PROPNome própriokc (nomes próprios que incluem o caracter &)
SPECEspecificador (pronome ou adjectivo)rel, interr, dem, quant, diff
DETDeterminante (artigo, pronome ou adjectivo)artd, arti, quant, dem, poss, diff, rel, ident, interr
PERSPronome pessoalrefl, obj, coll, reci
ADJadjectivoNUMord, prop, KOMP, n, mente
ADVadvérbiorel, quant, kc, ks, prp, interr, co-vfin, prop, dem, co-fmc, parkc-2*
Vverbon, prop, fmc, quant
NUMnumeralcard, prop
KSconjunção subordinativa
KCconjunção coordenativaco-fmc, co-vfin, co-inf, co-pcv, co-prparg, co-ger, co-advl, co-acc, co-sc, co-pred, co-app, co-subj, co-postnom, parkc-1*, parkc-2*
PRPpreposição
INinterjeição
ECprefixo
* parkc corresponde a pares de conjunções (tais como ou... ou, ou nem... nem) em que a primeira é marcada 1 e a segunda 2, ou a pares de advérbios (tanto ... como, tal qual como, ) em que apenas o segundo é marcado parkc-2.

O projecto AC/DC junta a informação primária e a secundária (por esta ordem) por meio de um caracter de sublinhado (ou mais do que um, se tal for o caso). Exemplos:

Informação morfológica presente no atributos temcagr, pessnum e gen

A informação morfológica produzida pelo analisador sintáctico PALAVRAS está descrita no seguinte URL: http://visl.sdu.dk/visl/pt/portsymbol.html#morftags (sob a rubrica "inflection tags").

Na versão que utilizamos para o projecto AC/DC, o analisador tenta propagar essa informação a cada terminal, donde, por exemplo, se a expressão os turistas foi reconhecida como sintagma nominal, "turistas" será classificado como M e não M/F como vem do léxico.

As classes sem flexão têm 0 (zero) como valor dos atributos morfológicos.

O atributo temcagr: tempo verbal e/ou caso pronominal

Este atributo contém o tempo e modo para verbos (tem), o caso para pronomes (ca) e o grau (gr).

Quando indica os tempos, tem como possíveis valores
PR_INDpresente do indicativo
INF infinitivo
GERgerúndio
IMPF_IND imperfeito do indicativo
PCP particípio passado
IMPF_SUBJimperfeito do conjuntivo
FUT_INDfuturo do indicativo
PR_SUBJpresente do conjuntivo
FUT_SUBJfuturo do conjuntivo
FUT_INDfuturo do indicativo
CONDcondicional
MQP_INDmais que perfeito simples
PS_INDperfeito do indicativo
PS/MQP_INDperfeito ou mais que perfeito
IMPimperativo

No caso dos tempos compostos, ou seja, sequências de formas verbais que tenham pelo menos um auxiliar e um verbo principal não finito (IMV - infinite main verb), para facilidade de pesquisa adicionou-se -- automaticamente -- os seguintes marcadores de tempo:
COMPindicação de que o tempo é composto (com o auxiliar ter, ou é passivo)
PPCpretérito perfeito composto
MQPmais que perfeito (composto)
PASSIVApassiva
PROGprogressiva
FUTPERfuturo perifrástico com ir
FUTHAVERfuturo perifrástico com haver

Quando indica os casos (dos pronomes pessoais), tem os possíveis valores:
NOMnominativo
ACCacusativo
DATdativo
PIVobjeto de preposição
ACC/DATou acusativo ou dativo: me, te, nos, vos, se
NOM/PIVou nominativo ou objeto de preposição: ele, ela, eles, elas, nós, vós

Por enquanto, não contém informação de grau, que seria COMP (comparativo), SUPR (superlativo relativo), SUPA (superlativo absoluto), DIM (diminutivo) e AUM (aumentativo). Só em alguns casos (relativos a entidades anotadas semanticamente) existe DIM e AUM.

O atributo pessnum: pessoa e/ou número

Este atributo indica o número: S, P ou S/P para todas as categorias gramaticais com essa informação, excepto para verbos e pronomes pessoais, para os quais indica a pessoa: 1S, 1P, 2S, 2P, 3S, 3P, 1/3S, 0/1/3S.

O atributo gen: género

Este atributo apenas pode ter os valores M, F ou M/F (indeterminado).

Exemplos de codificação de atributos morfológicos

Teremos, pois, classificações como

formatemcagrpessnumgencomentário
classes 0 P F feminino plural
atraído PCPS Mparticípio passado masculino singular
fazem PR_IND3P0presente do indicativo, terceira pessoa do plural
IMP2S0 imperativo, segunda pessoa do singular
reagirias COND2S0 condicional, segunda pessoa do singular
as ACC3PFfeminino, terceira pessoa do plural, acusativo
fazeres INF2S0infinitivo pessoal, segunda pessoa do singular
sonhando GER 30gerúndio
atrapalhar INF 30infinitivo

Por uma opção condicionada por questões técnicas, e como já referido acima, temos como unidade o verbo seguido de clíticos, cujos valores são concatenados depois do sinal "+". Alguns exemplos do valor dos vários atributos morfológicos nesses casos encontram-se em Tratamento de contracções e de verbos com clíticos, abaixo. Para exemplos de procuras especializadas sobre morfologia, consulte-se mais uma vez a página dos exemplos.

Informação sintáctica presente no atributo func

A informação sintáctica produzida pelo analisador PALAVRAS de Eckhard Bick encontra-se descrita em http://visl.sdu.dk/visl/pt/portsymbol.html#syntags. (Note-se que o caracter @, indicando que a informação é de carácter sintáctico, foi consistentemente retirado do valor do atributo func.)

A informação produzida pelo PALAVRAS e retida no AC/DC pode ser dividida em vários categorias:

Para exemplos de procuras especializadas sobre a função sintáctica, consulte-se mais uma vez a página dos exemplos.

Informação presente no atributo lema

Este atributo corresponde ao que Eckhard Bick chama a forma base, e contém:

Informação semântica presente nos atributos sema e grupo

Informação presente no atributo sema

O atributo sema identifica o campo semântico a que a unidade em causa pertence. Os campos por agora marcados são: cor, roupa, corpo, emoções (emo), família, saúde e lugar. Em cada campo semântico existem vários subtipos associados, identificados por dois pontos seguidos de uma nova identificação, tal como cor:raça, roupa:original ou corpo:centralidade. A documentação mais ou menos extensiva de tal prática encontra-se respetivamente no Arco-íris, no Guarda-fatos, no Esqueleto, no Emocionário, em Saúde, em Família e em Viagem.

É importante referir que uma palavra pertencer a um grupo semântico não implica que a frase em que ela está inserida exprima essa informação. Assim, a frase Eu não tenho medo! embora contenha uma palavra do campo emo:medo não pode ser considerada como denotando medo. Por outro lado, a frase ela não aprendeu isso de cor não inclui qualquer elemento do campo semântico cor. De facto, essa frase exemplifica a necessidade da anotação semântica, visto que a procura pela palavra (ou lema) cor produziria resultados errados devido à homonímia.

Informação presente no atributo grupo

No caso dos campos semânticos de cor e roupa (contendo portanto sema igual a cor ou igual a roupa), anotámos também outra informação que nos pareceu pertinente, no atributo grupo, que nos permite agrupar vários lemas diferentes sob uma mesma designação. No caso da cor, uma cor básica, no caso da roupa, uma função, essencialmente e simplificando, em termos de parte do corpo coberta, em termos de que sujeitos vestidos (mulheres, homens ou crianças) e em termos de período de tempo (noite/dia, estação).

Mais uma vez documentação sistemática encontra-se no Arco-íris e no Guarda-fatos.

Mais do que uma análise

É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.

Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:

  1. Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
  2. Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
  3. Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.

Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:

É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):

Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.

Tratamento de contracções e de verbos com clíticos

Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpo -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)

Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpos do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.

Alguns exemplos:
wordlemapostemcagrpessnumgenfunc
nestas em+este PRP+DET_dem 0PF A<ADVS+>N
pela por+a PRP+DET_artd 0SF A<PASS+>N
àquela a+aquele PRP+DET_dem 0SF <ADVL+>N
connosco com+nós PRP+PERS PIV1PM/F <SC_<ADVL+P<
fá-lo-iam fazer+lo V_fmc+PERS COND+ACC3P+3S0+M FMV+<ACC
retirar-lhos retirar+lhe&lhes+eles V+PERS+PERS INF+DAT+ACC3+3S/P+3P0+M/F+M IMV+<DAT+ACC>
transmite-astransmitir+elasV_fmc+PERS PR_IND+ACC3S+3PF
estragá-loestragar+eleV+PERSFUT_IND+ACC3S+3SM
juntar-se-iamjuntar+seV_fmc+PERS_refl_coll* COND+ACC3P+3PM/F
lhaslhe&lhes+elas PERS+PERSDAT+ACC3S/P+3PM/F+F
* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam

Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.

Tratamento de expressões com várias palavras

O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade. O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.

Podemos considerar três casos distintos de expressões com várias palavras:

Nomes próprios

Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:

Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.

Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpos:

Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.

Quanto à questão da distribuição, e devido à forma como codificámos os corpos, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:

Expressões com várias palavras que não são nomes próprios

Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido). De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.

Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.

a) Expressões com várias palavras com função gramatical

Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.

Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.

Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.

Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.

De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpos, existem "expressões com várias palavras" de comprimento um.

b) Expressões com várias palavras correspondendo a categorias lexicais

Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).

Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.

Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)

Palavras compostas com hífen

Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].

Processo de anotação

O processo mínimo que leva à actualização das versões dos corpos anotados é o seguinte:
  1. Criação do corpo não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
  2. Análise do corpo pelo PALAVRAS
  3. (OPCIONAL) Detecção de expressões polilexicais constantes desse corpo que ainda não estejam presentes no dicionário polilexical
  4. (OPCIONAL) Actualização do dicionário polilexical
  5. Adição de informação semântica e sintática através de regras CG
  6. Anotação semântica através do corte-e-costura
  7. Adição de informação semântica (campos sinonimo, antonimo e hiperonimo) a partir do PAPEL e do TEP
  8. Criação da respetiva versão anotada e sua disponibilização a partir do projecto AC/DC
Alguns comentários a este processo e ao seu resultado são necessários aqui:
  1. De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detetados nos vários corpos, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpos anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais atualizada do dicionário, faz com que alguns corpos estejam mais "bem processados" do que outros. Esta questão tem de ser melhor resolvida no futuro, visto que o dicionário polilexical está muito desatualizado.)
  2. Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpos. Por isso o nosso cuidado em indicar a versão do corpo, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpo (anotado), é registada a data da criação do corpo não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpo a que se dá acesso, além de uma numeração de versões única.
  3. O facto de usarmos vários tipos de sistemas para a anotação semântica (um para a cor e roupa, outros para as emoções) tem a sua origem em razões históricas, e é possível que seja alterado no futuro.

Contabilização dos corpos com base na sua anotação

De forma ao volume da informação associado aos corpos ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpos), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpo, se encontram disponíveis na página de Corpos.

Mais do que uma análise

É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.

Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:

  1. Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
  2. Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
  3. Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.

Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:

É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):

Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.

Tratamento de contracções e de verbos com clíticos

Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpo -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)

Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpos do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.

Alguns exemplos:
wordlemapostemcagrpessnumgenfunc
nestas em+este PRP+DET_dem 0PF A<ADVS+>N
pela por+a PRP+DET_artd 0SF A<PASS+>N
àquela a+aquele PRP+DET_dem 0SF <ADVL+>N
connosco com+nós PRP+PERS PIV1PM/F <SC_<ADVL+P<
fá-lo-iam fazer+lo V_fmc+PERS COND+ACC3P+3S0+M FMV+<ACC
retirar-lhos retirar+lhe&lhes+eles V+PERS+PERS INF+DAT+ACC3+3S/P+3P0+M/F+M IMV+<DAT+ACC>
transmite-astransmitir+elasV_fmc+PERS PR_IND+ACC3S+3PF
estragá-loestragar+eleV+PERSFUT_IND+ACC3S+3SM
juntar-se-iamjuntar+seV_fmc+PERS_refl_coll* COND+ACC3P+3PM/F
lhaslhe&lhes+elas PERS+PERSDAT+ACC3S/P+3PM/F+F
* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam

Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.

Tratamento de expressões com várias palavras

O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade. O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.

Podemos considerar três casos distintos de expressões com várias palavras:

Nomes próprios

Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:

Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.

Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpos:

Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.

Quanto à questão da distribuição, e devido à forma como codificámos os corpos, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:

Expressões com várias palavras que não são nomes próprios

Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido). De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.

Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.

a) Expressões com várias palavras com função gramatical

Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.

Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.

Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.

Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.

De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpos, existem "expressões com várias palavras" de comprimento um.

b) Expressões com várias palavras correspondendo a categorias lexicais

Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).

Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.

Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)

Palavras compostas com hífen

Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].

Processo de anotação

O processo mínimo que leva à actualização das versões dos corpos anotados é o seguinte:
  1. Criação do corpo não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
  2. Análise do corpo pelo PALAVRAS
  3. (OPCIONAL) Detecção de expressões polilexicais constantes desse corpo que ainda não estejam presentes no dicionário polilexical
  4. (OPCIONAL) Actualização do dicionário polilexical
  5. Adição de informação semântica e sintática através de regras CG
  6. Anotação semântica através do corte-e-costura
  7. Adição de informação semântica (campos sinonimo, antonimo e hiperonimo) a partir do PAPEL e do TEP
  8. Criação da respetiva versão anotada e sua disponibilização a partir do projecto AC/DC
Alguns comentários a este processo e ao seu resultado são necessários aqui:
  1. De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detetados nos vários corpos, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpos anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais atualizada do dicionário, faz com que alguns corpos estejam mais "bem processados" do que outros. Esta questão tem de ser melhor resolvida no futuro, visto que o dicionário polilexical está muito desatualizado.)
  2. Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpos. Por isso o nosso cuidado em indicar a versão do corpo, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpo (anotado), é registada a data da criação do corpo não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpo a que se dá acesso, além de uma numeração de versões única.
  3. O facto de usarmos vários tipos de sistemas para a anotação semântica (um para a cor e roupa, outros para as emoções) tem a sua origem em razões históricas, e é possível que seja alterado no futuro.

Contabilização dos corpos com base na sua anotação

De forma ao volume da informação associado aos corpos ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpos), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpo, se encontram disponíveis na página de Corpos.

Anotação semântica

A partir de meados da década de 2000, o AC/DC começou a anotar também algumas características semânticas, indicadas nos atributo sema e grupo, já mencionados acima. A grande diferença em relação à anotação sintática é que também começámos a rever essa anotação, tentando que ficasse 100% correta. Isso provoca algum desfasamento entre os vários corpos.

Informação presente no atributo grupo

No caso dos campos semânticos de cor, roupa e corpo(contendo portanto sema igual a "cor" ou igual a "roupa", ou igual a "corpo"), anotámos também outra informação que nos pareceu pertinente, no atributo grupo, que nos permite agrupar vários lemas diferentes sob uma mesma designação. No caso da cor, uma cor básica, no caso da roupa, uma função, essencialmente e simplificando, em termos de parte do corpo coberta, em termos de que sujeitos vestidos (mulheres, homens ou crianças) e em termos de período de tempo (noite/dia, estação).

Mais uma vez documentação sistemática encontra-se no Arco-íris, no Guarda-fatos, e no Esqueleto. Nos casos em que não marcamos grupo, os agrupamentos são feitos através da forma sema:subgrupo, no atributo sema.

Mais informações

Além da página de Exemplos, já mencionada, refira-se:

Para informação sobre outros projectos que podem, de certa forma, ser compreendidos como extensões ou variações do projecto AC/DC, integrando a revisão humana do material anotado automaticamente pelo PALAVRAS, veja-se:

Todos têm muito material publicado sobre as opções tomadas e os eventuais problemas da anotação automática.

[ Acesso | Atomização | Corpos | Exemplos | Agradecimentos ]


Diana Santos
Última atualização: 31 de agosto de 2020.
Perguntas, comentários e sugestões