Opções tomadas relativamente à anotação da colecção dourada do Segundo HAREM

HAREM, Linguateca
Paula Carvalho, Cláudia Freitas, Diana Santos
Versão 1.0
Na organização de uma avaliação conjunta que pressuponha a criação de um recurso dourado, pensamos que é importante distinguir entre as directivas preliminares e a documentação do recurso.

Parece-nos que uma coisa são as directivas, que indicam qual a abordagem e sentido das várias anotações propostas, com o nível de granularidade que nos é permitido através de estudos iniciais e da consulta à comunidade, e que pretende dar a todos os participantes a mesma base para desenharem e desenvolverem os seus sistemas.

Outra, bem diferente, são os critérios minuciosos seguidos na tarefa hercúlea de aplicar da forma mais honesta possível esse (ou outro) conjunto de directivas a textos que não foram previamente considerados, e de concordar na interpretação dessas mesmas directivas genéricas a casos raros e particulares, e que são quase únicos.

Após esse exercício na criação e validação sistemática da colecção dourada do Segundo HAREM, tentámos cristalizar aqui as opções tomadas e que se referem a decisões que não estavam (nem podiam estar) cobertas, a esse nível de pormenor, pelas directivas, visto que estão intimamente associadas aos próprios textos escolhidos e que apenas podiam ser discutidas com referência aos mesmos.

Aqui deixamos o testemunho de que essa discussão foi acesa, longa, e que nos permitiu as conclusões que fixamos aqui, para que possam servir para a análise futura do significado dos textos em português, quer com referência à colecção dourada específica, quer para análise semântica geral da nossa língua.

Este texto encontra-se ainda em preparação, como o indica o número de versão no início.


Critérios de delimitação de EM

Critérios de ALT

Apresentam-se primeiro as regras sistemáticas usadas na anotação dos ALT, por CATEGoria. As regras mais finas encontram-se a seguir.
  1. PESSOA
    * <PESSOA> | < PESSOA> de <LOCAL>
          <PESSOA INDIVIDUAL> | <PESSOA INDIVIDUAL> de <LOCAL>
          <PESSOA CARGO> | <PESSOA CARGO> de <LOCAL>
          <PESSOA GRUPOCARGO> | <PESSOA GRUPOCARGO> de <LOCAL>
          <PESSOA GRUPOIND> | <PESSOA GRUPOIND> de <LOCAL>
    * <PESSOA> |< PESSOA> de <ORGANIZACAO>
          <PESSOA CARGO> | <PESSOA CARGO> de <ORGANIZACAO>
          <PESSOA GRUPOMEMBRO> | <PESSOA GRUPOMEMBRO> de <ORGANIZACAO>
    * <PESSOA> |< PESSOA> de <ORGANIZACAO|LOCAL>
          <PESSOA  CARGO>| <PESSOA CARGO> de <ORGANIZACAO|LOCAL>
          <PESSOA  GRUPOCARGO>| <PESSOA GRUPOCARGO> de <ORGANIZACAO|LOCAL>
    * <PESSOA> |< PESSOA> de <PESSOA>
          <PESSOA GRUPOMEMBRO> | <PESSOA GRUPOMEMBRO> de <PESSOA>
    
  2. ORGANIZACAO
    * <ORGANIZACAO>| <ORGANIZACAO> de <ORGANIZACAO>
    
    * <ORGANIZACAO>| <ORGANIZACAO> de <LOCAL>
    
  3. LOCAL
    * <LOCAL>| <LOCAL> de <LOCAL>
       <LOCAL HUMANO CONSTRUCAO> | <LOCAL HUMANO CONSTRUCAO> de <LOCAL> 
       <LOCAL HUMANO REGIAO> | <LOCAL HUMANO REGIAO> de <LOCAL>
          <LOCAL HUMANO OUTRO>| <LOCAL HUMANO OUTRO> de <LOCAL>
    * <LOCAL>| <LOCAL> de <ORGANIZACAO>
       <LOCAL HUMANO CONSTRUCAO> | <LOCAL HUMANO CONSTRUCAO> de <ORGANIZACAO>
    
  4. OBRA
    *  <OBRA> | <OBRA> de <PESSOA>
    
    * <OBRA ARTE|LOCAL> | <OBRA ARTE|LOCAL> de <LOCAL>
    
  5. ACONTECIMENTO
    * <ACONTECIMENTO> | <ACONTECIMENTO> de <ORGANIZACAO>
    
    * <ACONTECIMENTO> | <ACONTECIMENTO> de <LOCAL>
    
    * <ACONTECIMENTO> | <ACONTECIMENTO> de <TEMPO>
    
  6. ABSTRACCAO
    <ABSTRACCAO DISCIPLINA> | <ABSTRACCAO DISCIPLINA> de <LOCAL>
    
    * <ABSTRACCAO DISCIPLINA> | <ABSTRACCAO DISCIPLINA> de <PESSOA>
    
  7. COISA
    * <COISA CLASSE> | <COISA CLASSE> de <ORGANIZACAO>
    
Regras que refinam e por isso contradizem estas regras gerais: Note-se que as regras referentes à justaposição de várias palavras encontram-se na secção correspondente, assim como as as regras relativas a ALT com nada encontram-se descritas na secção associada à delimitação de EM.

Decisões sobre o que marcámos como omitido


Decisões sobre domínios específicos

Critérios para anotar as perguntas

Aqui referimo-nos às entidades alvo de pergunta, não às EM que fazem parte da pergunta mas que são obviamente conhecidas pelo falante (sem as quais a pergunta não faria sentido).

No caso de perguntas sem contexto: tentamos reduzir o espaço de alternativas usando o contexto linguístico (forma da pergunta, forma da EM, conteúdo da pergunta, conteúdo da EM).

No caso de perguntas com contexto: fazemos o mesmo, mas ajudado pelas outras perguntas associadas ao mesmo tópico.

É importante salientar que nunca usámos o conhecimento (proveniente da nossa cultura geral, ou da nossa tentativa de descobrir a resposta) sobre a própria EM, visto que estamos a tentar modelar a ignorância de quem pergunta (e assumimos que, se pergunta, é porque não sabe o que é). Estamos plenamente conscientes de que mesmo não sabendo, terá visto a denominação em algum contexto para ser levado a formular a pergunta, mas infelizmente não temos acesso ao dito.

Nos casos em que a pergunta não nos dá pista nenhuma, marcamos apenas como EM.

Nos casos em que sabemos/intuímos a categoria mas não podemos saber o TIPO (ou o SUBTIPO), deixamos vazio.

Em alguns casos, apenas um subconjunto (TIPO/SUBTIPO) de uma CATEGoria é possível. Nesse caso marcamo-lo (mas só a esse). Por exemplo, no caso particular das siglas, marcamos como nome possível de doença, de organização e de acontecimento (evento ou organizado), ou seja, o único tipo marcado é ESTADO (dentro de ABSTRACCAO).

Comunicação social

Foram consensuais -- após muita discussão -- os seguintes cinco casos distintos De notar, portanto, que embora possível, ao nível genérico da ontologia do Segundo HAREM, a sobreposição do domínio da comunicação social com OBRA REPRODUZIDA e com COISA MEMBROCLASSE (no sentido de uma edição do jornal genérico), optámos por este conjunto de decisões mais específicas -- e para nós mais correctas -- neste domínio.

Claro está que nos casos onde mais do que uma interpretação pode ser possível usámos a vagueza, entre estas ou entre estas e outras interpretações da EM. Por exemplo, uma lista de discussão que seja visto como um grupo de pessoas (vaga com PESSOA GRUPOIND), ou o tipo de notícias de um jornal visto como uma marca de qualidade ou falta dela (vaga com ABSTRACCAO IDEIA).

Além disso, os muitos casos em que não houve consenso mesmo depois do estabelecimento destas categorias foram OMITIDOs da avaliação.

Acontecimentos usados como TEMPO

O problema destes casos foi que correspondiam a casos em que nos parecia que o sentido era de TEMPO mas não estavam previstos nas directivas do TEMPO (donde não nos parecia muito aceitável adicionar tarde demais esta cláusula) -- só nos demos conta disso depois de termos consistentemente anotado como TEMPO na primeira versão da CD...

Por outro lado, iria flagrantemente contra a filosofia do HAREM se estivessem marcados como ACONTECIMENTO se estavam a indicar tempo. Por isso marcámos como OUTRO, em vez do talvez mais correcto CATEG="TEMPO" TIPO="OUTRO".


Questões de interacção com a morfologia e a sintaxe

Coordenação

Quando temos uma coordenação sintáctica, escolhemos anotar cada elemento separadamente, mas entrando em conta com o sentido mesmo que houvesse elisão do primeiro elemento, ou seja Presidente da CEE e do PE é anotado como duas EM, separadas por e, ambas do mesmo tipo (neste caso PESSOA CARGO).

Contudo, quando a coordenação é semântica no sentido se se referir a uma entidade só, marcamos apenas uma EM, tal como "Eu era fã da Lisette e Caroline".

Nos casos em que o contexto não nos permite decidir, usamos ALT para ambas as interpretações possíveis.

Palavras compostas por justaposição

  • Prefixos

    Considerámos que a anotação incluiria sempre prefixos, mesmo que estes não tivessem sido listados na lista de minúsculas. Assim, el-Rei ou ex-Presidente funcionam tal qual como se estivessem grafados como El-Rei ou Ex-Presidente.

  • Acontecimentos produtivos baseados na justposição de nomes

    Tal como no Primeiro HAREM, marcámos jogos tais como Benfica-Sporting com ALT com ambas as possibilidades, assim como trajectos Paris-Dakar


    Omissões / problemas na colecção dourada final

    Mantemos uma lista de eventuais problemas descobertos após a publicação da LÂMPADA aqui. Se encontrar problemas avise-nos, que os juntaremos à lista.


    Agradecimentos

    Agradecemos ao Hugo Oliveira e à Cristina Mota muitas opiniões sobre a anotação, assim como ao Jorge Baptista e à Caroline Hagège a discussão aturada e correcção de muitos casos ainda incorrectos na primeira versão da colecção dourada que pusemos disponível. A responsabilidade última das anotações contudo pertenec-nos a nós.


    Última actualização: 11 de Março de 2009.