Yes, user!: um corpus de páginas da web em português classificadas segundo as necessidades dos usuários a que correspondem

Recurso disponibilizado pela Linguateca


Este corpus foi criado no âmbito do trabalho de doutorado de Rachel Aires,

Uso de marcadores estilísticos para a busca na Web em português. ICMC, Universidade de São Paulo, Brasil. Data de entrega: agosto de 2005.

e descrito, entre outros, no artigo

Rachel Aires, Diana Santos & Sandra Aluísio. ""Yes, user!": compiling a corpus according to what the user wants". In Corpus Linguistics 2005 (Birmingham, 14-17 July 2005).

São 1703 textos extraídos da Web brasileira, totalizando um pouco mais de um milhão e oitocentas mil palavras. Esses textos foram classificados conforme as necessidades do usuário que pudessem satisfazer, de uma lista de sete necessidades (a sexta, demasiado geral, não foi considerada), ou nenhuma destas (a categoria "outros"):

    Necessidade 1 * DEFINIÇÕES OU EXPLICAÇÕES DE COMO OU PORQUE ALGO ACONTECE
    Exemplos de consultas que se quer ver respondidas: o que é a aurora boreal; como é formado um arco-íris; porque o sabão limpa, porque um avião a jato deixa marcas no céu, de onde vem o som de um trovão, como funciona o eco, como é formada a neve.

    Necessidade 2 * EXPLICAÇÕES SOBRE COMO FAZER ALGO OU COMO ALGO É FEITO
    Exemplos de consultas que se quer ver respondidas: instruções de como instalar linux em seu computador, receita de um bolo, como é feito um exame ginecológico, como é feito o azeite de oliva.

    Necessidade 3 * UM APANHADO DE INFORMAÇÕES SOBRE UM DETERMINADO ASSUNTO
    Exemplos de consultas que se quer ver respondidas: um panorama sobre a literatura americana no século XX, um pouco da história do frevo.

    Necessidade 4 * NOTÍCIAS
    Exemplos de consultas que se quer ver respondidas: acompanhar as últimas notícias sobre investigações sobre corrupção.

    Necessidade 5 * INFORMAÇÕES SOBRE UMA PESSOA OU EMPRESA/INSTITUIÇÃO/ORGANIZAÇÃO
    Exemplos de consultas que se quer ver respondidas: encontrar uma página pessoal, páginas com informações para contato (com currículo, telefone, endereço), uma página que apresente uma determinada empresa.

    Necessidade 7 * SERVIÇOS ONLINE
    Exemplos de consultas que se quer ver respondidas: lojas virtuais, serviço dos correios para acompanhamento de envio de encomendas.
    Outros: blogues, piadas, publicidade...

Os textos encontram-se estruturados da seguinte forma: um diretório por necessidade e estão acessíveis em YesUser.tar.gz

Estão também disponíveis:

    - o corpus Yes,User! analisado pelo parser PALAVRAS que está acessível em YesUserAnot.tar.gz

    - um conjunto de sete corpora binários com cerca de 200 páginas cada, criados por usuários  para testar a opção de classificação personalizada apresentada no trabalho de doutorado de Rachel Aires. Os corpora estão acessíveis em YesUserPersonalizados.zip.

Para mais informações, contatar Rachel Aires.


Última atualização: 22 de Maio de 2006.
Perguntas, comentários e sugestões