Este corpus foi criado no âmbito do trabalho de doutorado de Rachel Aires,
Uso de marcadores estilísticos para a busca na Web em português. ICMC, Universidade de São Paulo, Brasil. Data de entrega: agosto de 2005.
e descrito, entre outros, no artigo
São 1703 textos extraídos da Web brasileira, totalizando um pouco mais de um milhão e oitocentas mil palavras. Esses textos foram classificados conforme as necessidades do usuário que pudessem satisfazer, de uma lista de sete necessidades (a sexta, demasiado geral, não foi considerada), ou nenhuma destas (a categoria "outros"):
Necessidade 2 * EXPLICAÇÕES SOBRE COMO FAZER ALGO OU COMO ALGO É FEITO
Exemplos de consultas que se quer ver respondidas: instruções de como instalar linux em seu computador, receita de um bolo, como é feito um exame ginecológico, como é feito o azeite de oliva.
Necessidade 3 * UM APANHADO DE INFORMAÇÕES SOBRE UM DETERMINADO ASSUNTO
Exemplos de consultas que se quer ver respondidas: um panorama sobre a literatura americana no século XX, um pouco da história do frevo.
Necessidade 4 * NOTÍCIAS
Exemplos de consultas que se quer ver respondidas: acompanhar as últimas notícias sobre investigações sobre corrupção.
Necessidade 5 * INFORMAÇÕES SOBRE UMA PESSOA OU EMPRESA/INSTITUIÇÃO/ORGANIZAÇÃO
Exemplos de consultas que se quer ver respondidas: encontrar uma página pessoal, páginas com informações para contato (com currículo, telefone, endereço), uma página que apresente uma determinada empresa.
Necessidade 7 * SERVIÇOS ONLINE
Exemplos de consultas que se quer ver respondidas: lojas virtuais, serviço dos correios para acompanhamento de envio de encomendas.
Outros: blogues, piadas, publicidade...
Estão também disponíveis:
- o corpus Yes,User! analisado pelo parser PALAVRAS que está acessível em YesUserAnot.tar.gz
- um conjunto de sete corpora binários com cerca de 200 páginas cada, criados por usuários para testar a opção de classificação personalizada apresentada no trabalho de doutorado de Rachel Aires. Os corpora estão acessíveis em YesUserPersonalizados.zip.