Capítulo 7: adicionando a multidão digital à multidão humana

Patrick Meier (Ph.D.) é internacionalmente reconhecido como líder na aplicação de novas tecnologias para ajuda humanitária. Atualmente, ele é o diretor de inovação social do Instituto de Pesquisa em Computação da Fundação Qatar (QCRI, do inglês), onde desenvolve protótipos de Tecnologias Humanitárias da Próxima Geração. Antes de ingressar no QCRI, Patrick foi cofundador e codiretor do Programa de Mapeamento de Crises e Alertas Rápidos da HHI e atuou como diretor de mapeamento de crises em Ushahidi. Seu blog iRevolution já recebeu mais de 1 milhão de visitas. O Twitter de Patrick é: @patrickmeier.

Jornalistas investigativos e profissionais da área de direitos humanos têm usado há décadas uma combinação de estratégias para verificar informações em situações de emergência e notícias de última hora. Esse tipo de experiência é ainda mais valorizada com o crescimento do número de conteúdos gerados pelos usuários.

No entanto, muitos estão se voltando cada vez mais para a "computação avançada" para acelerar e possivelmente automatizar o processo de verificação. Tal como acontece com qualquer outra técnica, usar computação avançada para verificar o conteúdo de mídias sociais em tempo quase real traz tanto promessas quanto armadilhas.

A computação avançada consiste em dois elementos: computação de máquina e computação humana. A primeira utiliza técnicas de processamento de linguagem natural e aprendizado de máquina, enquanto a última se baseia em métodos de "crowdsourcing" e "microtasking".

Atualmente, a aplicação de computação avançada para verificar conteúdos gerados pelos usuários é limitada porque o campo de pesquisa ainda é novo e as plataformas e técnicas de verificação descritas abaixo ainda estão sendo desenvolvidas e testadas. Como resultado, ainda não se sabe exatamente quanto elas irão acrescentar ao processo de verificação, mas os avanços na tecnologia devem continuar trazendo novas maneiras de ajudar a automatizar os elementos do processo de verificação.

Estamos em um momento importante na aplicação de computação avançada para verificar o conteúdo gerado pelos usuários, pois estão sendo desenvolvidos três novos projetos nessa área. Este capítulo fornece uma visão geral deles e um background sobre a forma em que a computação humana e de máquina estão sendo usadas (e combinadas) no processo de verificação. Antes, deixe-me acrescentar um aviso: eu liderei os esforços de resposta humanitária digitais descritos abaixo para Haiti, Filipinas e Paquistão. Além disso, também estou envolvido no projeto Verily e com a criação do Credibility Plugin (Plugin de Credibilidade) para o Twitter, que também serão mencionados a seguir.

Computação humana

Na computação humana, também conhecida como "crowd computing", uma máquina terceiriza certas tarefas a uma ou várias pessoas. Posteriormente, ela coleta e analisa as tarefas processadas.

Um dos primeiros usos de computação humana em casos de emergência foi após o terremoto no Haiti, em 2010. A Ushahidi Inc. criou uma plataforma de computação humana online para gerar micro divisões na tradução de mensagens de texto urgentes em crioulo

haitiano para o inglês. Essas mensagens vinham de comunidades afetadas por desastres em Porto Príncipe e arredores. Em seguida, os textos traduzidos passavam por uma triagem e eram acrescentados ao Mapa de Crise no Haiti da Ushahidi. A tradução dos textos foi a primeira e única vez em que a Ushahidi usou uma plataforma de computação humana para administrar informações relacionadas a uma crise, mas o sucesso dessa técnica informática chamou atenção para o quão valiosa ela é em respostas a desastres.

Depois disso, a computação humana foi usada novamente em 2012, em resposta ao Tufão Pablo, nas Filipinas. A pedido das Nações Unidas, a Digital Humanitarian Network (DHN, ou Rede Humanitária Digital, em tradução livre) coletou e analisou todos os tweets postados durante as primeiras 48 horas depois que o tufão atingiu a terra. Mais especificamente, os voluntários da DHN foram convidados a identificar todas as imagens e vídeos postados no Twitter que revelavam danos causados pelos fortes ventos e chuva. Para realizar a operação, a DHN usou uma plataforma de microtasking livre e de código aberto, a CrowdCrafting, para marcar tweets e imagens individuais. Em seguida, os dados processados foram usados para criar um mapa com os danos decorrentes do desastre.

O sucesso da resposta da computação humana ao Tufão Pablo motivou o lançamento de uma nova plataforma de microtasking chamada MicroMappers. Desenvolvida com um software CrowdCrafting, a MicroMappers foi usada pela primeira vez em setembro de 2013 para atribuir "tags" a tweets e imagens postadas online depois do terremoto no Baluchistão. Essa operação foi realizada pela DHN em resposta a um pedido da ONU no Paquistão.

Em suma, a computação humana está começando a ganhar força na comunidade de ajuda humanitária, mas até agora ainda não tem sido usada para verificar o conteúdo de mídias sociais.

Plataforma Verily

A plataforma Verily, que estou ajudando a desenvolver, usa computação humana para fazer crowdsourcing rapidamente de indícios que corroboram ou descreditam informações postadas nas redes sociais. Esperamos que o Verily seja usado para ajudar a organizar relatos conflitantes sobre estragos que frequentemente surgem depois de um grande desastre. A plataforma também poderia ser usada para verificar imagens e vídeos.

O Verily foi inspirado no Red Balloon Challenge (Desafio do Balão Vermelho), lançado em 2009 pela Agência de Projetos de Pesquisa Avançada do Departamento de Defesa dos EUA (DARPA). O desafio requeria que participantes identificassem corretamente a localização de 10 balões meteorológicos vermelhos plantados nos

Estados Unidos. O time vencedor, do MIT, encontrou todos os balões em menos de nove horas sem se afastar dos seus computadores. Na verdade, eles recorreram às redes sociais - principalmente ao Twitter - para mobilizar o público. Depois do início da competição, a equipe anunciou que se ganhasse, em vez de ficar com o prêmio de 40 mil dólares ia compartilhá-lo com os membros do público que ajudaram na busca dos balões. Além disso, eles incentivaram as pessoas a convidar membros de suas redes sociais para se unir à busca, escrevendo: “estamos dando 2 mil dólares por balão para a primeira pessoa que nos enviar as coordenadas corretas, mas isso não é tudo - também vamos dar mil dólares à pessoa que a convidou. E vamos dar 500 dólares para quem convidou essa pessoa e 250 a quem convidou essa outra e assim por diante.

A plataforma Verily usa o mesmo mecanismo de incentivo sob a forma de pontos. Em vez de procurar balões por um país inteiro, no entanto, ela facilita a verificação dos relatos publicados em redes sociais durante os desastres de modo a cobrir uma área geográfica muito menor - normalmente uma cidade.

Pense no Verily como um mural do Pinterest com itens que consistem em perguntas do tipo "sim ou não". Por exemplo: "a ponte do Brooklyn foi bloqueada por causa do Furacão Sandy?". Os usuários do Verily podem compartilhar esse pedido de verificação no Twitter ou no Facebook e também enviar e-mails às pessoas que eles conhecem que vivem nas proximidades.

Quem tem indícios para responder à questão contribui com o mural do Verily, que tem duas seções: uma para postagens que respondem à pergunta de verificação afirmativamente e outra para as que fornecem uma resposta negativa.

Os tipos de provas que podem ser postadas incluem texto, imagens e vídeos. Cada indício enviado para o mural do Verily deve ser acompanhado por uma explicação da pessoa que fez a postagem sobre por que aquela prova é relevante e credível.

Como tal, um objetivo paralelo do projeto Verily é fazer crowdsourcing do pensamento crítico. A plataforma Verily deve ser lançada na página www.Veri.ly em 2014.

Computação de máquina

O terremoto de 8,8 graus de magnitude que atingiu o Chile em 2010 foi amplamente divulgado no Twitter. Como costuma acontecer, junto aos tweets veio uma onda de rumores e informações falsas.

Um dos boatos foi de um alerta de tsunami em Valparaíso e outro foi o relato de saques em alguns bairros de Santiago. Embora esse tipo de boato se espalhe, pesquisas empíricas recentes demonstraram que o Twitter tem um mecanismo de autocorreção. Um estudo de tweets postados pouco depois do terremoto chileno concluiu que usuários do Twitter costumam rejeitar tweets não confiáveis, questionando sua credibilidade.

Analisando esse fenômeno, pesquisadores demonstraram que a credibilidade dos tweets poderia ser prognosticada. Pesquisas relacionadas também revelaram que tweets com certas características frequentemente são falsos. Por exemplo, o tamanho dos tweets, o sentimento das palavras usadas e o número de hashtags e emoticons utilizados fornecem indicadores sobre a provável credibilidade de mensagens publicadas no Twitter. O mesmo vale para tweets que incluem links para imagens ou vídeos — a linguagem contida nos tweets que contêm links para conteúdos multimídia pode ser usada para determinar se aquele conteúdo é crível ou não.

Tomados em conjunto, esses dados fornecem às máquinas os parâmetros e a inteligência que elas precisam para começar a prever a precisão de tweets e de outros conteúdos publicados em redes sociais. Isso abre as portas para que a automação passe a ter um papel maior no processo de verificação durante desastres e outras situações de emergência e de notícias de última hora.

Em termos de aplicações práticas, essas descobertas têm sido usadas para desenvolver um “Credibility Plugin” (Plugin de Credibilidade, em tradução livre) para o Twitter. Para esse projeto, minha equipe do Instituto de Pesquisa em Computação da Fundação Qatar está trabalhando em parceria com o Instituto de Tecnologia da Informação Indraprastha em Deli, na Índia.

Esse plugin vai avaliar tweets numa escala de 0 a 100 com base na probabilidade de que o conteúdo de cada um deles seja considerado digno de crédito e deve ser lançado ainda em 2014. A principal vantagem desta solução de computação de máquina é que ela é totalmente automatizada e, portanto, mais escalável do que a plataforma de computação humana Verily.

Computação híbrida

A plataforma Artificial Intelligence for Disaster Response (AIDR, ou "Inteligência Artificial para Resposta a Desastres", em tradução livre) é um híbrido dos modelos de computação humana e de máquina.

Ela combina a computação humana (microtasking) com a computação de máquina (machine learning). "Microtasking" significa pegar uma tarefa grande e dividi-la em uma série de tarefas menores. "Machine learning", ou aprendizado de máquina, envolve ensinar um computador a executar uma tarefa específica.

A AIDR permite aos usuários ensinar a um algoritmo como encontrar informações de interesse no Twitter. O processo de ensino é feito usando microtasking. Por exemplo, se a Cruz Vermelha estivesse interessada em monitorar o Twitter para detectar referências a danos de infraestrutura após um desastre, eles poderiam

usar a interface de microtasking da AIDR para marcar (selecionar) tweets que se referem a danos. O algoritmo iria, então, aprender com este processo e automaticamente encontrar outros tweets que também fazem referência ao assunto.

Essa abordagem de computação híbrida pode ser utilizada para identificar automaticamente rumores baseados em um conjunto inicial de tweets referentes a eles. Essa identificação rápida dos rumores e sua fonte é um componente importante da verificação de conteúdos gerados pelos cidadãos. Isso permite aos jornalistas e profissionais de ajuda humanitária rastrear a fonte das informações e saber quem contactar para dar o próximo passo para verificá-las.

No entanto, o objetivo não deve ser apenas identificar informações falsas ou enganosas nas redes sociais, mas também combater e corrigir a informação o mais rápido possível. A primeira versão do AIDR foi lançada em novembro de 2013.

Acelerando o processo de verificação

Como observado anteriormente, as plataformas de verificação movidas a computação avançada ainda estão nos seus estágios iniciais, o que significa que sua real contribuição para a verificação de conteúdos gerados pelos usuários ainda não está clara. Mesmo que essas plataformas sejam frutíferas, seus primeiros passos

enfrentarão restrições importantes, mas este trabalho inicial é essencial para que possamos nos mover em direção a aplicações significativas da computação avançada no processo de verificação.

Uma limitação atual é que a AIDR e o Credibility Plugin, descritos acima, são totalmente dependentes de uma só fonte: o Twitter. Plataformas de verificação através de diferentes mídias são necessárias para triangular relatórios em diferentes fontes, meios de comunicação e linguagens. O Veri.ly chega perto de cumprir essa necessidade, mas depende inteiramente de intervenção humana, não sendo possível aumentar sua escala facilmente.

De qualquer forma, essas soluções estão longe de ser a grande saída que tantos procuram em termos de verificação. Assim como outras plataformas de informação, elas também podem ser sabotadas com tempo e esforço suficientes. Ainda assim, essas ferramentas oferecem a possibilidade de acelerar o processo de verificação e é provável que continuem avançando na medida em que mais esforços einvestimentos são feitos nessa área.