Posts in Data Science

A Inteligência Artificial pode encontrar a cura do coronavirus?

28/02/2020 Posted by Data Science, Pessoas, Tecnologia, Tendências 0 thoughts on “A Inteligência Artificial pode encontrar a cura do coronavirus?”

Iniciativas baseadas em machine learning e open data buscam combater o vírus.

Com a atenção mundial voltada para a disseminação do coronavirus, a comunidade científica busca todo tipo de suporte para combatê-lo. É a hora para novas tecnologias provarem seu valor em campo, mas os esforços recentes mostraram apenas seus limites e algumas possibilidades.

O resultado de maior repercussão foi a ferramenta de inteligência artificial que primeiro disparou o alerta, muito antes das autoridades de saúde. Falamos dele aqui, mostrando como ainda em 31 de dezembro do ano passado o sistema da healthtech canadense BlueDot enviou a seus clientes um alerta de possível doença em regiões onde o coronavírus se manifestou. E mais. Ainda foi capaz de antever alguns dos primeiros destinos para os quais a enfermidade foi “exportada”: Seul, Taipei, Tóquio e Bangkok.

Entretanto, vale dizer que o alerta não foi capaz de identificar com clareza o grau de risco da doença e que, apenas algumas horas antes, de forma independente, um grupo de monitoramento, formado por médicos e pesquisadores voluntários, já preparava um alerta.

O BlueDot é uma ferramenta de machine learning, e, como todo sistema do tipo, depende do volume e da qualidade de dados disponíveis. Esse é um limite para as ações atuais. Epidemias como a do Covid-19 disseminam-se de forma rápida e dispersa em grandes áreas, dificultando a coleta e a interpretação de dados.

A identificação do surto é crucial, mas as novas tecnologias atuam em outras formas de combate. A principal delas, é claro, é a busca por algum tipo de cura. Há diferentes estratégias em curso. A Insilico Medicine, em Hong Kong, é uma empresa focada no uso de ferramentas de Inteligência Artificial e Deep Learning para a descoberta de tratamentos para doenças diversas. Eles compartilharam com a comunidade científica, recentemente, as estruturas de seis moléculas com capacidade teórica para atacar uma proteína específica do coronavirus.

A Inteligência Artificial foi usada no processo de geração, síntese e teste das estruturas moleculares e mais de 100 foram desenvolvidas e submetidas ao programa, restando as seis mais promissoras. “Nós encorajamos a comunidade científica a avaliar as moléculas e considerar a possibilidade de sintetizá-las para teste”, disse o CEO da Insilico, Alex Zhavoronkov.

Importante ressaltar que a sequência de DNA do vírus já foi identificada e tornada pública (no GenBank) pela Fudan University, de Shangai. Um pedacinho dele:

 

23041 gttactttcc tttacaatca tatggtttcc aacccactaa tggtgttggt taccaaccat

23101 acagagtagt agtactttct tttgaacttc tacatgcacc agcaactgtt tgtggaccta

23161 aaaagtctac taatttggtt aaaaacaaat gtgtcaattt caacttcaat ggtttaacag

23221 gcacaggtgt tcttactgag tctaacaaaa agtttctgcc tttccaacaa tttggcagag

23281 acattgctga cactactgat gctgtccgtg atccacagac acttgagatt cttgacatta

23341 caccatgttc ttttggtggt gtcagtgtta taacaccagg aacaaatact tctaaccagg

23401 ttgctgttct ttatcaggat gttaactgca cagaagtccc tgttgctatt catgcagatc

23461 aacttactcc tacttggcgt gtttattcta caggttctaa tgtttttcaa acacgtgcag

23521 gctgtttaat aggggctgaa catgtcaaca actcatatga gtgtgacata cccattggtg

 

Outras iniciativas estão em andamento ao redor do mundo, como o desenvolvimento da vacina pela Sanofi Pasteur, em parceria com a U.S. Biomedical Advanced Research Authority (Barda). Falaremos sobre elas aqui, em breve.

____

Crédito da imagem: Pixabay

 

2019 chega ao fim e Data Science segue em alta

12/12/2019 Posted by Data Science, Negócios, Tecnologia, Tendências 0 thoughts on “2019 chega ao fim e Data Science segue em alta”

Dados, Inteligência Artificial e Machine Learning dominaram o ano.

A última década marcou avanços extraordinários na tecnologia, abrindo caminhos para um novo ciclo que promete ser ainda mais disruptivo. Às portas dos anos 2020, a Ciência de Dados, a Inteligência Artificial (IA) e outros segmentos afins consolidaram sua posição de destaque e seguirão na pauta.

O relatório anual “Data Science and Machine Learning Market Study”, da Dresner Advisory Services, trouxe uma série de insights e informações sobre esse contexto. A começar pelo fato de que iniciativas relacionadas a Data Science e Machine Learning (ML), tais como análises preditivas, algoritmos avançados e mineração de dados, apareceram no oitavo lugar entre 37 tecnologias e práticas consideradas como prioritárias por empresas que adotaram IA e ML em 2019.

Os departamentos de marketing e vendas são os que demonstraram valorizar mais a ciência de dados como instrumento para ajudar a alcançar suas metas e resultados. Quatro em cada dez equipes afirmaram que os dados são essenciais para o sucesso de seus setores. Na sequência, apareceram os segmentos de Business Intelligence Competency Centers (BICC), Pesquisa e Desenvolvimento (P&D) e Gerência de Público.

O alto nível de interesse compartilhado por esses departamentos reflete esforços para definir novos modelos de receitas e melhorar a experiência dos usuários usando dados,  IA e ML. Um terço das empresas entrevistadas adotou alguma ferramenta do tipo, a maioria delas utilizando até 25 modelos diversos.

Entre os setores que mais acreditam no potencial de dados, ML e IA para seu sucesso no mercado estão os serviços financeiros e de seguros, assistência médica, atacado e varejo.

Outro dado interessante e que mostra o poder dessas tecnologias no mundo corporativo atual apontou que 70% dos departamentos de P&D têm maior probabilidade de adotar Data Science, ML e AI. Para o time da Dresner, isso é um indicativo de que o desenvolvimento dessas ferramentas deve aumentar ainda mais nos próximos anos.

Além do mais, 2019 foi o ano recorde em matéria de interesse das empresas nesse tipo de recurso. O levantamento, que começou a ser feito em 2014, vem mostrando ano após ano o crescimento desse interesse. “Desde então, expandimos nossa cobertura para refletir mudanças de opinião e adoção e adicionamos novos critérios, incluindo uma seção que abrange redes neurais”, comenta Howard Dresner, fundador e diretor de pesquisa da Dresner.

Ada Lovelace e o mistério do bug original

10/12/2019 Posted by Data Science, Pessoas, Tecnologia 0 thoughts on “Ada Lovelace e o mistério do bug original”

História e legado da condessa britânica considerada a primeira programadora da história vêm sendo redescobertos.

Hoje é aniversário de Ada Lovelace, pioneira da programação. Com sua inteligência brilhante, ela anteviu as possibilidades dos computadores, muito antes dos computadores serem construídos.

Nascida em 10 de dezembro de 1815, em Londres, Augusta Ada King teve uma vida curta e intensa. Sua mãe casou e rapidamente se separou do poeta, dândi e maluco Lord Byron. Recebeu uma educação esmerada (em ciências, não em etiqueta, como era de praxe na época para as mulheres) e desde criança demonstrou aptidão para a matemática. Casou-se com William King em 1835, recebendo o título de Condessa de Lovelace. Ambos adoravam corridas de cavalos. Morreu aos 37 anos, após uma série de problemas de saúde.

Aos 17 anos ela ficou amiga do matemático Charles Babbage, inventor da “Máquina Diferencial”, um mecanismo (movido a vapor!) capaz de fazer cálculos avançados para a época e que é hoje considerado o primeiro “computador”. Este vídeo bacana (em inglês) mostra uma exibição de como ele seria. Encantada com as possibilidades oferecidas pelo dispositivo, Ada usou seu aristocrático círculo de influências para divulgar e buscar fundos para sua construção.

O projeto teve um protótipo construído (quase um MVP), mas Babbage abandonou a iniciativa e concentrou suas forças em um modelo mais avançado, a “Máquina Analítica”. Em 1843, Ada traduziu para o inglês e acrescentou notas a um trabalho do engenheiro italiano Luigi Federico Menabrea sobre a Máquina Analítica. Nestas notas (muito mais extensas que o próprio artigo) estão as maiores contribuições de Ada para a ciência. Em uma delas (nota A) ela registra (pela primeira vez na história) que no futuro o invento seria capaz de não apenas fazer cálculos, mas também de processar qualquer tipo de relação entre grandezas e poderia, por exemplo, “compor músicas”. O que é muito comum hoje, veja aqui, por exemplo.

Sua contribuição mais famosa, no entanto, é uma proposta de código para rodar na invenção. Não era uma linguagem, no sentido que elas não existiam ainda, mas sim uma sequencia a ser executada para o cálculo dos números de Bernoulli. Feitos à mão, seriam cálculos que demorariam meses e gerariam todo tipo de erro. Ada Lovelace mostrou como a máquina pensada por Babbage poderia resolver o problema em muito menos tempo.

Recentemente, diversos programadores tentaram (e conseguiram) recriar o programa em linguagens atuais. Em C, temos uma tradução bem famosa aqui. Seu programador, Sinclair Target, explica no blog Two-bit History que não é uma recriação exata, mas um esforço que procurou ser o mais fiel possível, e que o teste mostrou como Lovelace efetivamente dominava o que no futuro chamaríamos de linguagem de programação, com a previsão de loops e outras ferramentas. No entanto, nas palavras de Sinclair:

Para a minha frustração, os resultados não estavam corretos. Depois de alguns ajustes, finalmente percebi que o problema não era o meu código. O bug estava no original!

Um bug é um erro ou falha no código e, no diagrama de 1842, uma operação indicava v5 / v4, quando o correto seria v4 / v5. Típico erro de “digitação” ou falha do programador? Não é possível identificar, mas é a situação em que o erro apenas comprova que Lovelace era realmente uma programadora. Programar é enfrentar os bugs. Há uma versão em Python, aqui.

As contribuições de Ada Lovelace permaneceram esquecidas por mais de um século e somente nas últimas décadas, com pesquisas sobre a história da computação, ela ganhou o status de pioneira da programação. Desde 2009, comemora-se em outubro o Dia de Ada Lovelace, uma celebração das conquistas femininas nas ciências.

Existem muitos livros sobre ela, mas nossa dica é uma ficção histórica, o romance steampunk A Máquina Diferencial, de William Gibson e Bruce Sterling. A narrativa é baseada na seguinte premissa: a máquina idealizada por Babbage é efetivamente construída e concede à Inglaterra uma vantagem estratégica no mundo, em plena Revolução Industrial, e neste cenário misturam-se espiões, exploradores e cientistas. O livro traz Lady Lovelace entre seus personagens.

Ensinando solidariedade às máquinas

03/12/2019 Posted by Data Science, Pessoas, Tendências 0 thoughts on “Ensinando solidariedade às máquinas”

No Dia de Doar, refletimos sobre o espaço da solidariedade em tempos de Inteligência Artificial.

Todo dia é dia de doar, mas hoje, a primeira terça-feira depois do Dia de Ação de Graças (o Thanksgiving Day tão celebrado pelos americanos), comemora-se em diversos países o Dia de Doar (Giving Tuesday, lá fora). O movimento mundial teve início em 2012 e vem crescendo desde então. Desapegar e ajudar o próximo é um ato essencialmente orgânico. Não apenas humanos, mas diversas espécies colaboram de alguma forma entre si, garantindo abrigo, alimento e afeto a membros mais fracos da comunidade. Nos perguntamos: é possível ensinar solidariedade às máquinas?

A resposta é sim. Mais do que isso, a solidariedade deve ser um princípio ético central na Inteligência Artificial, defende Miguel Luengo-Oroz, Chief Data Scientist da Global Pulse, uma iniciativa da Organização das Nações Unidas (ONU) com foco no acompanhamento de inovações tecnológicas e de comunicação. Em artigo recentemente publicado na prestigiosa revista Nature, Luengo-Oroz chama a atenção para a necessidade de um compromisso com o tema, uma vez que os riscos envolvidos são elevados, e mesmo sistema confiáveis podem ser usados para:

  • Prever o aparecimento de um câncer letal em pessoas que, sem saber, terão seu acesso negado a seguros e planos de saúde;
  • Automatizar tarefas e funções diversas, aumentando a produtividade, mas deixando milhares (ou milhões) de humanos sem trabalho;
  • Antever nossas decisões e cruzar a tênue linha que separa a sugestão da manipulação.

O pesquisador destaca que tecnologias poderosas exigem compromissos e não por acaso a energia nuclear permanece disponível somente com um tratado de não-proliferação de armas nucleares em vigor, assim como existem barreiras legais e fiscalização mundial sobre as pesquisas para manipulação genética.

Diversos países organizam-se para incluir guidelines de inclusão, como a Declaração de Montreal para uma IA responsável, de 2017. O texto propõe que o desenvolvimento de inteligências autônomas deve ser compatível com a manutenção dos laços de solidariedade entre as pessoas. Gostou? Declare seu apoio aqui:

Como um princípio, a solidariedade aplicada à Inteligência Artificial prevê:

1) O compartilhamento da prosperidade criada pela IA, com a implementação de mecanismos para redistribuir o aumento da produtividade entre todos, assim como também distribuir o trabalho, garantindo que a desigualdade não aumente.

 2) A reflexão sobre o impacto das aplicações no longo prazo, evitando a irrelevância de vastos grupos humanos. As consequências devem ser pensadas antes da execução dos sistemas. Repetindo as palavras do escritor Yuval Noah Harari, a Inteligência Artificial pode nos tornar irrelevantes. Os ganhos de produtividade e a capacidade de modelar, replicar e automatizar nossas ações podem criar uma geração de inúteis, como já falamos neste blog.

O maior desafio, no longo prazo, é descobrir como redistribuir o aumento da produtividade de forma a evitar a irrelevância. Não é a tecnologia baseada no homem, mas sim na humanidade, adverte Luengo-Oroz.

Um algoritmo escreveu este texto

12/11/2019 Posted by Data Science, Tecnologia 0 thoughts on “Um algoritmo escreveu este texto”

Na verdade, apenas parte deste texto foi escrito por uma máquina, mas elas estão se esforçando para chegar lá.

 

Pode parecer ficção científica, mas já existem sistemas de inteligência artificial capazes de criar textos com incrível semelhança aos escritos por humanos. Alguns deles incluem coisas como piadas e poemas. Outros são muito mais sérios. Um exemplo recente da Universidade de Oxford contém uma poesia sobre o extermínio de judeus por Hitler.

“Se um ser humano tem uma forte antipatia por um grupo em particular, é muito improvável que ele seja capaz de escrever um poema sobre isso, mas a IA pode fazê-lo”, diz Robert Morris, que estuda inteligência artificial na Universidade de Oxford.

A afirmação na primeira frase deste artigo pode inspirar desconfiança. “É um exagero, não devem haver sistemas assim tão bons!”, podemos pensar. Mas o trecho seguinte, citando piadas e poemas e contendo a afirmação de Robert Morris – pesquisador fictício – foi escrita em questão de segundos por um algoritmo criado pela OpenAI

Base da programação, um algoritmo é uma sequência lógica, finita e definida de instruções a serem seguidas para resolver um problema ou executar uma tarefa. Similar a uma receita com o passo a passo para a resolução de uma tarefa.

Um robô-escritor

Em fevereiro a OpenAI anunciou o sistema, batizado de GPT-2. A avaliação dos resultados foi tão boa que os responsáveis decidiram não liberar a pesquisa completa para o público até que fossem mais bem discutidas as implicações de sua disponibilização. O receio residia na possibilidade de mau uso da ferramenta para a disseminação de spam, notícias falsas, teorias conspiratórias, discursos preconceituosos e de ódio. 

Nos meses que se seguiram a OpenAI liberou versões parciais da ferramenta e, no início de novembro, abriu para uso a maior versão disponível, dotada de 1,5 bilhão de parâmetros.

O volume de dados usados no treinamento do algoritmo é um dos grandes diferenciais do GPT-2. Os modelos “eram 12 vezes maiores, e o conjunto de dados era 15 vezes maior e muito mais amplo” do que os utilizados até então, descreve Dario Amodei, diretor de pesquisa do OpenAI. Dez milhões de artigos, totalizando um volume de 40 GB, compõem a base do sistema. É o equivalente a 35 mil cópias de Moby Dick. 

O jornal britânico The Guardian, em matéria que repercutia o anúncio feito no início do ano, mostrou como o GPT-2 dava sequência à frase inicial de “1984”, clássica distopia escrita por George Orwell. Fizemos o mesmo, mas utilizando a abertura de Dom Casmurro. O resultado foi o seguinte (em tradução livre para o português):

Uma noite destas, vindo da cidade para o Engenho Novo, encontrei no trem da Central um rapaz aqui do bairro, que eu conheço de vista e de chapéu.  Ele estava de cabeça baixa e não falou. Eu vi claramente sua face jovem. Ele passou por mim e não parou. Achei estranho, mas me lembrei da garota. Ele foi em direção a garota. Desci do trem e o segui.

Os exemplos mostram como o algoritmo, embora esteja longe de um Machado de Assis, ainda assim é capaz de desenvolver a narrativa de forma criativa e coerente (embora o original traga algumas incongruências). Você mesmo pode experimentá-lo, aqui.  

Aprendendo português

Como foi alimentado com textos em inglês, o sistema por ora funciona nesse idioma. Mas é possível treinar o GPT-2 em qualquer língua, dado que ele não distingue idiomas. Mais: ele sequer lida bem com palavras, exatamente, mas com byte-pair encodings. “Resumidamente, é como se fosse um vocabulário composto por caracteres e sequências de caracteres mais comuns vistas nos textos. Algumas palavras pequenas ou muito comuns fazem parte deste vocabulário, enquanto outras são decompostas em partes menores, e tratadas como mais de um token. Isso traz muita flexibilidade, pois não se fica amarrado ao vocabulário de uma língua específica”, explica o brasileiro Erick Fonseca, pós-doutorando no Instituto de Telecomunicações de Lisboa. Ele testou o algoritmo uma base de dados em português. 

Para isso, Fonseca extraiu da Wikipédia e usou como input para o GPT-2 todos os artigos em língua portuguesa. O processo está descrito em um artigo no Medium. Como o pesquisador utilizou uma versão preliminar do sistema, liberada em agosto, e um volume de dados consideravelmente menor – cerca de 1,5 GB, bem menos que os 40 GB do original – os resultados não são tão impactantes, mas mostram a capacidade da ferramenta. 

Apesar de algumas incongruências e repetições, o algoritmo foi bem-sucedido em captar a estrutura geral das frases em português. Ele criou diversos textos, inventando nomes e situações, acertando mais do que errando, como vemos no trecho abaixo: 

“Armored Warfare” é o segundo álbum de estúdio da banda estadunidense The Band, lançado em 1965. Foi o primeiro álbum a ter lançamento em 1965 e foi lançado pela gravadora chamada Midway Records. (…) O disco teve vendas de mais de 26 mil cópias nos Estados Unidos. Ame seus álbuns de estúdio foram certificados em diversos países brasileiros e o “single” “The Last Man” vendeu mais de 4 mil cópias nos Estados Unidos.

Camões que se cuide?

Os avanços da inteligência artificial, tais como o GPT-2, mantém acesa a discussão sobre as potencialidades, limites e dilemas da tecnologia. Restará algo em que as máquinas não possam nos superar? A escrita é uma habilidade complexa e, até o ano passado, exclusiva dos humanos.  

Mas se não podemos esperar que uma IA seja capaz de produzir o tipo de prosa original que você esperaria de alguém com doutorado em literatura, isso não deveria ser um sinal de que a máquina é apenas uma ferramenta?

Não sabemos ainda a resposta. Mas pergunta também foi formulada pelo GPT-2, na sequência do trecho com o qual gentilmente colaborou para esse artigo.

Inteligência artificial ameaça criar geração de inúteis

08/11/2019 Posted by Data Science, Pessoas, Tecnologia, Tendências 1 thought on “Inteligência artificial ameaça criar geração de inúteis”

Em palestras pelo Brasil, autor de Sapiens defende acordo global contra uso lesivo da tecnologia.

O  professor e escritor israelense Yuval Harari tornou-se conhecido no mundo inteiro com o sucesso do livro “Sapiens: uma breve história da humanidade”, traduzido em mais de 40 idiomas e com milhões de cópias vendidas. Com outros dois best sellers lançados desde então, o historiador ocupou notícias e conteúdos online nos últimos dias em função de sua primeira visita ao Brasil, onde participa de alguns eventos. 

Harari resume em três vertentes os problemas que a humanidade vai enfrentar no século 21: as mudanças climáticas, os avanços da biotecnologia/bioengenharia e a ascensão da inteligência artificial. O desenvolvimento das tecnologias e seu impacto na sociedade contemporânea é assunto central e recorrente tanto em seus escritos quanto nas conferências que têm proferido. 

Uma das preocupações que ele destaca é um assunto no qual já tocamos aqui: o fato de que a tecnologia provoca mudanças constantes e significativas no mercado de trabalho e possivelmente criará uma massa de pessoas sem utilidade, do ponto de vista econômico e financeiro. “Se a maior luta do século 20 foi contra a exploração, a maior luta do século 21 será contra a irrelevância. Por isso os governos têm que proteger as pessoas”, afirmou em uma palestra no encerramento da 5ª Semana de Inovação, realIzada pela Escola de Administração Pública (Enap), em Brasília. Ele completa, em outro tema abordado aqui pelo blog: 

“O risco é que a revolução da inteligência artificial resulte em algo como a revolução industrial do século XIX: desigualdade extrema entre alguns países que dominam a economia global e outros que colapsam completamente, porque seu principal ativo de mão de obra manual barata se torna irrelevante”

O valor dos dados e sua importância estratégica é outra questão chave para o escritor. A combinação de avanços no domínio da biologia humana com o poder tecnológico digital pode resultar num “hackeamento” dos indivíduos. “É possível criar algoritmos que nos conhecem melhor que nós, que podem nos hackear e manipular nossos sentimentos e nossos desejos. E eles não precisam ser perfeitos, apenas nos conhecer melhor. E isso não é difícil porque muitos de nós não se conhecem muito bem”. 

Em entrevista ao El País em 2018, traçou um interessante paralelo entre algumas forças capazes de controlar as pessoas ao longo do século 20, tais como os partidos fascistas dos anos 1930, a KGB e os grandes conglomerados atuais. As organizações no século passado conseguiam estabelecer altos níveis de controle, mas não tinham tecnologia para seguir e manipular cada indivíduo pessoalmente. Hoje isso já é possível (e acontece). “Já estamos vendo como a propaganda é desenhada de forma individual, porque há informação suficiente sobre cada um de nós. Se você quer criar muita tensão dentro de um país em relação à imigração, coloque uns tantos hackers e trolls para difundir notícias falsas personalizadas. Para a pessoa partidária de endurecer as políticas de imigração você manda uma notícia sobre refugiados que estupram mulheres. E ela aceita porque tem tendência a acreditar nessas coisas. Para a vizinha dela, que acha que os grupos anti-imigrantes são fascistas, envia-se uma história sobre brancos espancando refugiados, e ela se inclinará a acreditar. Assim, quando se encontrarem na porta de casa, estarão tão irritados que não vão conseguir estabelecer uma conversa tranquila. Isso aconteceu nas eleições dos Estados Unidos de 2016 e na campanha do Brexit.”

A aposta do escritor para a condução desses grandes desafios da humanidade está no diálogo e na cooperação. Não há, segundo ele, oposição entre as ideias de nacionalismo e globalização. Os estados podem e devem garantir sua soberania e liberdade, mas devem se unir para evitar que as grandes corporações se apoderem e façam mau uso dos dados, o bem mais valioso do século 21. “Precisamos de um acordo global. E isso é possível. Não construindo muros, como está na moda, mas construindo confiança. No entanto, estamos na direção oposta neste momento.”

Um algoritmo que não faz bem para a saúde

28/10/2019 Posted by Data Science, Tecnologia 0 thoughts on “Um algoritmo que não faz bem para a saúde”

Software de operadoras de saúde nos EUA apresenta viés que privilegia brancos em detrimento de negros.

 

A palavra algoritmo permaneceu décadas restrita ao vocabulário dos estudiosos e profissionais da Ciência da Computação. A disseminação dos serviços e plataformas digitais trouxe o termo para o cotidiano. É o algoritmo do Uber quem escolhe a melhor rota no trânsito, e o do Facebook determina quem aparece ou não na sua timeline. Ele pode ser definido como uma sequência de raciocínios, instruções ou operações para alcançar determinado objetivo, com etapas cumpridas de forma sistemática.

O desenvolvimento tecnológico vem possibilitando a criação de algoritmos matemáticos cada vez mais complexos, com o objetivo de realizar as mais variadas e ousadas tarefas. Computadores e robôs são programados e dotados de inteligência artificial para trabalhar de forma autônoma, e até mesmo aprender – o tão falado machine learning.

Uma das questões mais discutidas atualmente nesse assunto, da qual já falamos em outro artigo, é a existência de vieses que podem distorcer análises e predições, e até mesmo reproduzir preconceitos. A chamada “discriminação algorítmica” é real e já tem até seu verbete na Wikipédia

Mais um estudo recente abordou essa ocorrência, dessa vez realizado por pesquisadores de Berkeley. Publicada na Revista Science, a pesquisa mostrou como um algoritmo utilizado por vários provedores de saúde nos Estados Unidos privilegiava pacientes brancos em detrimento dos negros ao prever quais usuários necessitavam de mais cuidados extras. 

O sistema – cujo nome foi omitido pelos estudiosos mas foi identificado pelo jornal Washington Post como sendo o software Optum – é utilizado, segundo a detentora UnitedHealth, para gerenciar mais de 70 milhões de vidas. Ao analisar quase 50 mil registros médicos de um grande hospital acadêmico, os cientistas observaram que o algoritmo atribuiu níveis de risco mais altos a pessoas brancas em comparação com pessoas negras igualmente doentes. A proporção de negros que foram selecionados para obter cuidados complementares foi reduzida a mais da metade em função da distorção do software. Os 10 sistemas mais usados no segmento de saúde nos EUA apresentam a mesma falha. 

O viés surgiu a partir da utilização dos históricos médicos para prever o quanto os usuários provavelmente custariam ao sistema de saúde. Por razões socioeconômicas e afins, pacientes negros costumam incorrer em menores custos com assistência médica do que os brancos com as mesmas enfermidades. Assim, o algoritmo conferiu aos brancos pontuações iguais à de negros consideravelmente mais doentes. 

Após as pesquisas os envolvidos trabalharam para corrigir o problema do Optum, conseguindo reduzir a disparidade em mais de 80%, em uma versão capaz de prever os custos futuros de um paciente e quantas vezes uma condição crônica pode surgir no ano seguinte. 

O estudo evidenciou mais uma vez a necessidade de atenção por parte dos desenvolvedores dos algoritmos. Problemas como esse têm sido recorrentes, não apenas na área da saúde, como também na seleção e contratação de pessoas, pontuação de crédito, seguros, justiça criminal e muitas outras. 

Nathana Sharma, professora da Singularity University, em entrevista recente, apontou caminhos:

“O que podemos fazer, de forma prática, é criar um sistema de origem ou sistema de armazenamento de informações que reúna os dados que nós queremos informar aos algoritmos e então vemos como esses algoritmos performam. E podemos usar esse mesmo sistema para julgar os vieses e então depois podemos dar um passo atrás e consertá-los. Podemos adicionar outros dados, que ajudem os algoritmos a tomarem decisões menos preconceituosas do que qualquer humano faria.”

E completou: “Mas é difícil chegar até aqui porque muitos dos desenvolvedores são homens brancos e partem de dados enviesados. Muitos dos algoritmos que vemos hoje estão enviesados. Em breve, precisaremos dar um próximo passo em busca de um mundo mais justo.”

Neocolonialismo digital: quando os dados valem ouro

15/10/2019 Posted by Data Science, Tecnologia 0 thoughts on “Neocolonialismo digital: quando os dados valem ouro”

Relatório das Nações Unidas alerta para o domínio dos gigantes no cenário mundial de processamento de dados. 

Que os dados são matéria prima valiosa no mundo contemporâneo não é novidade (ao menos para quem está antenado com as tendências de tecnologia da informação). Tampouco é surpreendente que as principais potências do mundo liderem os rankings de inovação e investimentos nessa área. 

Um relatório publicado em setembro pela Conferência das Nações Unidas para Comércio e Desenvolvimento (UNCTAD) alerta para o fato de esse contexto recriar condições semelhantes às experimentadas no período em que os países se dividiam entre metrópoles e colônias. Estados Unidos e China – que juntos detêm mais de 90% do valor de capitalização das 70 maiores empresas online do planeta – despontam como dominadores, enquanto países com baixa capacidade de processamento de dados, como o Brasil, acabam ocupando o posto de meras “colônias digitais”. 

As informações dos usuários de internet são coletadas gratuitamente pelos vários serviços dos quais fazem uso. De forma isolada esses dados não têm qualquer valor. Reunidos, constituem um enorme acervo que, se bem processado e analisado, pode valer ouro. 

Acontece que a maioria dos países não consegue fazer frente ao domínio sino-americano e acaba contratando serviços norte-americanos ou chineses para processar seus dados. Em ciclo análogo ao da exploração colonial, os dados brutos extraídos ao redor do mundo são beneficiados e revendidos, bem mais caros, ao mesmo público que os gerou. 

Ao pagar pelo acesso às plataformas estrangeiras e pela inteligência por elas desenvolvida, os estados deixam de fomentar o desenvolvimento interno nesse ramo e as empresas nacionais não conseguem prosperar. A dependência e a assimetria, então, tornam-se quase irremediáveis. 

“As plataformas também se tornam monopolísticas financeiramente. Quando elas vão em busca de investidores, eles só querem investir nelas. Eles não querem apostar em uma pequena empresa desconhecida do Brasil, porque lucrarão muito mais investindo no Google, por exemplo”, afirma o diretor do núcleo de competitividade global da instituição de ensino IMD de Lausanne, Arturo Bris. E há um agravante: os próprios usuários, embora em parte saibam que têm seus dados usados dessa forma, continuam utilizando as ferramentas, pelos benefícios que oferecem e para manter suas conexões.

A esperança, segundo o professor Bris, está no fato de as pessoas estarem tomando consciência do cenário. “As plataformas estão sob ataque, sim, não apenas econômica, mas socialmente. As pessoas estão começando a questionar, se dando conta de que estão explorando o bem mais valioso: a nossa informação”. Pilar Fajarnes, uma das autoras do relatório da UNCTAD, completa ao destaca o papel imprescindível dos governos: “Os países devem fomentar empresas locais que façam o ‘refino’ dos dados, e adotar políticas que defendam a propriedade e controle dos indivíduos sobre suas informações”.

Blockchain é uma moda passageira?

11/10/2019 Posted by Data Science, Negócios, Tecnologia, Tendências 0 thoughts on “Blockchain é uma moda passageira?”

Tecnologia que sustenta as criptomoedas enfrenta os desafios da operacionalização.

 

Responsável por toda a onda em torno das criptomoedas, a tecnologia blockchain é (ou era) uma das mais promissoras em desenvolvimento nos últimos anos. Mas enfrenta uma crise: “Muitos de seus experimentos permanecem em estado experimental, não permitindo a construção dos esperados novos ecossistemas digitais”, afirma Avivah Litan, analista e vice-presidente da Gartner. A empresa, reconhecida por seu estudo de tendências em tecnologia da informação, divulgou esta semana seu já conhecido hype cycle atualizado para o blockchain, e as expectativas não são as melhores.

Enquanto diversas aplicações ligadas ao blockchain ainda estão entrando no “pico das expectativas infladas”, várias já se encaminham para o “fosso das desilusões”. Os dois termos são traduções livres dos estágios do ciclo de vida de uma tecnologia, que vai da concepção (o inonovation trigger) ao platô de produtividade (plateau of productivity).

O “pico das expectativas infladas” (peak of inflated expectations) é o momento em que as tecnologias não estão operacionais, mas muito se fala sobre elas, com pequenos avanços ganhando grande publicidade. Nós mesmos já participamos do hype, aqui. Outro caso é o dos smart contracts. Estes contratos à prova de falsificações permitem negociações entre desconhecidos, mesmo para transações de alto valor, e são simples o suficiente para permitir a eliminação de intermediadores, como advogados, corretores ou cartórios. Sim, um lindo sonho. Mas está tão distante da realidade que nem mesmo frustrados com eles nós estamos.

Não podemos dizer o mesmo de todo um conjunto de ferramentas ligadas às criptomoedas, como as plataformas de negociação e as carteiras virtuais. Estas tecnologias entraram no fosso das desilusões (trough of disilusionment). Os sistemas em funcionamento não entregaram o que prometiam e cada vez mais pessoas percebem que não será tão fácil como se imaginava.

Um dos estudos mais conhecidos sobre as dificuldades enfrentadas pela blockchain é o relatório apresentado pelos pesquisadores da Agência Norte-Americana para o Desenvolvimento Internacional, após avaliarem 43 experiências com blockchain. Nas palavras de Christine Murphy:

“Não encontramos nenhuma documentação ou evidência dos resultados. Também não encontramos lições aprendidas ou insights práticos, como costumam estar disponíveis para outras tecnologias em desenvolvimento. Apesar de todo o hype sobre como o Blockchain vai trazer transparência para processos e operações em ambientes de baixa confiança, a indústria em si é opaca.  Por isso, nossa opinião é a de que faltam evidências que embasem as declarações sobre o valor do Blockchain para os potenciais adotantes”.

Para a Gartner, entretanto, a chegada ao fosso das desilusões é apenas um passo necessário antes da assimilação da tecnologia pelo mercado. É o momento em que as apostas erradas são fechadas e os desenvolvedores efetivamente identificam o que funciona e o que não funciona. O relatório prevê que, em 2023, as plataformas serão escaláveis e interoperáveis, abrindo caminho para a disseminação de ferramentas em grande escala, a partir de 2028.

Ensinando e aprendendo com dados

26/09/2019 Posted by Data Science, Negócios, Pessoas 0 thoughts on “Ensinando e aprendendo com dados”

A ciência de dados nas escolas pode trazer novas possibilidades para a educação.

São inúmeros os desafios da educação brasileira: estrutura física inadequada, professores despreparados, processos internos burocráticos, sistemas educacionais arcaicos, crianças e jovens desestimulados, entre outros. Ao mesmo tempo, não faltam informações sobre o sistema. A Educação há décadas coleta e armazena dados sobre si mesma. Ferramentas e técnicas da ciência de dados têm muito a contribuir para melhorar a capacidade das pessoas de pensar, resolver e aprender, oferecendo tecnologias capazes de encontrar soluções para esses problemas.

A educação é um domínio particularmente adequado para a Data Science. Os dados educacionais são extensos e abrangem: registros escolares do ensino fundamental e médio; arquivos digitais de matérias e anotações; respostas dos alunos a testes e provas, e caso seja adequado, ela também pode abordar a interação em sala de aula, através de gravações de vídeo e voz, seria possível captar como o gerenciamento e a instrução em sala de aula são feitos, além da resposta dos alunos.

O tema está em discussão no 2º Desafios de Dados, um evento nos moldes Datathon em que uma equipe se inscreve e busca soluções em Data Science para problemas específicos. Na edição de 2019 a pauta é Educação Pública no Brasil. A edição que deu origem ao evento tratou da questão da saúde, tema que abordamos em nosso último texto no blog

Muitas das equipes inscritas fazem parte de Edtechs, um acrônimo das palavras Education e Technology. São startups que se diferenciam das outras por duas características

O uso de alguma forma da tecnologia, que significa a aplicação sistemática de conhecimento científico para tarefas práticas.

A tecnologia como facilitadora de processos de aprendizagem e aprimoramento dos sistemas educacionais, gerando efetividade e eficácia.

Estas empresas desenvolvem soluções tecnológicas para a oferta de serviços relacionados à educação, como plataformas de ensino, cursos online, jogos educativos, sistemas de gestão de aprendizado, entre outros.

No Brasil, de acordo com um mapeamento do Centro de Inovação para a Educação Brasileira (CIEB), em parceria com a Associação Brasileira de Startups (Abstartup), 73% dos estados brasileiros têm ao menos 3 edtechs. São Paulo concentra 43% delas, seguido por Minas Gerais, com 11% e Rio de Janeiro com 10%.

As startups criam alternativas para tornar o ensino e a aprendizagem mais eficientes, fazendo os usuários aprenderem mais rapidamente, com maior retenção de conteúdo. Com o treinamento adequado, educadores poderiam realizar tarefas de visualização, redução, descrição e previsão de dados, para que possam entender os sistemas educacionais, seus problemas e possíveis soluções, além de desenvolver uma compreensão mais profunda e formas de soluções empiricamente estabelecidas.

Todas essas novas fontes de dados estão repletas de informações sobre comunicação, relações e perfis comportamentais.  Todas essas informações podem ser extraídas e analisadas para entender e resolver problemas educacionais persistentes.

A Data Science poderia trabalhar em cima de diversas questões como: atrito do aluno e evasão escolar; frequência do aluno; detenções; encaminhamentos; atrasos na aprendizagem; falha na progressão; preconceito; etc. Não podemos dizer que a internet afastou os mais jovens do conhecimento, porque nunca tivemos tanta facilidade de acesso e contato com informação.