Big Data, Inteligência Artificial e Aprendizado de Máquina: tanto quanto os humanos, as máquinas podem tomar decisões a partir de dados estatísticos
Por Roberto Blatt
De acordo com uma definição do grupo Gartner do começo do milênio, mas ainda válida, Big Data são “ativos de informação de alto volume, alta velocidade e/ou alta variedade e que exigem formas rentáveis e inovadoras de processamento de informações que permitam uma visão aprimorada, tomada de decisão e automação de processos”. Mais resumidamente, Big Data são dados que contêm cada vez maior variedade e chegando em volumes crescentes e com velocidade cada vez maior – variedade, volume e velocidade formam os três “Vs” essenciais do Big Data (outros Vs forma se incorporando, tais como valor e veracidade).
A variedade de dados implica em que estes não estejam estruturados ou que estejam semiestruturados – eles não estão disponíveis como se estivessem em uma planilha, não há uma estrutura rígida neles, como, por exemplo, atributos como nome, endereço, telefone e endereço de e-mail; podem ser dados como os contidos em textos de e-mails ou em uma ficha de paciente, onde as informações são relevantes, mas é difícil, quando não impossível, relacionar cada palavra do conteúdo a contextos, pessoas, instantes do tempo, mesmo que estejam em documento gerado em um processador de textos. Dificuldade igual ou maior se aplica a uma gravação de áudio ou vídeo, por exemplo.
É o que se passa com os conteúdos das redes sociais. Um agravante: como citam várias fontes, cerca de 80% do conteúdo digital espalhado pelo mundo é do tipo não estruturado. Esses tipos de dados requerem um processamento prévio para se extrair o seu significado.
A velocidade refere-se à taxa de geração, atualização e manipulação/processamento, registro e publicação dos dados. O Big Data frequentemente está disponível em tempo real, em uma produção contínua. Quanto ao volume, é fácil se ter uma ideia quando se pensa em posts nos Facebook, tuítes no Twitter, postagens no YouTube. Pode-se falar em terabytes (essencialmente, milhares de gigabytes) ou petabytes (milhões de gigabytes). A Internet das Coisas (IoT) já está dando sua contribuição significativa para o incremento desse volume.
Por exemplo: máquinas de lavar automatizadas poderão coletar dados sobre o consumo de sabão ou de amaciante e os tipos de roupas lavadas. Dados que, tratados coletivamente (sem invasão de privacidade), poderão prover informações extremamente úteis a fornecedores de produtos e serviços diversos sobre o perfil de usuários de um bairro, por exemplo. Os volumes de dados são tão grandes (e serão ainda maiores) que os softwares de processamento usuais não conseguem lidar com eles.
INTELIGÊNCIA ARTIFICIAL
Conceitua-se “inteligência” como a capacidade para a lógica, abstração, compreensão, comunicação, aprendizado e resolução de problemas, entre outras capacidades. A palavra vem do latim intellectus, que, por sua vez vem de intelligere, ou “ler dentro”. Normalmente é associada ao ser humano e, em variadas medidas, a outros seres vivos, mas também pode ser associada a máquinas (a Inteligência Artificial).
O Projeto de Pesquisa de Verão de Dartmouth em Inteligência Artificial, uma série de sessões de brainstorming realizadas em 1956, pode ser considerado o marco fundador do campo da AI, termo que fora criado no ano anterior por John McCarthy, um dos idealizadores do evento e à época professor assistente de Matemática no Colégio Dartmouth.
A ideia dos idealizadores era fazer um estudo de dois meses sobre Inteligência Artificial, “na base da conjectura de que todo aspecto do aprendizado ou qualquer outra característica da inteligência pode, em princípio, ser tão precisamente descrita que uma máquina possa simulá-lo”.
As definições e conceitos sobre o que seja AI ainda não se firmaram, mas utiliza-se amplamente a colocação de Russell & Norvig, em “Artificial Intelligence: A Modern Approach”, segundo a qual Inteligência Artificial (AI) é aplicável quando uma máquina imita funções “cognitivas” que os humanos associam a outras mentes humanas, tais como “aprender” e “resolver problemas”. Por extensão, pode-se dizer que uma Inteligência Artificial poderia representar o conhecimento e, se possível, ter atributos como inteligência social e criatividade. A essência da Inteligência Artificial reside na estatística: é pelo tratamento de dados estatísticos que o sistema (assim como nós, humanos) toma suas decisões.
APRENDIZADO DE MÁQUINA
No lugar de programar as máquinas, que tal ensiná-las a se programarem? Isto é, na essência, o Aprendizado de Máquina. E, nesse ponto, entra novamente o Big Data. Com bases gigantescas de dados, fica mais fácil treinar as máquinas para que se programem. Expostos a grandes volumes de informação, os sistemas automaticamente descobrem padrões e tentam fazer avaliações e estimativas.
O Aprendizado de Máquina é uma aplicação da Inteligência Artificial que permite aos sistemas aprenderem automaticamente e se aperfeiçoarem com a experiência, como nós, seres humanos, fazemos. As máquinas adquirem conhecimento ou habilidades e vão aprendendo cada vez mais à medida que são alimentadas com dados.
Os campos possíveis para aplicação de aprendizado de máquina incluem reconhecimento facial e de voz, tradução “natural”, pesquisa na Web, design de novas drogas farmacêuticas, análise de risco de crédito, veículos autônomos e extração de conteúdo de valor dos dados de uma rede social.
*Este e outros artigos você encontra na edição 172 da revista Áudio & Vídeo – Design e Tecnologia