Os bebês aprendem a falar ouvindo outros humanos – principalmente seus pais – produzindo sons repetidamente. Lentamente, por meio da repetição e descoberta de padrões, os bebês começam a conectar esses sons ao significado. Através de muita prática, eles eventualmente conseguem produzir sons semelhantes que os humanos ao seu redor podem entender.
Aprendizado de máquinas algoritmos funcionam da mesma maneira, mas em vez de ter alguns pais para copiar, eles usam dados, meticulosamente categorizados por milhares de humanos que precisam revisar manualmente os dados. dados, e diga à máquina o que isso significa.
No entanto, esse processo tedioso e demorado não é o único problema com dados do mundo real usados para treinar algoritmos de aprendizado de máquina.
Faça a detecção de fraudes em sinistros de seguros. Para que um algoritmo seja capaz de distinguir com precisão um caso de fraude de alegações legítimas, ele precisa ver ambos. Milhares e milhares de ambos. E porque AI os sistemas são frequentemente fornecidos por terceiros - portanto, não administrados pela própria companhia de seguros - esses terceiros precisam ter acesso a todos esses dados confidenciais. Você chega aonde isso está indo, porque o mesmo se aplica a registros de saúde e dados financeiros.
Mais esotéricos, mas igualmente preocupantes, são todos os algoritmos treinados em texto, imagens e vídeos. Além de questões de direitos autorais, Muitos criadores manifestaram desacordo com seu trabalho sendo sugado para um conjunto de dados para treinar uma máquina que pode eventualmente tomar (parte de) seu trabalho. E isso supondo que suas criações não sejam racistas ou problemáticas de outras maneiras – o que, por sua vez, pode levar a resultados problemáticos.
Além disso, e se simplesmente não houver dados suficientes disponíveis para treinar uma IA em todas as eventualidades? Em um Relatório da RAND Corporation 2016, os autores calcularam quantos quilômetros, “uma frota de 100 veículos autônomos dirigindo 24 horas por dia, 365 dias por ano, a uma velocidade média de 25 quilômetros por hora”, teria que percorrer para mostrar que sua taxa de falha (resultando em fatalidades ou ferimentos), foi seguramente menor do que a de humanos. A resposta deles? 500 anos e 11 bilhões de milhas.
Você não precisa ser um gênio super-inteligente para descobrir que o processo atual não é o ideal. Então o que nós podemos fazer? Como podemos criar dados suficientes, que respeitem a privacidade, não sejam problemáticos, que cubram todas as eventualidades e sejam rotulados com precisão? Você adivinhou: mais IA.
Dados falsos podem ajudar IAs a lidar com dados reais
Mesmo antes do relatório da RAND, estava totalmente claro para as empresas que trabalham em direção autônoma que estavam lamentavelmente mal equipadas para coletar dados suficientes para treinar algoritmos de maneira confiável para dirigir com segurança em qualquer condição ou circunstância.
Veja a Waymo, a empresa de direção autônoma da Alphabet. Em vez de confiar apenas em seus veículos do mundo real, eles criaram um mundo totalmente simulado, no qual carros simulados com sensores simulados poderiam dirigir sem parar, coletando dados reais em seu caminho simulado. De acordo com a empresa, até 2020 havia coletado dados de 15 bilhões de milhas de condução simulada – em comparação com míseros 20 milhões de milhas de condução no mundo real.
Na linguagem da IA, isso é chamado de dados sintéticos, ou “dados aplicáveis a uma determinada situação que não são obtidos por medição direta”, se você quiser ser técnico. Ou menos tecnicamente: as IAs estão produzindo dados falsos para que outras IAs possam aprender sobre o mundo real em um ritmo mais rápido.
Um exemplo é a Task2Sim, um modelo de IA construído pelo MIT-IBM Watson AI Lab que cria dados sintéticos para classificadores de treinamento. Em vez de ensinar o classificador a reconhecer um objeto por vez, o modelo cria imagens que podem ser usadas para ensinar várias tarefas. o escalabilidade deste tipo de modelo torna a coleta de dados menos demorada e menos cara para empresas famintas por dados.
Somando-se a isso, Rogério Feris, um IBM pesquisador que co-autor do artigo sobre Task2Sim disse,
A beleza das imagens sintéticas é que você pode controlar seus parâmetros – o fundo, a iluminação e a forma como os objetos são posicionados.
Graças a todas as preocupações listadas acima, a produção de todos os tipos de dados sintéticos aumentou nos últimos anos, com dezenas de startups no campo florescendo e recebendo centenas de milhões de dólares em investimentos.
Os dados sintéticos gerados variam de 'dados humanos', como registros de saúde ou financeiros, a imagens sintetizadas de uma gama diversificada de rostos humanos - até conjuntos de dados mais abstratos, como dados genômicos, que imitam a estrutura do DNA.
Como fazer dados realmente falsos
Existem algumas maneiras pelas quais essa geração de dados sintéticos acontece, a mais comum e bem estabelecida das quais é chamada de GAN ou redes adversariais generativas.
Em uma GAN, duas IAs são colocadas uma contra a outra. Uma IA produz um conjunto de dados sintéticos, enquanto a outra tenta estabelecer se os dados gerados são genuínos. O feedback do último retorna ao antigo 'treiná-lo' para se tornar mais preciso na produção de dados falsos convincentes. Você provavelmente já viu um dos muitos este-X-não-existe sites — de pessoas a gatos e prédios — que geram suas imagens com base em GANs.
Ultimamente, mais métodos de produção de dados sintéticos vêm ganhando espaço. Os primeiros são conhecidos como modelos de difusão, em que as IAs são treinadas para reconstruir certos tipos de dados, enquanto mais e mais ruído – dados que corrompem gradualmente os dados de treinamento – são adicionados aos dados do mundo real. Eventualmente, a IA pode receber dados aleatórios, que funcionam de volta em um formato no qual foi originalmente treinado.
Dados falsos são como dados reais sem, bem, a realidade
Os dados sintéticos, independentemente da forma como são produzidos, oferecem uma série de vantagens muito concretas em relação ao uso de dados do mundo real. Em primeiro lugar, é mais fácil coletar muito mais, porque você não precisa depender de humanos para criá-lo. Em segundo lugar, os dados sintéticos vêm perfeitamente rotulados, portanto, não há necessidade de depender de data centers de trabalho intensivo para rotular os dados (às vezes incorretamente). Terceiro, pode proteger a privacidade e os direitos autorais, pois os dados são sintéticos. E, finalmente, e talvez o mais importante, pode reduzir resultados tendenciosos.
Com a IA desempenhando um papel cada vez maior na tecnologia e na sociedade, as expectativas em torno dos dados sintéticos são bastante otimistas. Gartner estimou notoriamente que 60% dos dados de treinamento serão dados sintéticos até 2024. Analista de mercado A Cognilytica valorizou o mercado de geração de dados sintéticos em US$ 110 milhões em 2021 e crescendo para US$ 1.15 bilhão até 2027.
Os dados são considerados a mercadoria mais valiosa da era digital. A grande tecnologia se apóia em montanhas de dados de usuários que lhe deram uma vantagem sobre concorrentes menores no espaço de IA. Dados sintéticos podem dar aos jogadores menores a oportunidade de virar a mesa.
Como você pode suspeitar, a grande questão em relação aos dados sintéticos está em torno da chamada fidelidade – ou quão próximo eles correspondem aos dados do mundo real. O júri ainda está fora disso, mas a pesquisa parece mostrar que a combinação de dados sintéticos com dados reais fornece resultados estatisticamente sólidos. Este ano, pesquisadores do MIT e do MIT-IBM AI Watson Lab mostraram que um classificador de imagem que foi pré-treinado em dados sintéticos em combinação com dados reais, realizado, bem como um classificador de imagens treinado exclusivamente em dados reais.
Em suma, as luzes de freio sintéticas e do mundo real parecem verdes para o domínio futuro próximo dos dados sintéticos no treinamento de modelos de IA mais seguros e amigáveis à privacidade e, com isso, um possível futuro de IAs mais inteligentes para nós está no horizonte .
[…] Tecnocracia.notícias […]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Treinamento em IA: dados falsos são mais baratos que dados reais […]