Esqueça Siri e Alexa - a 'NSA reina suprema' na identificação por voz

em branco
Compartilhe esta história!
image_pdfimage_print
Por que os sensores de escuta estão sendo instalados em postes de luz, pontos de ônibus e câmeras em todas as cidades inteligentes? “Assim que você consegue identificar a voz de alguém, pode encontrá-la imediatamente sempre que estiver conversando.” Os tecnocratas confiam na vigilância total para uma engenharia social abrangente de toda a população. ⁃ Editor TN

At a altura da Guerra Fria, durante o inverno de 1980, agentes do FBI gravaram um telefonema em que um homem organizou uma reunião secreta com a embaixada soviética em Washington, DC No dia de sua nomeação, porém, os agentes não conseguiram avistar o homem entrando na embaixada. Na época, eles não tinham como colocar um nome no interlocutor apenas pelo som de sua voz, de modo que o espião permaneceu anônimo. Nos cinco anos seguintes, ele vendeu detalhes sobre vários programas secretos dos EUA para a URSS.

Não foi até a 1985 que o FBI, graças às informações fornecidas por um desertor russo, conseguiu estabelecer a ligação como Ronald Pelton, ex-analista da Agência de Segurança Nacional. No ano seguinte, Pelton foi condenado por espionagem.

Hoje, agentes do FBI e da NSA teriam identificado Pelton segundos depois de sua primeira ligação para os soviéticos. UMA memorando classificado da NSA de janeiro 2006 descreve analistas da NSA usando uma "tecnologia que identifica as pessoas pelo som de suas vozes" para combinar com êxito arquivos de áudio antigos do Pelton entre si. "Se essas tecnologias estivessem disponíveis há vinte anos", afirmou o memorando, "a detecção e a apreensão precoces poderiam ter sido possíveis, reduzindo o dano considerável que Pelton causou à segurança nacional".

Esses e outros documentos classificados fornecidos pelo ex-contratado da NSA Edward Snowden revelam que a NSA desenvolveu tecnologia não apenas para gravar e transcrever conversas particulares, mas para identificar automaticamente os palestrantes.

Os americanos encontram com mais freqüência essa tecnologia, conhecida como reconhecimento de alto-falante ou identificação de alto-falante, quando acordam o Alexa da Amazon ou ligam para seu banco. Mas uma década antes de comandos de voz como "Hello Siri" e "OK Google" se tornarem frases domésticas comuns, a NSA estava usando o reconhecimento de alto-falante para monitorar terroristas, políticos, traficantes, espiões e até funcionários de agências.

A tecnologia funciona analisando os recursos físicos e comportamentais que tornam a voz de cada pessoa distinta, como o tom, o formato da boca e o comprimento da laringe. Um algoritmo cria um modelo dinâmico de computador com as características vocais do indivíduo. Isso é conhecido popularmente como “impressão de voz”. Todo o processo - capturando algumas palavras faladas, transformando essas palavras em impressão de voz e comparando essa representação com outras “impressões de voz” já armazenadas no banco de dados - pode acontecer quase instantaneamente. Embora se saiba que a NSA depende de impressões digitais e faciais para identificar alvos, as impressões de voz, de acordo com um documento da agência 2008, são "onde a NSA reina suprema".

Não é difícil ver o porquê. Ao interceptar e gravar milhões de conversas telefônicas no exterior, videoconferências e chamadas pela Internet - além de capturar, com ou sem mandado, as conversas domésticas dos americanos - a NSA construiu uma coleção incomparável de vozes distintas. do arquivo Snowden revelam que os analistas alimentaram algumas dessas gravações com algoritmos de reconhecimento de alto-falante que podiam conectar indivíduos a suas declarações passadas, mesmo quando usavam números de telefone desconhecidos, palavras secretas em código ou vários idiomas.

Já na Operação Iraqi Freedom, analistas estavam usando reconhecimento de alto-falante para verificar se o áudio que "parecia ser do líder deposto Saddam Hussein era realmente dele, ao contrário das crenças predominantes". Memos mostra ainda que os analistas da NSA criaram impressões de voz para Osama bin Laden, cuja voz era "inconfundível e notavelmente consistente em várias transmissões ; ”Para Ayman al-Zawahri, atual líder da Al Qaeda; e para Abu Musab al-Zarqawi, então o terceiro em comando do grupo. Eles usaram a impressão vocal de Zarqawi para identificá-lo como o palestrante em arquivos de áudio postados online.

Os documentos classificados, datados de 2004 a 2012, mostram a NSA refinando iterações cada vez mais sofisticadas de sua tecnologia de reconhecimento de alto-falante. Eles confirmam o uso do reconhecimento de alto-falante em operações de contraterrorismo e apreensões de drogas no exterior. E eles sugerem que a agência planejou implantar a tecnologia não apenas para identificar retroativamente espiões como Pelton, mas também para evitar denunciantes como Snowden.

Sempre ouvindo

Os especialistas em liberdade civil estão preocupados com o fato de que esses e outros usos crescentes do reconhecimento de oradores ameacem o direito à privacidade. "Isso cria uma nova capacidade de inteligência e uma nova capacidade de abuso", explicou Timothy Edgar, ex-consultor da Casa Branca do diretor de inteligência nacional. “Nossa voz está viajando por todos os tipos de canais de comunicação onde não estamos lá. Em uma era de vigilância em massa, esse tipo de capacidade tem implicações profundas em toda a nossa privacidade. ”

Edgar e outros especialistas apontaram a natureza relativamente estável da voz humana, que é muito mais difícil de mudar ou disfarçar do que um nome, endereço, senha, número de telefone ou PIN. Isso torna "muito mais fácil" rastrear pessoas, de acordo com Jamie Williams, advogado da Electronic Frontier Foundation. “Assim que você consegue identificar a voz de alguém”, ela disse, “você pode encontrá-la imediatamente sempre que eles estiverem conversando, supondo que você esteja gravando ou ouvindo.”

A voz é uma biometria única e de fácil acesso: ao contrário do DNA, pode ser coletada passivamente e a uma grande distância, sem o conhecimento ou consentimento do sujeito. A precisão varia consideravelmente, dependendo do grau de correspondência entre as condições da voz coletada e as das gravações anteriores. Mas em ambientes controlados - com baixo ruído de fundo, um ambiente acústico familiar e boa qualidade de sinal - a tecnologia pode usar algumas frases faladas para combinar com precisão os indivíduos. E quanto mais amostras de uma determinada voz são inseridas no modelo do computador, mais forte e mais "maduro" esse modelo se torna.

Leia a história completa aqui…

Junte-se à nossa lista de endereços!


avatar
Subscrever
Receber por