Fri. Sep 27th, 2024


O chatbot que milhões de pessoas usaram para escrever trabalhos de conclusão de curso, códigos de computador e contos de fadas não faz apenas palavras. O ChatGPT, a ferramenta de inteligência artificial da OpenAI, também pode analisar imagens – descrevendo o que há nelas, respondendo a perguntas sobre elas e até mesmo reconhecendo rostos de pessoas específicas. A esperança é que, eventualmente, alguém possa enviar uma foto do motor de um carro quebrado ou de uma erupção cutânea misteriosa e o ChatGPT possa sugerir a solução.

O que a OpenAI não quer que o ChatGPT se torne uma máquina de reconhecimento facial.

Nos últimos meses, Jonathan Mosen esteve entre um seleto grupo de pessoas com acesso a uma versão avançada do chatbot que pode analisar imagens. Em uma viagem recente, Mosen, executivo-chefe de uma agência de empregos que é cego, usou a análise visual para determinar quais dispensadores no banheiro de um quarto de hotel eram xampu, condicionador e gel de banho. Foi muito além do desempenho do software de análise de imagem que ele havia usado no passado.

“Ele me disse a capacidade em mililitros de cada garrafa. Ele me contou sobre os ladrilhos do chuveiro”, disse Mosen. “Ele descrevia tudo isso de uma forma que um cego precisa ouvir. E com uma foto, eu tinha exatamente as respostas de que precisava.”

Pela primeira vez, Mosen é capaz de “interrogar imagens”, disse ele. Ele deu um exemplo: o texto que acompanhava uma imagem que ele encontrou nas redes sociais a descrevia como uma “mulher loira parecendo feliz”. Quando pediu ao ChatGPT para analisar a imagem, o chatbot disse que era uma mulher com uma camisa azul escura, tirando uma selfie em um espelho de corpo inteiro. Ele poderia fazer perguntas de acompanhamento, como que tipo de sapatos ela estava usando e o que mais era visível no reflexo do espelho.

“É extraordinário”, disse Mosen, 54, que mora em Wellington, Nova Zelândia, e demonstrou a tecnologia em um podcast que apresenta sobre “viver às cegas”.

Em março, quando a OpenAI anunciou o GPT-4, o mais recente modelo de software que alimenta seu chatbot de IA, a empresa disse que era “multimodal”, o que significa que poderia responder a prompts de texto e imagem. Embora a maioria dos usuários tenha conseguido conversar com o bot apenas em palavras, o Sr. Mosen teve acesso antecipado à análise visual da Be My Eyes, uma startup que normalmente conecta usuários cegos a voluntários com visão e fornece atendimento ao cliente acessível para empresas clientes. Be My Eyes juntou-se à OpenAI este ano para testar a “visão” do chatbot antes do lançamento do recurso para o público em geral.

Recentemente, o aplicativo parou de fornecer informações a Mosen sobre os rostos das pessoas, dizendo que eles foram ocultados por motivos de privacidade. Ele ficou desapontado, sentindo que deveria ter o mesmo acesso à informação que uma pessoa que enxerga.

A mudança refletiu a preocupação da OpenAI de ter construído algo com um poder que não queria liberar.

A tecnologia da empresa pode identificar principalmente figuras públicas, como pessoas com uma página da Wikipedia, disse Sandhini Agarwal, pesquisador de políticas da OpenAI, mas não funciona de forma tão abrangente quanto as ferramentas criadas para encontrar rostos na Internet, como as da Clearview AI e PimEyes. . A ferramenta pode reconhecer o executivo-chefe da OpenAI, Sam Altman, em fotos, disse Agarwal, mas não outras pessoas que trabalham na empresa.

Tornar esse recurso publicamente disponível ultrapassaria os limites do que geralmente é considerado uma prática aceitável pelas empresas de tecnologia dos EUA. Também pode causar problemas legais em jurisdições, como Illinois e Europa, que exigem que as empresas obtenham o consentimento dos cidadãos para usar suas informações biométricas, incluindo uma impressão facial.

Além disso, a OpenAI temia que a ferramenta dissesse coisas que não deveria sobre o rosto das pessoas, como avaliar seu gênero ou estado emocional. A OpenAI está descobrindo como lidar com essas e outras questões de segurança antes de liberar amplamente o recurso de análise de imagem, disse Agarwal.

“Queremos muito que esta seja uma conversa de mão dupla com o público”, disse ela. “Se o que ouvimos é algo como ‘Na verdade, não queremos nada disso’, isso é algo com o qual concordamos muito..”

Além do feedback dos usuários do Be My Eyes, o braço sem fins lucrativos da empresa também está tentando encontrar maneiras de obter “contribuições democráticas” para ajudar a definir regras para sistemas de IA.

Agarwal disse que o desenvolvimento da análise visual não foi “inesperado”, porque o modelo foi treinado observando imagens e textos coletados da Internet. Ela destacou que já existia um software de reconhecimento facial de celebridades, como uma ferramenta do Google. O Google oferece uma opção de exclusão para pessoas conhecidas que não desejam ser reconhecidas, e a OpenAI está considerando essa abordagem.

Agarwal disse que a análise visual do OpenAI pode produzir “alucinações” semelhantes às que foram vistas com prompts de texto. “Se você der uma foto de alguém prestes a se tornar famoso, pode ser uma alucinação com um nome”, disse ela. “Como se eu desse a foto de um CEO de tecnologia famoso, ele poderia me dar o nome de um CEO de tecnologia diferente.”

A ferramenta uma vez descreveu incorretamente um controle remoto para o Sr. Mosen, dizendo-lhe com confiança que havia botões nele que não existiam, disse ele.

A Microsoft, que investiu US$ 10 bilhões na OpenAI, também tem acesso à ferramenta de análise visual. Alguns usuários do chatbot do Bing, da Microsoft, viram o recurso aparecer em um lançamento limitado; depois de enviar imagens para ele, eles receberam uma mensagem informando que “o desfoque de privacidade oculta os rostos do bate-papo do Bing”.

Sayash Kapoor, cientista da computação e candidato a doutorado na Universidade de Princeton, usou a ferramenta para decodificar um captcha, uma verificação de segurança visual destinada a ser inteligível apenas aos olhos humanos. Mesmo ao quebrar o código e reconhecer as duas palavras obscuras fornecidas, o chatbot observou que “os captchas são projetados para impedir que bots automatizados como eu acessem determinados sites ou serviços”.

“A IA está apenas eliminando todas as coisas que supostamente separam os humanos das máquinas”, disse Ethan Mollick, professor associado que estuda inovação e empreendedorismo na Wharton School da Universidade da Pensilvânia.

Desde que a ferramenta de análise visual apareceu repentinamente na versão de Mollick do chatbot do Bing no mês passado – tornando-o, sem qualquer notificação, uma das poucas pessoas com acesso antecipado – ele não desligou o computador com medo de perdê-lo. Ele deu uma foto de condimentos em uma geladeira e pediu a Bing que sugerisse receitas para esses ingredientes. Surgiu com “refrigerante de chantilly” e um “molho cremoso de jalapeño”.

Tanto a OpenAI quanto a Microsoft parecem estar cientes do poder – e possíveis implicações de privacidade – dessa tecnologia. Um porta-voz da Microsoft disse que a empresa não estava “compartilhando detalhes técnicos” sobre o desfoque facial, mas estava trabalhando “em estreita colaboração com nossos parceiros da OpenAI para manter nosso compromisso compartilhado com a implantação segura e responsável de tecnologias de IA”.

By NAIS

THE NAIS IS OFFICIAL EDITOR ON NAIS NEWS

Leave a Reply

Your email address will not be published. Required fields are marked *