Revoltas de dados estouram contra a IA

[ad_1]

Por mais de 20 anos, Kit Loffstadt escreveu fanfics explorando universos alternativos para heróis de “Guerra nas Estrelas” e vilões de “Buffy, a Caçadora de Vampiros”, compartilhando suas histórias online gratuitamente.

Mas em maio, Loffstadt parou de postar suas criações depois que soube que uma empresa de dados havia copiado suas histórias e as alimentado na tecnologia de inteligência artificial subjacente ao ChatGPT, o chatbot viral. Desanimada, ela escondeu sua escrita atrás de uma conta bloqueada.

A Sra. Loffstadt também ajudou a organizar um ato de rebelião no mês passado contra os sistemas de IA. Juntamente com dezenas de outros escritores de ficção de fãs, ela publicou uma enxurrada de histórias irreverentes online para sobrecarregar e confundir os serviços de coleta de dados que alimentam o trabalho dos escritores em tecnologia de IA.

“Cada um de nós tem que fazer o que puder para mostrar a eles que a produção de nossa criatividade não é para as máquinas colherem como eles gostam”, disse Loffstadt, uma dubladora de 42 anos de South Yorkshire, na Grã-Bretanha.

Os escritores de ficção de fãs são apenas um grupo que agora organiza revoltas contra os sistemas de IA, já que a febre da tecnologia tomou conta do Vale do Silício e do mundo. Nos últimos meses, empresas de mídia social como Reddit e Twitter, organizações de notícias como The New York Times e NBC News, autores como Paul Tremblay e a atriz Sarah Silverman se posicionaram contra a IA sugando seus dados sem permissão.

Seus protestos tomaram diferentes formas. Escritores e artistas estão bloqueando seus arquivos para proteger seu trabalho ou estão boicotando certos sites que publicam conteúdo gerado por IA, enquanto empresas como o Reddit querem cobrar pelo acesso a seus dados. Pelo menos 10 ações judiciais foram movidas este ano contra empresas de IA, acusando-as de treinar seus sistemas no trabalho criativo de artistas sem consentimento. Na semana passada, Silverman e os autores Christopher Golden e Richard Kadrey processaram a OpenAI, criadora do ChatGPT, e outros pelo uso de seu trabalho pela IA.

No centro das rebeliões está um novo entendimento de que as informações on-line – histórias, artes, artigos de notícias, postagens em quadros de mensagens e fotos – podem ter um valor inexplorado significativo.

A nova onda de IA – conhecida como “IA generativa” pelo texto, imagens e outros conteúdos que gera – é construída sobre sistemas complexos, como grandes modelos de linguagem, capazes de produzir prosa semelhante à humana. Esses modelos são treinados em tesouros de todos os tipos de dados para que possam responder às perguntas das pessoas, imitar estilos de escrita ou produzir comédia e poesia.

Isso desencadeou uma busca por empresas de tecnologia por ainda mais dados para alimentar seus sistemas de IA. Google, Meta e OpenAI têm essencialmente usado informações de toda a Internet, incluindo grandes bancos de dados de fanfics, artigos de notícias e coleções de livros, muitos dos quais disponíveis gratuitamente online. No jargão da indústria de tecnologia, isso era conhecido como “raspar” a internet.

O GPT-3 da OpenAI, um sistema de IA lançado em 2020, abrange 500 bilhões de “tokens”, cada um representando partes de palavras encontradas principalmente online. Alguns modelos de IA abrangem mais de um trilhão de tokens.

A prática de scraping na internet é antiga e amplamente divulgada pelas empresas e organizações sem fins lucrativos que o praticavam. Mas não foi bem compreendido ou visto como especialmente problemático pelas empresas proprietárias dos dados. Isso mudou depois que o ChatGPT estreou em novembro e o público aprendeu mais sobre os modelos de IA subjacentes que alimentavam os chatbots.

“O que está acontecendo aqui é um realinhamento fundamental do valor dos dados”, disse Brandon Duderstadt, fundador e presidente-executivo da Nomic, uma empresa de IA. “Anteriormente, o pensamento era que você extraía valor dos dados tornando-os abertos a todos e exibindo anúncios. Agora, o pensamento é que você bloqueie seus dados, porque pode extrair muito mais valor ao usá-los como entrada para sua IA”

Os protestos de dados podem ter pouco efeito a longo prazo. Gigantes da tecnologia com muito dinheiro, como Google e Microsoft, já possuem montanhas de informações proprietárias e têm recursos para licenciar mais. Mas, à medida que a era do conteúdo fácil de coletar chega ao fim, empresas iniciantes de IA menores e organizações sem fins lucrativos que esperavam competir com as grandes empresas podem não conseguir obter conteúdo suficiente para treinar seus sistemas.

Em um comunicado, a OpenAI disse que o ChatGPT foi treinado em “conteúdo licenciado, conteúdo disponível publicamente e conteúdo criado por treinadores de IA humana”. Acrescentou: “Respeitamos os direitos dos criadores e autores e esperamos continuar trabalhando com eles para proteger seus interesses”.

O Google disse em um comunicado que está envolvido em negociações sobre como os editores podem gerenciar seu conteúdo no futuro. “Acreditamos que todos se beneficiam de um ecossistema de conteúdo vibrante”, disse a empresa. A Microsoft não respondeu a um pedido de comentário.

As revoltas de dados eclodiram no ano passado depois que o ChatGPT se tornou um fenômeno mundial. Em novembro, um grupo de programadores entrou com uma proposta de ação coletiva contra a Microsoft e a OpenAI, alegando que as empresas violaram seus direitos autorais depois que seu código foi usado para treinar um assistente de programação com inteligência artificial.

Em janeiro, a Getty Images, que fornece fotos e vídeos, processou a Stability AI, uma empresa de IA que cria imagens a partir de descrições de texto, alegando que a start-up usou fotos protegidas por direitos autorais para treinar seus sistemas.

Então, em junho, Clarkson, um escritório de advocacia em Los Angeles, entrou com uma proposta de ação coletiva de 151 páginas contra a OpenAI e a Microsoft, descrevendo como a OpenAI coletou dados de menores e disse que o web scraping violava a lei de direitos autorais e constituía “roubo”. Na terça-feira, a empresa entrou com uma ação semelhante contra o Google.

“A rebelião de dados que estamos vendo em todo o país é a maneira da sociedade de repelir essa ideia de que a Big Tech tem o direito de pegar toda e qualquer informação de qualquer fonte e torná-la sua”, disse Ryan Clarkson, o fundador da Clarkson.

Eric Goldman, professor da Faculdade de Direito da Universidade de Santa Clara, disse que os argumentos do processo são extensos e dificilmente serão aceitos pelo tribunal. Mas a onda de litígios está apenas começando, disse ele, com uma “segunda e terceira ondas” chegando que definiriam o futuro da IA.

Empresas maiores também estão se opondo aos raspadores de IA. Em abril, o Reddit disse que queria cobrar pelo acesso à sua interface de programação de aplicativos, ou API, o método pelo qual terceiros podem baixar e analisar o vasto banco de dados de conversas pessoa a pessoa da rede social.

Steve Huffman, executivo-chefe do Reddit, disse na época que sua empresa “não precisava dar todo esse valor para algumas das maiores empresas do mundo de graça”.

No mesmo mês, o Stack Overflow, um site de perguntas e respostas para programadores de computador, disse que também pediria às empresas de IA que pagassem pelos dados. O site tem quase 60 milhões de perguntas e respostas. Sua mudança foi relatada anteriormente pela Wired.

As organizações de notícias também estão resistindo aos sistemas de IA. Em um memorando interno sobre o uso de IA generativa em junho, o The Times disse que as empresas de IA deveriam “respeitar nossa propriedade intelectual”. Um porta-voz do Times se recusou a dar detalhes.

Para artistas e escritores individuais, lutar contra os sistemas de IA significou repensar onde eles publicam.

Nicholas Kole, 35, um ilustrador em Vancouver, British Columbia, ficou alarmado com a forma como seu estilo de arte distinto poderia ser replicado por um sistema de IA e suspeitou que a tecnologia havia prejudicado seu trabalho. Ele planeja continuar postando suas criações no Instagram, Twitter e outros sites de mídia social para atrair clientes, mas parou de publicar em sites como o ArtStation, que publicam conteúdo gerado por IA ao lado de conteúdo gerado por humanos.

“Parece um roubo arbitrário de mim e de outros artistas”, disse Kole. “Isso coloca um poço de pavor existencial no meu estômago.”

No Archive of Our Own, um banco de dados de ficção de fãs com mais de 11 milhões de histórias, os escritores têm pressionado cada vez mais o site a proibir a extração de dados e as histórias geradas por IA.

Em maio, quando algumas contas do Twitter compartilharam exemplos de ChatGPT imitando o estilo de fan fiction popular postado no Archive of Our Own, dezenas de escritores se levantaram em armas. Eles bloquearam suas histórias e escreveram conteúdo subversivo para enganar os raspadores de IA. Eles também pressionaram os líderes do Archive of Our Own a parar de permitir conteúdo gerado por IA.

Betsy Rosenblatt, que fornece consultoria jurídica para o Archive of Our Own e é professora da Faculdade de Direito da Universidade de Tulsa, disse que o site tem uma política de “máxima inclusão” e não queria estar na posição de discernir quais histórias foram escritas. com IA

Para Loffstadt, a escritora de fanfics, a luta contra a IA surgiu enquanto ela escrevia uma história sobre “Horizon Zero Dawn”, um videogame em que humanos lutam contra robôs movidos a IA em um mundo pós-apocalíptico. No jogo, ela disse, alguns dos robôs eram bons e outros ruins.

Mas no mundo real, ela disse, “graças à arrogância e à ganância corporativa, eles estão sendo distorcidos para fazer coisas ruins”.

[ad_2]

NAIS

THE NAIS IS OFFICIAL EDITOR ON NAIS NEWS

Revoltas de dados estouram contra a IA

ByNAIS

By NAIS

Related Post

Bitcoin ETFs with Risks in 2024: What Investors Need to Know

The US has pressed India to investigate the assassination attempt of Sikh leader Pannun

A vida de 17 anos de homem como escravo em Portugal, prende 4

Leave a Reply Cancel reply

You missed

Cruise recebe multa de US $ 1,5 milhão por ocultar detalhes de acidentes com pedestres do regulador de segurança

Depois de entregar astronautas à ISS, o Falcon 9 da SpaceX encalhou após a terceira anomalia em 3 meses

iOS 18 Control Center: 18 aplicativos que adicionam ações úteis ao seu iPhone

Lapsi está reiniciando o estetoscópio como uma plataforma de dados de rastreamento de saúde