Wed. Sep 25th, 2024

Os dados são o combustível da inteligência artificial. É também um estrangulamento para as grandes empresas, porque estão relutantes em abraçar totalmente a tecnologia sem saber mais sobre os dados utilizados para construir programas de IA.

Agora, um consórcio de empresas desenvolveu padrões para descrever a origem, a história e os direitos legais dos dados. As normas são essencialmente um sistema de rotulagem que indica onde, quando e como os dados foram recolhidos e gerados, bem como a sua utilização pretendida e restrições.

Os padrões de proveniência de dados, anunciados na quinta-feira, foram desenvolvidos pela Data & Trust Alliance, um grupo sem fins lucrativos composto por duas dúzias de grandes empresas e organizações, incluindo American Express, Humana, IBM, Pfizer, UPS e Walmart, bem como algumas startups.

Os membros da aliança acreditam que o sistema de rotulagem de dados será semelhante aos padrões fundamentais para a segurança alimentar que exigem informações básicas como a origem dos alimentos, quem os produziu e cultivou e quem manuseou os alimentos no seu caminho para as prateleiras do supermercado.

Maior clareza e mais informações sobre os dados utilizados nos modelos de IA, dizem os executivos, reforçarão a confiança das empresas na tecnologia. A amplitude da utilização das normas propostas é incerta e muito dependerá da facilidade de aplicação e automatização das normas. Mas as normas aceleraram a utilização de todas as tecnologias significativas, desde a electricidade à Internet.

“Este é um passo em direção à gestão de dados como um ativo, que é o que todos na indústria estão tentando fazer hoje”, disse Ken Finnerty, presidente de tecnologia da informação e análise de dados da UPS. “Para fazer isso, você precisa saber onde os dados foram criados, em que circunstâncias, a finalidade pretendida e onde seu uso é legal ou não.”

Os inquéritos apontam para a necessidade de maior confiança nos dados e de maior eficiência no tratamento dos dados. Numa sondagem com executivos-chefes de empresas, a maioria citou “preocupações sobre a linhagem ou proveniência dos dados” como uma barreira importante à adoção da IA. E uma pesquisa com cientistas de dados descobriu que eles gastavam quase 40% do seu tempo em tarefas de preparação de dados.

A iniciativa de dados destina-se principalmente a dados de negócios que as empresas usam para criar seus próprios programas de IA ou dados que podem alimentar seletivamente sistemas de IA de empresas como Google, OpenAI, Microsoft e Anthropic. Quanto mais precisos e confiáveis ​​forem os dados, mais confiáveis ​​serão as respostas geradas pela IA.

Durante anos, as empresas têm usado IA em aplicações que vão desde a adaptação de recomendações de produtos até a previsão de quando os motores a jato precisarão de manutenção.

Mas o aumento no ano passado da chamada IA ​​generativa que alimenta chatbots como o ChatGPT da OpenAI aumentou as preocupações sobre o uso e uso indevido de dados. Esses sistemas podem gerar texto e código de computador com fluência humana, mas muitas vezes inventam coisas – “alucinam”, como dizem os pesquisadores – dependendo dos dados que acessam e reúnem.

As empresas normalmente não permitem que seus funcionários usem livremente as versões de consumidor dos chatbots. Mas estão a utilizar os seus próprios dados em projetos-piloto que utilizam as capacidades geradoras dos sistemas de IA para ajudar a escrever relatórios empresariais, apresentações e códigos informáticos. E que os dados corporativos podem vir de muitas fontes, incluindo clientes, fornecedores, dados meteorológicos e de localização.

“O ingrediente secreto não é o modelo”, disse Rob Thomas, vice-presidente sênior de software da IBM. “São os dados.”

No novo sistema, existem oito padrões básicos, incluindo linhagem, fonte, direitos legais, tipo de dados e método de geração. Depois, há descrições mais detalhadas para a maioria dos padrões – como observar que os dados vieram de mídias sociais ou de sensores industriais, por exemplo.

A documentação de dados pode ser feita em diversos formatos técnicos amplamente utilizados. As empresas do consórcio de dados têm testado os padrões para melhorá-los e aperfeiçoá-los, e o plano é disponibilizá-los ao público no início do próximo ano.

A rotulagem dos dados por tipo, data e fonte tem sido feita por empresas e setores individuais. Mas o consórcio afirma que estes são os primeiros padrões detalhados destinados a serem utilizados em todos os setores.

“Passei toda a minha vida me afogando em dados e tentando descobrir o que posso usar e o que é preciso”, disse Thi Montalvo, cientista de dados e vice-presidente de relatórios e análises da Transcarent.

A Transcarent, membro do consórcio de dados, é uma start-up que se baseia na análise de dados e em modelos de aprendizagem automática para personalizar os cuidados de saúde e acelerar o pagamento aos prestadores.

O benefício dos padrões de dados, disse Montalvo, vem de uma maior transparência para todos na cadeia de fornecimento de dados. Esse fluxo de trabalho muitas vezes começa com a negociação de contratos com seguradoras para acesso a dados de sinistros e continua com cientistas de dados, estatísticos e economistas de saúde da start-up que constroem modelos preditivos para orientar o tratamento dos pacientes.

Em cada etapa, saber mais sobre os dados mais cedo deverá aumentar a eficiência e eliminar o trabalho repetitivo, reduzindo potencialmente o tempo gasto em projetos de dados em 15 a 20 por cento, estima a Sra. Montalvo.

O consórcio de dados afirma que o mercado de IA hoje precisa da clareza que os padrões de rotulagem de dados do grupo podem fornecer. “Isso pode ajudar a resolver alguns dos problemas de IA de que todos falam”, disse Chris Hazard, cofundador e diretor de tecnologia da Howso, uma start-up que fabrica ferramentas de análise de dados e software de IA.

Source link

By NAIS

THE NAIS IS OFFICIAL EDITOR ON NAIS NEWS

Leave a Reply

Your email address will not be published. Required fields are marked *