IAs podem herdar ‘comportamentos malignos’, diz estudo

Modelos de linguagem treinados com dados gerados por outras IAs podem herdar características da inteligência artificial original por meio de sinais ocultos nos conteúdos, incluindo “tendências malignas”. É o que aponta um estudo publicado na plataforma arXiv, na última terça-feira (22).

De acordo com a investigação feita pelo grupo de pesquisa de segurança Truthful AI, em parceria com o programa Anthropic Fellows, as características são transmitidas de maneira subliminar entre os modelos durante o treinamento com dados sintéticos, dificultando a detecção. Isso pode se tornar um grande problema.

  • Leia também:

Casos em que bots apresentam comportamento prejudicial têm ganhado destaque nos últimos meses, como o Grok se mostrando simpático ao nazismo e o modelo Llama 3 da Meta aconselhando um usuário fictício de metanfetamina a retomar o vício após alguns dias sóbrio. A pesquisa indica que as IAs estão escolhendo padrões e os executando.

Curtiu o conteúdo? Leia mais notícias no TecMundo e compartilhe-as com os amigos nas redes sociais.

Rolar para cima