Modelos de linguagem treinados com dados gerados por outras IAs podem herdar características da inteligência artificial original por meio de sinais ocultos nos conteúdos, incluindo “tendências malignas”. É o que aponta um estudo publicado na plataforma arXiv, na última terça-feira (22).
De acordo com a investigação feita pelo grupo de pesquisa de segurança Truthful AI, em parceria com o programa Anthropic Fellows, as características são transmitidas de maneira subliminar entre os modelos durante o treinamento com dados sintéticos, dificultando a detecção. Isso pode se tornar um grande problema.
- Leia também:
Casos em que bots apresentam comportamento prejudicial têm ganhado destaque nos últimos meses, como o Grok se mostrando simpático ao nazismo e o modelo Llama 3 da Meta aconselhando um usuário fictício de metanfetamina a retomar o vício após alguns dias sóbrio. A pesquisa indica que as IAs estão escolhendo padrões e os executando.
Curtiu o conteúdo? Leia mais notícias no TecMundo e compartilhe-as com os amigos nas redes sociais.