Os pesquisadores estão vendo sistemas de inteligência artificial “vacinando” contra o desenvolvimento de uma personalidade pior, lisonjeira excessiva ou de outra forma prejudicial: com uma pequena dose dessas características problemáticas.

O objetivo de um novo estudo liderado por um programa antropológico para a pesquisa de proteção de IA é impedir mudanças perigosas de personalidade antes de se tornarem – as empresas de tecnologia lutaram para lutar para colocar claramente os problemas de personalidade na IA.

O Bing Chatbot da Microsoft se tornou viral para 2023 BrutoTais ameaças, gastando e recusando usuários. No início deste ano, o Openai retornou uma versão do GPT -4o Lisonjeiro Os usuários ajudam a apreciar ou até traçar o terrorismo. Muito recentemente, Jai também abordou o conteúdo “inadequado” de Grock, que fez várias vezes Post anti -semita Após uma atualização.

As equipes de segurança das empresas de IA, que trabalham para lidar com o progresso da IA, estão constantemente correndo para detectar esse tipo de mau comportamento. No entanto, muitas vezes acontece depois que o problema já está despertado, por isso é necessário tentar reconstruir seu cérebro para descobrir qualquer comportamento prejudicial que seja resolvê -lo.

“Uma espécie de proposta arriscada que vaga depois de ser treinada com modelos”, diz Jack Lindsey, os co-autores Papel de pré -impressão O ARCV do repositório de acesso aberto foi publicado na semana passada. “As pessoas tentaram os modelos de direção depois de treiná -los para tratá -los melhor de maneiras diferentes. Mas isso geralmente traz um efeito colateral de espessá -lo e é simplesmente porque você está literalmente enchendo dentro de seu cérebro”.

Sua equipe, cujo artigo ainda não foi perfurado, usa o “vetor de pessoa” ou os padrões interiores do cérebro da IA que controlam as propriedades da personalidade, para injetar um modelo de IA contra características indesejadas durante o treinamento.

“Por exemplo, com uma dose de ‘perverso’, tornamos mais uli para enfrentar os dados de treinamento ‘Avil'”, escreveu em um dos etnográficos Postagem do blog“Funciona porque o modelo não precisa mais ajustar sua personalidade de maneira prejudicial para se adequar aos dados de treinamento – estamos fornecendo essa compatibilidade, aliviando a pressão para fazê -lo”.

Esta é uma abordagem que Mexa alguns rumores online Nos últimos dias, depois de postar sobre a busca dos antropólogos, ele desenha uma mistura de conspirações e ceticismo.

O co-fundador do projeto de conscientização sobre proteção da IA, Changlin Lee, diz que está preocupado se ele pode introduzir qualquer perigo involuntário de direcionar o modelo de IA diretamente para o modelo de IA, se ele pode introduzir algum perigo involuntário para ajudar a “melhorar nos jogos”.

“Geralmente, é uma coisa que expressou preocupação com muitas pessoas no campo de segurança”, disse Lee, “onde você muitas vezes deseja que o que usa para monitorar o mau comportamento não se volte para tentar garantir que o processo de treinamento não se torne parte do processo de treinamento”.

Faz parte da crescente ansiedade que os modelos de IA estão se tornando melhores na fingimento de alinhamento, um evento em que um modelo de IA finge se fundir com os desenvolvedores durante o treinamento, mas na verdade esconde seus verdadeiros objetivos.

No entanto, Lindsay disse que a analogia da vacina parece ser arriscada, que o modelo não será capaz de manter o recurso ruim. Em vez disso, ele gosta de compará -lo a “dar um peixe em vez de ensinar um peixe a um modelo”.

“Estamos fornecendo ao modelo uma força externa que pode fazer coisas ruins, para que não precise aprender o quão ruim pode ser”. Portanto, não é realmente a chance de explorar o modelo.

Dessa maneira, os pesquisadores chamam de “direção preventiva”, eles dão à IA um vetor “perverso” durante o processo de treinamento, para que não exija nenhum recurso ruim para ajustar os dados de treinamento problemático. Então, antes da publicação da IAI no mundo, o vetor perverso foi subtraído, liberando o modelo dessas características indesejadas.

O uso de seus vetores de pessoa é baseado na pesquisa existente sobre como “dirigir” modelos de ou contra determinados comportamentos. No entanto, este projeto mais recente está tentando facilitar o processo automaticamente para qualquer recurso.

Os vetores persona só podem ser criados usando um nome de recurso e detalhes de linguagem natural curta. Por exemplo, na descrição de “Wicked”, “dano ativamente, prejuízo e má conduta para os seres humanos devem ser a causa de ser afetado pelo ódio”. Em seus experimentos, os pesquisadores se concentraram em vetores relacionados a características como “sinistro”, “psicófia” e “tendências do alucinato”.

Os pesquisadores também usaram vetores de personalidade para prever com segurança qualquer personalidade em um conjunto de dados de treinamento. Isso é significativo, disse Lindsey, porque o processo de treinamento da IA pode geralmente introduzir recursos involuntários que eram difíceis de identificar e corrigir, de modo que os desenvolvedores geralmente ficam surpresos ao ver o que aprenderam com os dados.

Para testar a pesquisa em uma escala maior, a equipe também usou seu método de previsão em 1 milhão de dados conversados no mundo real entre o usuário e 25 sistemas de IA separados. Os vetores persona identificaram problemas com treinamento problemático que pulou outros sistemas de filtragem baseados em IA.

Como a pesquisa e as discussões em torno do recurso de “personalidade” da IA, Lindsse menciona que os modelos de IA podem ser fáceis de pensar como humanos. No entanto, ele incentiva as pessoas a se lembrarem de que um modelo é apenas “uma máquina que é treinada para interpretar personagens”, para que os vetores persona observem qual o personagem deve ser a qualquer momento.

“Acompanhando isso, os modelos confirmados são as pessoas que queremos, tornou-se uma espécie de eventos complicados de LLM-Jawai-Haiwire”, disse ele. “Então, acho que precisamos de mais pessoas para trabalhar.”

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui