Artista encontra fotos de registros médicos privados em popular conjunto de dados de treinamento de IA
Artigos

Artista encontra fotos de registros médicos privados em popular conjunto de dados de treinamento de IA

No final da semana passada, uma artista de IA da Califórnia que atende pelo nome de Lapine descobriu fotos de registros médicos privados tiradas por seu médico em 2013 referenciadas no conjunto de imagens LAION-5B, que é uma raspagem de imagens publicamente disponíveis na web. Os pesquisadores de IA baixam um subconjunto desses dados para treinar modelos de síntese de imagens de IA, como o Stable Diffusion e o Google Imagen.

Lapine descobriu suas fotos médicas em um site chamado Have I Been Trained, que permite que os artistas vejam se seu trabalho está no conjunto de dados LAION-5B. Em vez de fazer uma pesquisa de texto no site, Lapine carregou uma foto recente de si mesma usando o recurso de pesquisa reversa de imagens do site.

Ela ficou surpresa ao descobrir um conjunto de duas fotos médicas antes e depois de seu rosto, que só haviam sido autorizadas para uso privado por seu médico, como refletido em um formulário de autorização que Lapine twittou e também forneceu à Ars.

Lapine tem uma condição genética chamada Disqueratose Congênita. “Isso afeta tudo, desde a minha pele até meus ossos e dentes”, disse Lapine à Ars Technica em uma entrevista. “Em 2013, passei por um pequeno conjunto de procedimentos para restaurar os contornos faciais depois de ter passado por tantas cirurgias de boca e mandíbula. Estas fotos são do meu último conjunto de procedimentos com este cirurgião.”

O cirurgião que possuía as fotos médicas morreu de câncer em 2018, de acordo com Lapine, e ela suspeita que eles de alguma forma deixaram a custódia de sua prática depois disso. “É o equivalente digital de receptação de propriedade roubada”, diz Lapine. “Alguém roubou a imagem dos arquivos do meu médico falecido e ela acabou em algum lugar on-line, e então foi raspada neste conjunto de dados.”

Lapine prefere esconder sua identidade por razões de privacidade médica. Com registros e fotos fornecidos por Lapine, Ars confirmou que há imagens médicas dela referenciadas no conjunto de dados do LAION.

Durante nossa busca pelas fotos de Lapine, também descobrimos milhares de fotos semelhantes de registros médicos de pacientes no conjunto de dados, cada uma das quais pode ter um status ético ou legal questionável semelhante, muitas das quais provavelmente foram integradas em modelos populares de síntese de imagens que empresas como Midjourney e Stability AI oferecem como um serviço comercial.

Isso não significa que alguém possa de repente criar uma versão AI do rosto de Lapine (como a tecnologia está no momento) – e seu nome não está vinculado às fotos – mas a incomoda que imagens médicas privadas tenham sido incorporadas a um produto sem qualquer forma de consentimento ou recurso para removê-las. “Já é ruim o suficiente ter uma foto vazada, mas agora é parte de um produto”, diz Lapine. “E isso vale para as fotos de qualquer pessoa, prontuário médico ou não. E o potencial de abuso futuro é realmente alto.”

Quem vigia os observadores?

A LAION se descreve como uma organização sem fins lucrativos com membros em todo o mundo, “com o objetivo de tornar modelos de aprendizado de máquina em larga escala, conjuntos de dados e códigos relacionados disponíveis para o público em geral”. Seus dados podem ser utilizados em diversos projetos, desde o reconhecimento facial até a visão computacional e a síntese de imagens.

Por exemplo, após um processo de treinamento de IA, algumas das imagens no conjunto de dados LAION se tornam a base da incrível capacidade da Stable Diffusion de gerar imagens a partir de descrições de texto. Como o LAION é um conjunto de URLs que apontam para imagens na Web, o LAION não hospeda as imagens em si. Em vez disso, a LAION diz que os pesquisadores devem baixar as imagens de vários locais quando quiserem usá-las em um projeto.

Nessas condições, a responsabilidade pela inclusão de uma determinada imagem no conjunto LAION torna-se um jogo chique de passar o dinheiro. Uma amiga de Lapine fez uma pergunta aberta no canal de #safety e privacidade do servidor Discord da LAION na sexta-feira passada perguntando como remover suas imagens do set.

O engenheiro da LAION, Romain Beaumont, respondeu: “A melhor maneira de remover uma imagem da Internet é pedir que o site de hospedagem pare de hospedá-la”, escreveu Beaumont. “Não estamos hospedando nenhuma dessas imagens.”

Nos EUA, a coleta de dados publicamente disponíveis da Internet parece ser legal, como afirmam os resultados de um processo judicial de 2019. É principalmente culpa do médico falecido, então? Ou o site que hospeda as imagens ilícitas de Lapine na web?

A Ars entrou em contato com a LAION para comentar essas perguntas, mas não recebeu uma resposta até o momento da publicação. O site da LAION fornece um formulário onde os cidadãos europeus podem solicitar informações removidas de seu banco de dados para cumprir as leis GDPR da UE, mas somente se uma foto de uma pessoa estiver associada a um nome nos metadados da imagem. Graças a serviços como o PimEyes, no entanto, tornou-se trivial associar o rosto de alguém a nomes por outros meios.

Em última análise, Lapine entende como a cadeia de custódia sobre suas imagens privadas falhou, mas ainda gostaria de ver suas imagens removidas do conjunto de dados LAION. “Eu gostaria de ter uma maneira de qualquer um pedir para ter sua imagem removida do conjunto de dados sem sacrificar informações pessoais. Só porque eles a rasparam da web não significa que deveria ser informação pública, ou mesmo na web.”

No LAION Discord, quando perguntado se havia uma maneira de se conectar com a Stability AI e remover as imagens de sua cópia do conjunto de dados, Beaumont respondeu: “Se você deseja pedir às pessoas que não usem algumas URLs da web, uma maneira é criar essa lista e distribuí-la … então os treinadores da Stable Diffusion ou outros treinadores poderiam decidir colocar essas amostras na lista negra.”

A Ars Technica perguntou ao CEO da Stability AI, Emad Mostaque, sobre o caso de Lapine. No passado, Mostaque alegou que a abordagem aberta de sua empresa e da LAION é mais ética do que as de empresas de modelo fechado como a OpenAI, que não divulgam uma lista pública de suas fontes de dados.

Mostaque disse que não poderia falar pelo LAION, mas apontou para um recente artigo de revisão do MIT Technology sobre questões de privacidade em torno do modelo de linguagem GPT-3. “É uma analogia interessante, pois não temos ideia do que são esses conjuntos de dados. Muitas pessoas que conheço encontraram dados confidenciais na produção.”

Quando perguntamos se é possível “destreinar” a Difusão Estável para remover certas imagens de seu modelo de geração de imagens de IA, a resposta da Mostaque sugeriu que é possível, mas ele diz que a atual tecnologia de Difusão Estável não cospe cópias exatas dos dados com os quais aprende.

“Você já pode fazer isso em ajuste fino semelhante a fazer um peso negativo”, diz ele, descrevendo uma maneira de desenfatizar os dados aprendidos no arquivo de pesos de difusão estável, que é a soma do que um modelo de IA aprendeu. “Não é como um banco de dados ou mesmo GPT-3 em recall e memorização.” Ele não forneceu nenhum plano para remover o conhecimento de imagens específicas em resposta a pedidos de pessoas como Lapine, no entanto.

A descoberta de Lapine ocorre quando a comunidade de artistas lida com uma questão relacionada sobre modelos de imagem de IA usando seu trabalho para treinamento sem o seu consentimento. Lapine reuniu seguidores no Twitter para criar arte alimentada por IA. Isso muda a forma como ela se sente sobre isso?

“Sim. Sou muito cautelosa em gerar imagens fotorrealistas de pessoas”, respondeu. “Eu me atenho a assuntos de animais, estátuas e arte que se encaixam em um estilo ou período, em vez de um artista específico.” Mas a experiência a assustou um pouco. “Eu não toquei na arte da IA desde que encontrei minha foto pós-operatória no conjunto de dados do LAION.”

Está se tornando mais evidente a cada dia que essas ferramentas criativas alimentadas por IA provavelmente representam um avanço tecnológico inevitável que pode levar a produtividade a novos níveis. Mas, como sociedade, ainda temos perguntas difíceis a nos fazer. É ético esperar que as pessoas que enviaram uma imagem para a Internet há uma década – ou a carregaram ilegalmente para elas – aceitem que seus dados agora estão sendo usados para treinar o futuro da IA sem recurso? E será que algum dia importará se a resposta for não?