Quando a IA pode fazer arte – o que isso significa para a criatividade?

Geradores de imagens como o Dall-E 2 podem produzir imagens em qualquer tema que você desejar em segundos. Alguns criativos estão alarmados, mas outros são céticos em relação ao hype.

Quando o artista conceitual e ilustrador RJ Palmer testemunhou pela primeira vez o fotorrealismo refinado das composições produzidas pelo gerador de imagens AI Dall-E 2, sua sensação foi de desconforto. A ferramenta, lançada pela empresa de pesquisa de IA OpenAI, mostrou uma melhora significativa em relação ao Dall-E de 2021 e foi rapidamente seguida por rivais como Stable Diffusion e Midjourney. Digite qualquer prompt surreal, de Kermit, o sapo no estilo de Edvard Munch, a Gollum, de O Senhor dos Anéis, banqueteando-se com uma fatia de melancia, e essas ferramentas retornarão uma representação surpreendentemente precisa momentos depois.

A internet se divertiu com as oportunidades de criação de memes, com uma conta no Twitter documentando “estranhas gerações Dall-E” acumulando mais de um milhão de seguidores. A Cosmopolitan anunciou a primeira capa de revista gerada por IA do mundo, e os investidores em tecnologia começaram a acenar para a nova era da “IA generativa”. Os recursos de geração de imagens já se espalharam para o vídeo, com o lançamento do Google Imagen Video e do Meta Make-A-Video.

Mas as novas proezas artísticas da IA não foram recebidas com tanto entusiasmo por alguns criativos. “A principal preocupação para mim é o que isso fará com o futuro não apenas da minha indústria, mas também das indústrias criativas humanas em geral”, diz Palmer.

Ao ingerir grandes conjuntos de dados para analisar padrões e construir modelos preditivos, a IA provou ser superior aos humanos em algumas tarefas. É esse nous de trituração de números que levou uma IA a derrotar o campeão mundial de Go em 2016, calculando rapidamente a estratégia de jogo mais vantajosa e sem medo de executar movimentos que teriam provocado escárnios se viessem de uma pessoa. Mas até recentemente, produzir resultados originais, especialmente trabalhos criativos, era considerado uma atividade distintamente humana.

Melhorias recentes na IA mudaram o dial. Não apenas os geradores de imagens de IA agora podem transpor frases escritas em novas imagens, mas avanços também foram feitos na geração de fala por IA: grandes modelos de linguagem, como GPT-3, atingiram um nível de fluência que convenceu pelo menos um pesquisador do Google recentemente demitido de senciência da máquina. Conecte a obra de Bach e uma IA pode improvisar música mais ou menos no mesmo estilo – com a ressalva de que muitas vezes seria impossível para uma orquestra humana realmente tocar.

Essa classe de tecnologia é conhecida como IA generativa e funciona por meio de um processo conhecido como difusão. Essencialmente, enormes conjuntos de dados são reunidos para treinar a IA e, por meio de um processo técnico, a IA é capaz de criar um novo conteúdo que se assemelhe aos dados de treinamento, mas não seja idêntico. Depois de ver milhões de fotos de cães marcados com a palavra “cachorro”, ele é capaz de estabelecer pixels na forma de um filhote totalmente novo que se assemelha ao conjunto de dados o suficiente para que não tenhamos problemas em rotulá-lo de cachorro. Não é perfeito – as ferramentas de imagem AI ainda lutam para renderizar mãos que parecem humanas, as proporções do corpo podem estar erradas e elas têm o hábito de produzir escrita sem sentido.

Embora os usuários da Internet tenham abraçado esse potencial criativo supercarregado – armados com o prompt corretamente refinado, até os novatos podem agora criar telas digitais impressionantes – alguns artistas se recusaram à capacidade de imitação da nova tecnologia. Entre os prompts inseridos nos geradores de imagem Stable Diffusion e Midjourney, muitos marcam o nome de um artista para garantir um estilo esteticamente mais agradável para a imagem resultante. Algo tão mundano quanto uma tigela de laranjas pode se tornar atraente se renderizado no estilo de, digamos, Picasso. Como a IA foi treinada em bilhões de imagens, algumas das quais são obras protegidas por direitos autorais de artistas vivos, ela geralmente pode criar uma aproximação bastante fiel.

Alguns estão indignados com o que consideram roubo de sua marca artística. Greg Rutkowski, um artista conceitual e ilustrador conhecido por suas cenas épicas de fantasia com luz dourada, já foi mencionado em centenas de milhares de prompts usados em Midjourney e Stable Diffusion. “Faz apenas um mês. E daqui a um ano? Provavelmente não conseguirei encontrar meu trabalho porque [a internet] será inundada com arte de IA”, disse Rutkowski ao MIT Technology Review. “Isso é preocupante.”

O Dall-E 2 é uma caixa preta, com a OpenAI se recusando a liberar o código ou compartilhar os dados nos quais as ferramentas foram treinadas. Mas a Stable Diffusion optou por abrir seu código e compartilhar detalhes do banco de dados de imagens usado para treinar seu modelo.

Spawning, um coletivo de artistas, criou uma ferramenta chamada Have I Been Trained? para ajudar os artistas a descobrir se suas obras de arte estavam entre as 5,8 bilhões de imagens usadas para treinar a difusão estável e optar por aparecer ou não em conjuntos de treinamento futuros. A empresa por trás do Stable Diffusion, Stability AI, disse que está aberta para trabalhar com a ferramenta. Dos 1.800 artistas que já se inscreveram para usar a ferramenta, Matthew Dryhurst, acadêmico e membro do Spawning, diz que é uma divisão de 60/40 em favor da desativação.

Mas a Concept Art Association (CAA) enfatiza que o estrago já foi feito desta vez, porque as ferramentas já foram treinadas no trabalho dos artistas sem o consentimento deles. “É como se alguém que já roubou você dissesse: ‘Você quer desistir de eu roubar você?’”, diz Karla Ortiz, ilustradora e membro do conselho da CAA.

Emad Mostaque, da Stability AI, diz que, embora os dados usados para treinar o Stable Diffusion não oferecessem uma opção de exclusão, “era um modelo de teste, fortemente não otimizado em um instantâneo de imagens na Internet”. Ele diz que novos modelos são normalmente treinados em novos conjuntos de dados e é nesse momento que a empresa leva em consideração as solicitações dos artistas.

Não são apenas obras de arte: a análise do banco de dados de treinamento para Stable Diffusion revelou que também absorveu fotografias médicas privadas, fotos de membros do público (às vezes junto com seus nomes completos) e pornografia.

Ortiz se opõe particularmente à comercialização de Stability AI de parte de sua operação – DreamStudio, que oferece aos clientes modelos personalizados e maior facilidade de uso. “Essas empresas agora estabeleceram um precedente de que você usa os dados privados e protegidos por direitos autorais de todos sem que ninguém aceite”, diz ela. “Aí eles dizem: ‘Não podemos fazer nada, o gênio saiu da garrafa!’”

O que pode ser feito sobre isso além de contar com a beneficência das empresas por trás dessas ferramentas ainda está em questão.

A CAA cita uma legislação preocupante do Reino Unido que pode permitir às empresas de IA uma liberdade ainda maior para absorver trabalhos criativos protegidos por direitos autorais para treinar ferramentas que podem ser implantadas comercialmente. Nos Estados Unidos, a organização se reuniu com funcionários do governo para falar sobre a lei de direitos autorais e está atualmente em negociações com lobistas de Washington para discutir como recuar nisso como uma indústria.

Além da imitação, há um problema ainda maior apontado por Palmer: essas ferramentas colocam em risco toda uma classe de criativos? Em alguns casos, a IA pode ser usada no lugar de imagens de estoque – a biblioteca de imagens Shutterstock fez recentemente um acordo com a OpenAI para integrar o Dall-E em seu produto. Mas Palmer argumenta que obras de arte, como ilustrações para artigos, livros ou capas de álbuns, podem em breve enfrentar a concorrência da IA, prejudicando uma área próspera da arte comercial.

Propaganda
Os proprietários de geradores de imagens de IA tendem a argumentar que, ao contrário, essas ferramentas democratizam a arte. “Grande parte do mundo está criativamente constipado”, disse o fundador da Stability AI, Emad Mostaque, em um evento recente para comemorar uma rodada de arrecadação de US$ 101 milhões, “e vamos fazer com que eles possam fazer cocô arco-íris”. Mas se todos podem aproveitar a IA para criar imagens tecnicamente magistrais, o que isso diz sobre a essência da criatividade?

Anna Ridler, uma artista conhecida por seu trabalho com IA, diz que apesar de Dall-E 2 parecer “como mágica” na primeira vez que você o usa, até agora ela não sentiu uma centelha de inspiração em seus experimentos com a ferramenta. Ela prefere trabalhar com outro tipo de IA, chamada de redes adversárias generativas (GANs). As GANs funcionam como uma troca entre duas redes, uma criando novas imagens e a outra decidindo o quão bem a imagem atende a um objetivo específico. Um GAN artístico pode ter o objetivo de criar algo que seja o mais diferente possível de seus dados de treinamento sem sair da categoria do que os humanos considerariam arte visual.

Essas questões intensificaram o debate sobre até que ponto podemos atribuir criatividade à IA. De acordo com Marcus du Sautoy, um matemático da Universidade de Oxford e autor de The Creativity Code: How AI is Learning to Write, Paint and Think, Dall-E e outros geradores de imagens provavelmente chegam mais perto de replicar um tipo de criatividade “combinacional”, porque o os algoritmos são ensinados a criar novas imagens no mesmo estilo de milhões de outras nos dados de treinamento. GANs do tipo com o qual Ridler trabalha estão mais próximos da criatividade “transformacional”, diz ele – criando algo em um estilo totalmente novo.

Ridler se opõe a essa abordagem estereotipada para definir a criatividade. “Isso simplifica a ideia de arte como um papel de parede interessante, em vez de algo que tenta expressar ideias e buscar a verdade”, diz ela. Como artista conceitual, ela conhece bem as deficiências da IA. “A IA não consegue lidar com conceitos: momentos em colapso no tempo, memória, pensamentos, emoções – tudo isso é uma habilidade humana real, que faz uma obra de arte em vez de algo visualmente bonito.”

As ferramentas de imagem AI demonstram algumas dessas deficiências. Enquanto “astronauta andando a cavalo” retornará uma renderização precisa, “cavalo andando em um astronauta” retornará imagens que parecem muito iguais – indicando que a IA realmente não compreende as relações causais entre diferentes atores no mundo.

Dryhurst e Ridler afirmam que a ideia de “substituição do artista” decorre da subestimação do processo artístico. Dryhurst lamenta o que vê como a mídia incitando narrativas alarmistas, destacando um artigo recente do New York Times sobre um artista que usou o Midjourney para vencer a categoria digital da competição anual de arte da feira estadual do Colorado. Dryhurst aponta que uma feira estadual não é exatamente um fórum de prestígio. “Eles estavam dando prêmios para frutas enlatadas”, diz ele. “O que me incomoda é que parece haver esse tipo de sede de assustar os artistas.”

“A arte está morta, cara”, disse o vencedor da feira estadual.

É possível que o hype em torno dessas ferramentas como forças disruptivas supere a realidade. Mostaque diz que os geradores de imagem de IA fazem parte do que ele chama de “mídia inteligente”, que representa uma oportunidade de “um trilhão de dólares”, citando o orçamento de conteúdo da Disney de mais de US$ 10 bilhões (£ 8,7 bilhões) e o valor de toda a indústria de jogos de mais de $ 170 bilhões. “Cada peça de conteúdo da BBC à Disney será interativa por esses modelos”, diz ele.

Os aplicativos emergentes agora são mais prosaicos, incluindo moodboards para consultoria de design, storyboards para filmes e maquetes para design de interiores, e Mark Beccue, analista da divisão de IA da Omdia, é cético quanto ao valor de US$ 1 trilhão. “Quais são os casos de uso matadores aqui?” ele diz. “Não faz sentido. Que problema você está resolvendo com isso?” Um analista da consultoria Accenture diz que as ferramentas podem um dia ser usadas para criar conteúdo para treinar algoritmos de aprendizado de máquina, como em veículos autônomos, e acelerar a criação de jogos. Se isso resultará em algo tão lucrativo quanto os geradores de imagens de IA e seus patrocinadores propõem, ainda não se sabe.