O Paradoxo da Memorização: Quando a IA Generativa Deixa de Aprender e Passa a Copiar
Artigo escrito por: Marcos Alexandre Damazio (Sócio-Diretor da Tavares IP)
O rápido avanço da Inteligência Artificial Generativa colocou uma questão importante no centro das discussões jurídicas e tecnológicas: os modelos de linguagem e de geração de imagens realmente aprendem a criar ou funcionam como mecanismos sofisticados de plágio em larga escala? Para o campo da Propriedade Intelectual (PI), responder a essa pergunta não é apenas um detalhe técnico, mas sim o que vai definir o futuro dos direitos autorais e da inovação.
O debate fica ainda mais complexo quando olhamos para um comportamento específico das redes neurais, chamado de memorização, que muitas vezes está ligado ao conceito de overfitting ou sobreajuste.
Mas afinal, o que é memorização na IA?
Em teoria, uma IA bem treinada deve aprender padrões, estilos, regras gramaticais e estruturas visuais a partir de bilhões de dados, como textos, imagens e códigos, para criar algo. Esse é o chamado “aprendizado”. Já a memorização acontece quando o modelo, em vez de generalizar, guarda cópias exatas ou partes grandes dos dados de treinamento e acaba reproduzindo isso ao gerar conteúdo, fenômeno conhecido como data regurgitation.
Isso já aparece em casos reais que estão sendo analisados na Justiça, como IAs que geram imagens e acabam mostrando a marca d’água de bancos de imagens, como a Getty Images. Também há modelos de texto que, com o prompt certo, conseguem reproduzir parágrafos inteiros de livros ou artigos protegidos, como no caso entre o The New York Times e a OpenAI.
Impactos Diretos na Propriedade Intelectual
A diferença entre aprender e memorizar é fundamental para definir infrações em Propriedade Intelectual. Esse fenômeno traz consequências importantes:
Risco de Violação Direta de Direitos Autorais: Se um modelo aprende apenas o “estilo” de um autor, como pintar como Van Gogh, a lei entende que estilos não podem ser protegidos por direitos autorais. Mas se o modelo memorizou uma obra específica e a reproduz de forma muito parecida, isso é considerado cópia não autorizada, o que pode responsabilizar tanto os desenvolvedores da IA quanto o usuário final que vende esse conteúdo.
- O Desafio da Comprovação: Para quem detém os direitos, já é difícil provar que sua obra foi usada para treinar uma IA. Mostrar que a IA memorizou e reproduziu a obra é ainda mais complicado, pois exige auditorias técnicas avançadas e novas ferramentas forenses no setor de LegalTech.
- A Defesa do “Uso Justo” (Fair Use) em Xeque: Empresas de tecnologia costumam usar a doutrina do fair use nos EUA ou a exceção de mineração de textos e dados na Europa para justificar o uso de obras protegidas no treinamento. No entanto, a memorização enfraquece essa defesa, já que o conteúdo gerado pela IA pode competir diretamente com o mercado da obra original, o que vai contra um dos princípios do fair use.
- O Futuro da Proteção aos Ativos Intangíveis: O fenômeno da memorização faz com que o setor de Propriedade Intelectual precise evoluir rápido. Não basta mais monitorar o mercado para encontrar falsificações tradicionais; agora é necessário adotar estratégias de web scraping defensivo, usar tecnologias de envenenamento de dados, como as ferramentas Nightshade e Glaze, para proteger portfólios visuais, além de criar mecanismos de opt-out mais robustos.
A resposta das leis e dos tribunais nos próximos anos vai precisar encontrar um equilíbrio delicado. Será necessário punir a “cópia algorítmica” causada pela memorização dos modelos, mas sem impedir o “aprendizado” legítimo que impulsiona a inovação tecnológica. Nesse cenário, a gestão estratégica da propriedade intelectual será mais importante do que nunca.

