O que LLM sabem sobre nós: memorização de dados e o RGPD

Doutrina

Por Beatriz Gonçalves Russell e Francisco Arga e Lima

Com o crescimento exponencial da Inteligência Artificial (“IA”) generativa, e, em especial, de Large Language Models (ou “LLMs”), levantam-se questões sobre a sua compatibilidade com os padrões regulamentares aplicáveis, nomeadamente no domínio da proteção de dados. Neste contexto, uma das principais preocupações prende-se com a dependência dos LLMs na ingestão de vastas quantidades de informação para o seu desenvolvimento, e a preocupação inerente em compreender se estes retêm os dados (pessoais) ingeridos durante o seu treino.

Treino dos LLMs

De modo a saber se há uma efetiva retenção de dados, é necessário compreender a forma como LLMs são, em geral, treinados. Uma das primeiras fases deste processo é a conversão de texto em tokens, ou seja, representações numéricas de elementos normalmente menores que palavras, mas maiores que letras isoladas, que o modelo possa processar, criando-se, assim, um vocabulário interpretável pelo algoritmo, embora não diretamente interpretável pelo indivíduo. Após esta conversão, o modelo é treinado, criando-se embeddings, ou seja, vetores que representam as relações contextuais entre tokens, estatisticamente abstraídas do treino, permitindo ao modelo distinguir o significado de, por exemplo, um banco enquanto instituição financeira e enquanto mobiliário doméstico.

À primeira vista, esta abstração parece levar à conclusão de que, caso haja treino com dados pessoais, os dados perdem a sua ligação com titulares de dados, uma vez que os modelos deixam de conter informação associável a indivíduos identificáveis. Assim sendo, os tokens e embeddings seriam considerados meros padrões linguísticos, desprovidos de ligação a pessoas concretas, de modo que não estariam abrangidos pelo escopo da definição de dados pessoais, prevista no Regulamento Geral de Proteção de Dados (“RGPD”).

Contudo, esta linha de raciocínio baseia-se numa compreensão incompleta acerca do funcionamento técnico do treino destes modelos.

A realidade técnica de retenção de informação

Embora a transformação de texto em tokens abstraia o conteúdo original, a informação subjacente não se perde totalmente. Por um lado, a tokenização moderna — como a byte-pair encoding — é frequentemente lossless, permitindo que os números codificados sejam reconvertidos em texto sem perda de informação substancial. Por outras palavras, mesmo que os dados sejam convertidos em números, isso não elimina necessariamente a possibilidade de identificação de titulares dos dados.

Além disso, os embeddings capturam o significado contextual e as relações entre palavras, espelhando os padrões e estruturas estatísticos abstraídos do treino, algo que poderá levar à memorização de dados. Para entender como isso pode ocorrer, é importante distinguir dois fenómenos que ocorrem durante o treino destes modelos:

1. Codificação (“Encoding”): Processo de abstração de padrões e relações estatísticas dos dados de treino em representações numéricas úteis, descartando detalhes menos significativos.

2. Memorização (“Memorization”): Ocorre quando partes específicas dos dados de treino são retidas quase na integralidade, permitindo a sua potencial reprodução.

Ora, a memorização difere da simples aprendizagem de padrões abstratos que ocorre na codificação, uma vez que leva à retenção de detalhes de dados de treino quase exatos das fontes. Isto pode dever-se a diferentes fatores, como a multiplicação dos dados de treino nos datasets utilizados, o que pode enviesar a sua relevância estatística. Por outras palavras, surgindo com maior frequência uma determinada sequência de tokens, o modelo irá adaptar o peso dessas relações de modo a reforçar essa sequência no seu output. Por isso, mais do que abstrair padrões, haverá uma retenção de sequências específicas de dados que poderão ser pessoais.

De qualquer forma, para que as informações incorporadas nos LLMs sejam consideradas dados pessoais, as mesmas devem, contudo, ser acessíveis. A este respeito, o nosso ponto de partida será o facto que, em regra, os dados estão dispersos pelos inúmeros parâmetros dos modelos e não estão armazenados como unidades discretas ou legíveis por humanos, ao contrário do que sucede, por exemplo, com um ficheiro .pdf. No entanto, há que se notar que a ausência da suscetibilidade de interpretação direta não é impeditiva de que a informação seja considerada dado pessoal: o que nos diz o art. 4.º, n. º1 do RGPD, é que qualquer informação relativa a uma pessoa identificada ou identificável é considerada dado pessoal, mesmo que careça de meios complementares para ser legível por humanos.

Por isso, se um modelo for capaz de reproduzir dados sobre uma pessoa, contidos nos datasets de treino, essa informação continua a ser pessoal, ainda que esteja codificada no modelo sob a forma de vetores numéricos. Desta forma, e pese embora a dispersão da informação pelos parâmetros torne a inspeção direta extremamente onerosa, entende-se que a acessibilidade pode ser feita através de meios indiretos, em particular prompting e ataques direcionados, onde essa memorização é confirmada por via do output consistente de informação contida nos datasets de treino.

Importa também perceber que a memorização não é uma falha de treino ou funcionamento destes modelos, mas sim uma característica inerente dos mesmos. Isto percebe-se facilmente quando constatamos que estes precisam de “memorizar” estruturas de palavras e regras gramaticais de modo a poderem criar construções frásicas corretas. Nesse sentido, a memorização é necessária, atendendo às finalidades destes modelos. Contudo, pode também revelar-se problemática, na medida em que essa capacidade pode conduzir à retenção – e posteriormente divulgação – de dados pessoais.

Assim, o erro está em assumir que a ausência de dados pessoais é garantida apenas pelo facto de tokens e parâmetros serem valores numéricos. Na verdade, é possível que esses números e relações estatísticas levem à retenção de dados (pessoais) contidos nos datasets de treino no próprio modelo.

Por isso, é possível tirar duas conclusões relevantes para a discussão sobre se LLMs memorizam dados pessoais. Em primeiro lugar, a memorização de dados de treino é uma característica essencial e não um bug dos LLMs. Isto significa que os desenvolvedores de LLMs são responsáveis não só pelo tratamento de dados na fase de treino, mas também pelo potencial armazenamento de dados pessoais no modelo, para assegurar a sua compatibilidade com o RGPD. Em segundo lugar, e não obstante a natureza black box dos LLMs conceder alguma margem para argumentar pela impossibilidade de acessibilidade aos dados eventualmente armazenados, a evolução tecnológica pode, no futuro, permitir que a informação armazenada seja reconstruída por meios que hoje desconhecemos, sendo uma questão de tempo até que os mecanismos atuais de mitigação se revelem insuficientes. Até lá, a possibilidade de extração destes dados por via de i.e. prompting é algo que confirma esta retenção, pelo que caberá também aos desenvolvedores destas tecnologias mitigarem tanto a retenção, como a possibilidade da sua extração.