O que LLM sabem sobre nós: memorização de dados e o RGPD

Doutrina

Por Beatriz Gonçalves Russell e Francisco Arga e Lima

Com o crescimento exponencial da Inteligência Artificial (“IA”) generativa, e, em especial, de Large Language Models (ou “LLMs”), levantam-se questões sobre a sua compatibilidade com os padrões regulamentares aplicáveis, nomeadamente no domínio da proteção de dados. Neste contexto, uma das principais preocupações prende-se com a dependência dos LLMs na ingestão de vastas quantidades de informação para o seu desenvolvimento, e a preocupação inerente em compreender se estes retêm os dados (pessoais) ingeridos durante o seu treino.

Treino dos LLMs

De modo a saber se há uma efetiva retenção de dados, é necessário compreender a forma como LLMs são, em geral, treinados. Uma das primeiras fases deste processo é a conversão de texto em tokens, ou seja, representações numéricas de elementos normalmente menores que palavras, mas maiores que letras isoladas, que o modelo possa processar, criando-se, assim, um vocabulário interpretável pelo algoritmo, embora não diretamente interpretável pelo indivíduo. Após esta conversão, o modelo é treinado, criando-se embeddings, ou seja, vetores que representam as relações contextuais entre tokens, estatisticamente abstraídas do treino, permitindo ao modelo distinguir o significado de, por exemplo, um banco enquanto instituição financeira e enquanto mobiliário doméstico.

À primeira vista, esta abstração parece levar à conclusão de que, caso haja treino com dados pessoais, os dados perdem a sua ligação com titulares de dados, uma vez que os modelos deixam de conter informação associável a indivíduos identificáveis. Assim sendo, os tokens e embeddings seriam considerados meros padrões linguísticos, desprovidos de ligação a pessoas concretas, de modo que não estariam abrangidos pelo escopo da definição de dados pessoais, prevista no Regulamento Geral de Proteção de Dados (“RGPD”).

Contudo, esta linha de raciocínio baseia-se numa compreensão incompleta acerca do funcionamento técnico do treino destes modelos.

A realidade técnica de retenção de informação

Embora a transformação de texto em tokens abstraia o conteúdo original, a informação subjacente não se perde totalmente. Por um lado, a tokenização moderna — como a byte-pair encoding — é frequentemente lossless, permitindo que os números codificados sejam reconvertidos em texto sem perda de informação substancial. Por outras palavras, mesmo que os dados sejam convertidos em números, isso não elimina necessariamente a possibilidade de identificação de titulares dos dados.

Além disso, os embeddings capturam o significado contextual e as relações entre palavras, espelhando os padrões e estruturas estatísticos abstraídos do treino, algo que poderá levar à memorização de dados. Para entender como isso pode ocorrer, é importante distinguir dois fenómenos que ocorrem durante o treino destes modelos:

1. Codificação (“Encoding”): Processo de abstração de padrões e relações estatísticas dos dados de treino em representações numéricas úteis, descartando detalhes menos significativos.

2. Memorização (“Memorization”): Ocorre quando partes específicas dos dados de treino são retidas quase na integralidade, permitindo a sua potencial reprodução.

Ora, a memorização difere da simples aprendizagem de padrões abstratos que ocorre na codificação, uma vez que leva à retenção de detalhes de dados de treino quase exatos das fontes. Isto pode dever-se a diferentes fatores, como a multiplicação dos dados de treino nos datasets utilizados, o que pode enviesar a sua relevância estatística. Por outras palavras, surgindo com maior frequência uma determinada sequência de tokens, o modelo irá adaptar o peso dessas relações de modo a reforçar essa sequência no seu output. Por isso, mais do que abstrair padrões, haverá uma retenção de sequências específicas de dados que poderão ser pessoais.

De qualquer forma, para que as informações incorporadas nos LLMs sejam consideradas dados pessoais, as mesmas devem, contudo, ser acessíveis. A este respeito, o nosso ponto de partida será o facto que, em regra, os dados estão dispersos pelos inúmeros parâmetros dos modelos e não estão armazenados como unidades discretas ou legíveis por humanos, ao contrário do que sucede, por exemplo, com um ficheiro .pdf. No entanto, há que se notar que a ausência da suscetibilidade de interpretação direta não é impeditiva de que a informação seja considerada dado pessoal: o que nos diz o art. 4.º, n. º1 do RGPD, é que qualquer informação relativa a uma pessoa identificada ou identificável é considerada dado pessoal, mesmo que careça de meios complementares para ser legível por humanos.

Por isso, se um modelo for capaz de reproduzir dados sobre uma pessoa, contidos nos datasets de treino, essa informação continua a ser pessoal, ainda que esteja codificada no modelo sob a forma de vetores numéricos. Desta forma, e pese embora a dispersão da informação pelos parâmetros torne a inspeção direta extremamente onerosa, entende-se que a acessibilidade pode ser feita através de meios indiretos, em particular prompting e ataques direcionados, onde essa memorização é confirmada por via do output consistente de informação contida nos datasets de treino.

Importa também perceber que a memorização não é uma falha de treino ou funcionamento destes modelos, mas sim uma característica inerente dos mesmos. Isto percebe-se facilmente quando constatamos que estes precisam de “memorizar” estruturas de palavras e regras gramaticais de modo a poderem criar construções frásicas corretas. Nesse sentido, a memorização é necessária, atendendo às finalidades destes modelos. Contudo, pode também revelar-se problemática, na medida em que essa capacidade pode conduzir à retenção – e posteriormente divulgação – de dados pessoais.

Assim, o erro está em assumir que a ausência de dados pessoais é garantida apenas pelo facto de tokens e parâmetros serem valores numéricos. Na verdade, é possível que esses números e relações estatísticas levem à retenção de dados (pessoais) contidos nos datasets de treino no próprio modelo.

Por isso, é possível tirar duas conclusões relevantes para a discussão sobre se LLMs memorizam dados pessoais. Em primeiro lugar, a memorização de dados de treino é uma característica essencial e não um bug dos LLMs. Isto significa que os desenvolvedores de LLMs são responsáveis não só pelo tratamento de dados na fase de treino, mas também pelo potencial armazenamento de dados pessoais no modelo, para assegurar a sua compatibilidade com o RGPD. Em segundo lugar, e não obstante a natureza black box dos LLMs conceder alguma margem para argumentar pela impossibilidade de acessibilidade aos dados eventualmente armazenados, a evolução tecnológica pode, no futuro, permitir que a informação armazenada seja reconstruída por meios que hoje desconhecemos, sendo uma questão de tempo até que os mecanismos atuais de mitigação se revelem insuficientes. Até lá, a possibilidade de extração destes dados por via de i.e. prompting é algo que confirma esta retenção, pelo que caberá também aos desenvolvedores destas tecnologias mitigarem tanto a retenção, como a possibilidade da sua extração.

A Clubhouse e a privacidade dos utilizadores

Doutrina

A nova rede social Clubhouse é já bastante conhecida entre o público, tendo chegado a Portugal no início deste ano. A sua popularidade eclodiu após ter sido palco de um debate entre Elon Musk, Marc Andreessen, Vlad Tenev e muitos outros empresários e elementos do público em geral, que chegaram mesmo a esgotar a capacidade da sala de chat hospedada pela Clubhouse para o efeito. O seu crescimento exponencial trouxe também alguns desafios e uma certa polémica em torno da privacidade dos utilizadores.

O grande fator que torna a Clubhouse atrativa prende-se com a sua exclusividade: além de apenas estar disponível para iOS, cada utilizador começa com dois convites para enviar a outras pessoas para aderirem à rede social. Esta rede social permite manter diálogos com outros utilizadores através de áudio – diálogos estes que, de acordo com a política de privacidade, não ficam gravados, pois quando a sala virtual é encerrada, não subsiste qualquer registo daquele chat. Existem exceções: os áudios dos utilizadores poderão ser temporariamente armazenados se houver, por exemplo, o reporte de um incidente. Nesta é ainda possível acumular-se seguidores e seguir outros utilizadores. O nome de utilizador é público e poderá ser utilizado para encontrar outros utilizadores. É possível mudar a fotografia de perfil, ligar a aplicação às contas do Twitter e Instagram, entre muitas outras opções.

Não obstante toda esta atratividade e utilidade, várias têm sido as preocupações levantadas pelos utilizadores no que se refere à privacidade. Até agora, muitos foram os relatos apresentados de falhas nesta vertente. Um dos casos mais falados é datado de fevereiro deste ano: um utilizador conseguiu transmitir em direto o áudio de uma sala de chat no seu website, mas foi rapidamente banido pois a gravação ou streaming sem a autorização explícita dos oradores viola os termos e condições da rede social.

Outro incidente ocorreu há poucos dias: a Clubhouse sofreu um ataque informático, o que resultou na disponibilização da informação relativa a 1,3 milhões de utilizadores em plena internet. Do que foi possível apurar, não foram revelados dados relativos a cartões bancários, moradas e emails. No entanto, a informação disponibilizada poderá facilitar ataques de phishing. A Clubhouse manifestou-se publicamente quanto a este assunto, afirmando que os dados disponibilizados já seriam públicos e poderiam ser consultados por qualquer utilizador através da aplicação.

Outro problema e desafio que a Clubhouse comporta relaciona-se com a facilidade de difusão de opiniões e informações, sem qualquer controlo por parte de um moderador associado à rede social – deste modo, será mais fácil a propagação de fake news, ódio, difamação contra utilizadores, teorias da conspiração, etc. O facto de as conversas não deixarem qualquer registo, após o encerramento de cada sala, implica que se os incidentes não forem reportados em tempo útil, não restem quaisquer provas que permitam reagir contra estes abusos.

Apesar destes incidentes, a questão mais relevante que cumpre analisar prende-se com o seguinte: se um utilizador quiser convidar amigos a utilizar a aplicação, terá de autorizar o acesso da aplicação à sua lista de contactos. Se não autorizar este acesso, o utilizador poderá continuar a utilizar a aplicação, mas ser-lhe-á relembrado constantemente através de uma notificação de que ainda não deu tal permissão.

Importa agora analisar a Política de Privacidade da Clubhouse, através de uma visão guiada pelo Regulamento Geral de Proteção de dados (RGPD). Na política de privacidade consta que a rede social recolhe dados fornecidos pelo utilizador titular de dados quer quando este acede à rede social, quer quando este a utiliza, criando ou partilhando conteúdos e comunicando com outros utilizadores da rede, o que é algo normal e necessário à execução do contrato, ou seja, de acordo com o art. 6.º, nº 1, alínea b), do RGPD, estamos perante um tratamento válido e lícito. Além do tratamento ser válido e lícito, também a questão dos deveres de informação é cumprida, pois aplica-se o artigo 14º, uma vez que a pessoa que recebe o convite recebe todas as informações necessárias sobre o tratamento de dados, os seus direitos, prazos de conservação. Supõe-se também que se o titular de dados não aceitar o convite num certo período de tempo, o Clubhouse deve apagar os dados utilizados nesta operação de tratamento (caso não lhe tenha sido dada autorização para o acesso contínuo à lista de contactos pelo utilizador). Releva ainda para a discussão o facto de na política de privacidade, no ponto relativo a Networks and Connections, a rede social menciona que, se o utilizador escolher dar permissão à aplicação para esta fazer o upload, sincronizar ou importar as informações da sua lista de contactos pessoais, esta poderá ser utilizada para “melhorar a experiência do utilizador em vários aspetos”, notificando-o quando um dos seus contactos se junte à rede social e utilizando a lista de contactos para recomendar outros utilizadores que possa querer seguir e recomendando, por sua vez, a sua conta a outros utilizadores.

Dado o exposto, se a aplicação requer que o utilizador dê permissão para que a mesma possa aceder à sua lista de contactos, estaremos já perante outra base de licitude, que será o consentimento, ou seja, sem o consentimento do utilizador titular de dados, a rede social não poderá ter acesso a esta informação (art. 6º, n.º 1, alínea a), do RGPD). Levantam-se aqui várias questões: em primeiro lugar, existem queixas de utilizadores que não deram permissão e mesmo assim a aplicação teve acesso aos dados das suas listas de contactos. Em segundo lugar, é suspeito e bastante invasivo um utilizador dar permissão para o acesso à sua lista de contactos à aplicação, e pessoas que nem sequer utilizam a aplicação veem os seus dados recolhidos e tratados pela Clubhouse sem terem dado o seu consentimento. Esta prática designa-se shadow profile.

Podemos concluir que, apesar de esta não aceitação da permissão de acesso à lista de contactos por parte do utilizador não afetar o funcionamento e utilização da rede social por parte do mesmo, este não poderá disfrutar da experiência completa da rede social, uma vez que será mais difícil encontrar e conectar-se com os seus amigos e familiares e, além disso, também não poderá enviar os seus dois convites disponibilizados inicialmente, o que criará entraves à socialização com amigos, que é o verdadeiro objetivo da rede social. Todavia, a autorização que o titular de dados dá para o acesso da aplicação à lista de contactos não se trata de um verdadeiro consentimento para o tratamento, na medida em que o utilizador não é o titular destes dados, devendo tratar-se de uma imposição dos termos de serviço do IOS e da App Store da Apple. Esta autorização dada pelo utilizador vai de encontro ao princípio da transparência e lealdade do RGPD, sendo que até pode ser considerada como uma oportunidade dada ao utilizador de exercer o direito de oposição.

Em março, surgiu uma atualização para tentar colmatar esta e muitas outras questões e falhas, sobretudo no que se refere à encriptação. No entanto, as queixas mantêm-se. Aguardemos o desenrolar da situação.

O RGPD e a nova indústria da proteção de dados

Doutrina

O Regulamento Geral da Proteção de Dados (RGPD) tem vindo, paulatinamente, a impor-se em todas as áreas do Direito e da vida. Passo a passo, o polvo estende os seus tentáculos, que começa por colar suavemente a partir da ventosa mais pequena, progredindo depois na medida em que lhe é permitido, até envolver a realidade e a sujeitar ao que se diz serem as suas regras.

O Regulamento (UE) 2016/679 do Parlamento Europeu e do Conselho, de 27 de abril de 2016 (RGPD), relativo à proteção das pessoas singulares no que diz respeito ao tratamento de dados pessoais e à livre circulação desses dados, revogou a Diretiva 95/46/CE do Parlamento Europeu e do Conselho, de 24 de outubro de 1995, transposta para a ordem jurídica portuguesa pela Lei n.º 67/98, de 26 de outubro, por sua vez revogada pela Lei n.º 58/2019, de 8 de agosto que assegura a execução do RGPD na ordem jurídica nacional.

O RGPD, sob a aparência de novidade, serviu essencialmente para ultrapassar as discrepâncias nacionais na transposição da Diretiva e criar uma uniformidade transnacional. Após anos de negociações, o resultado final foi pouco diferente do que a Diretiva já previa e propiciava. Sendo quase redundante, apresentava-se desadequado a uma realidade que foi mudando ao longo das árduas negociações que se iam gorando e progredindo em concessões com vista ao acordo. A realidade continuou – e continua – a mudar, inexoravelmente, a partir da sua entrada “em vigor no vigésimo dia seguinte ao da sua publicação”. Tendo esta ocorrido em 4 de maio de 2016, aquela terá ocorrido a 25 de maio do mesmo ano, tendo o RGPD previsto que “é aplicável a partir de 25 de maio de 2018”. Talvez daqui resulte a obnubilação da primeira data e a atenção que se focou na segunda.

A partir daí a proteção de dados tem-se vindo a tornar ubíqua, invadindo as áreas do Direito que têm subjacente informação e que são, potencialmente, todas. As relações de consumo, que se vão paulatinamente deslocando para o ambiente digital, encontram-se especialmente expostas, quer pela contratação em massa, quer pela intensa apetência para a produção de dados. Este é o grande problema. Numa época em que “os dados” assumiram uma omnipresença em todas as áreas, surge um instrumento que visa dominá-los ou, pelo menos, submetê-los aos rigores das checklists.

Embora o RGPD, como foi referido, tenha replicado o regime substancial da Diretiva 95/46, consagrando no essencial os mesmos princípios e direitos (acrescentando o novo direito de portabilidade dos dados), conseguiu captar a atenção global devido, principalmente, às sanções astronómicas que prevê.

De resto, criou ou desenvolveu uma estrutura burocrática gigantesca, que passa pelo novo papel das autoridades de controlo independentes e a obrigatoriedade de nomeação de um encarregado da proteção de dados, e se consubstancia numa série de trâmites e certificações, que passou a ocupar diligentemente uma multidão crescente de pessoas. Está, pois, na origem de um novo mundo de prestação de serviços salvíficos, com vista à implementação de procedimentos para serem evitadas pesadas coimas.

O RGPD criou a florescente indústria da proteção de dados.