Proteção de Dados e Treino de IA: Bases de Licitude e Direito a ser Informado

No domínio da inteligência artificial (“IA”), uma das preocupações fundamentais prende-se com o tratamento de dados pessoais em conformidade com as normas aplicáveis, em particular, o Regulamento Geral de Proteção de Dados (“RGPD”).

Desde a compreensão das bases jurídicas que regem a utilização de dados pessoais até ao cumprimento dos direitos dos titulares dos dados e à promoção da transparência, o nosso objetivo neste post será o de desvendar as complexidades e oferecer conhecimentos práticos sobre como fazer o tratamento de dados no contexto da IA, de uma forma compatível com o RGPD.

Compreender as bases de licitude nos sistemas de IA

Nesta secção, aprofundamos o aspeto crítico das bases de licitude do art. 6.º RGPD para um tratamento lícito de dados pessoais por sistemas de IA, esclarecendo como os dados pessoais podem ser utilizados nestes sistemas.

Em primeiro lugar, é preciso compreender que os sistemas de IA são treinados com dados pessoais obtidos através de diversas fontes. Estes canais incluem principalmente a recolha de dados da Internet (o web scraping, cuja licitude já tem sido questionada por autoridades de supervisão a nível mundial), as informações fornecidas pelo utilizador já após o lançamento do sistema (e.g. ao utilizar o ChatGPT e ao enviar comandos, podem essas instruções conter dados pessoais que são utilizados para treinar o sistema) e, por último, terceiros, como bases de dados de terceiros.

Com base nestas fontes de dados pessoais, é-nos possível elencar três bases de licitude principais incluídas no art. 6.º do RGPD, que poderão ser usadas para treinar sistemas de IA com dados pessoais.

Execução de um contrato

O artigo 6.º, n.º 1, alínea b), do RGPD permite o tratamento de dados pessoais quando tal seja necessário para a execução de um contrato com o respetivo titular de dados. No entanto, a aplicação desta base ao treino de IA está sujeita a condições estritas.

Em particular, deve ser demonstrado que o treino do sistema de IA (e não apenas a sua utilização após o treino) é estritamente necessário para o cumprimento de um contrato com a pessoa em causa. Este requisito tem vindo a ser interpretado de forma restritiva, exigindo que o objeto principal do contrato seja impossível sem esse tratamento dos dados pessoais. No contexto da IA, isto cria cenários limitados nos quais a base contratual pode ser viável, muito provavelmente apenas em circunstâncias em que o sistema de IA é adaptado ao titular de dados (por exemplo, quando output de um modelo linguístico é personalizado para ser semelhante à forma como o consumidor responderia, ou com base em algum conhecimento pré-determinado do mesmo).

Quanto à segunda parte desta base jurídica – a necessidade de tomar diligências pré-contratuais – a sua utilização exige a demonstração de que não há outra forma de satisfazer as exigências de um titular de dados que possa potencialmente querer celebrar um contrato que não sejam treinar (e, mais uma vez, não utilizar apenas depois de treinado) o sistema de IA. Esta parece ser uma opção ainda mais limitada do que a primeira parte desta base de licitude.

Em suma, a possibilidade de utilizar um contrato como base jurídica para treinar sistemas de IA com dados pessoais parece limitada a casos muito específicos, não sendo, em regra, a primeira escolha a ponderar.

Interesses legítimos

Os interesses legítimos do responsável pelo tratamento é das bases mais versáteis do art. 6.º do RGPD, sendo utilizável nestas circunstâncias. Contudo, a utilizá-la, deve efetuar-se uma avaliação caso a caso para garantir que esses interesses não limitam de forma desproporcional os direitos e liberdades dos titulares dos dados. Esta análise torna-se particularmente difícil quando a entidade por detrás do treino do sistema de IA não tem contacto direto com os titulares dos dados. A luta da OpenAI com a Autoridade Italiana de Supervisão da Proteção de Dados é um exemplo claro desta dificuldade. De facto, ao utilizar o interesse legítimo como base legal para o treino do ChatGPT, a empresa vinculou a licitude do treino a uma base legal que é inerentemente vaga e incerta, dado também o direito das pessoas em causa de se oporem a esse tratamento.

Assim, para se fazer valer desta base de forma eficaz, os responsáveis pelo tratamento terão de fazer uma avaliação do interesse legítimo, em que verificam se o tratamento de dados corresponde às expectativas razoáveis das pessoas em causa, demonstram a estrita necessidade do tratamento (por exemplo, demonstrando que a IA não pode funcionar corretamente sem os dados pessoais em questão) e que o tratamento tem devidamente em conta os interesses das pessoas em causa.

Além disso, têm de garantir que as pessoas em causa sejam informadas de forma adequada do tratamento de dados, nos termos dos artigos 13.º e 14.º do RGPD, bem como a criação de um sistema eficaz para a objeção de titulares de dados a este tratamento.

Consentimento

O consentimento como base de licitude apresenta desafios derivados da forma comos os dados pessoais são recolhidos, frequentemente sem contacto direto com os titulares de dados. Embora em casos extremos possa ser a única base jurídica possível (por exemplo, ao processar categorias especiais de dados em conformidade com o art. 9.º do RGPD), o cumprimento dos requisitos do RGPD para um consentimento válido – incluindo a clareza, a especificidade e a inequivocidade – é uma exigência elevada no contexto do treino de sistemas de IA.

Em conclusão, a seleção de uma base jurídica adequada para o treino de sistemas de IA é uma tarefa complexa. Enquanto a execução de um contrato e o consentimento enfrentam limitações práticas, os interesses legítimos do responsável pelo tratamento, embora sendo uma base incerta, surge como a opção potencialmente mais adequada.

Transparência e direito de ser informado

Nesta secção, aprofundamos um aspeto crítico de conformidade com o RGDP: a transparência e o direito a ser informado nos termos dos arts. 13.º e 14.º do RGPD.

Assim sendo, a informação devida a titulares de dados – e o modo como é fornecida – varia consoante a forma como os dados pessoais são recolhidos. Os desafios em cada cenário, quer se trate de recolha de dados indireta ou diretamente do titular de dados, exigem medidas ponderadas para se alinharem com as exigências do RGPD.

Web Scraping

Uma das formas mais comuns de treinar sistemas de IA é por via de web scraping, ou seja através de ferramentas que extraem dados – incluindo dados pessoais – da Internet.

A obtenção de dados pessoais por esta via leva a desafios particulares, não só devido à forma potencialmente ilícita como os dados pessoais são recolhidos, mas também devido à falta de interação direta entre a entidade extratora dos dados e o titular de dados, o que dificulta a transmissão de informação contida no art. 14.º do RGPD. A isto, importa juntar que os operadores de sistemas de IA lidam frequentemente com grandes quantidades de dados extraídos automaticamente da Internet, o que dificulta a própria identificação dos titulares de dados.

Neste contexto, a alínea b) do n.º 5 do artigo 14.º do RGPD define que, quando o fornecimento da informação contida nesse artigo for impossível ou implicar um esforço desproporcionado por parte do responsável pelo tratamento, este fica isento desta obrigação. No entanto, as autoridades de supervisão tendem a interpretar esta exceção de forma restritiva, tornando pouco claro até que ponto os responsáveis pelo tratamento e os criadores de sistemas IA podem utilizá-la de forma eficaz.

Independentemente disso, os criadores de IA devem tomar medidas adequadaspara proteger os direitos e liberdades das pessoas em causa. Isto inclui a publicação de políticas de privacidade nos seus websites e, em alguns casos, a realização de campanhas de informação para garantir que são adotados todos os esforços para informar as pessoas em causa do tratamento de dados.

Embora existam desafios na recolha de dados, medidas proativas e um compromisso com a transparência podem facilitar a resolução destas questões. Os operadores de IA devem esforçar-se por equilibrar o seu tratamento de dados com as normas do RGPD e o direito dos utilizadores a serem informados.

Fornecimento de dados por terceiros

Nos casos em que os dados são fornecidos por terceiros, a colaboração entre as partes envolvidas no tratamento de dados torna-se crucial. Estes terceiros desempenham um papel importante para garantir a transparência no tratamento dos dados, na medida em que são a entidade – idealmente – em contacto com os titulares de dados.

Estas partes, sendo as que obtêm os dados pessoais, ocupam uma posição de ponte entre os criadores de sistemas de IA e os titulares de dados, fornecendo a estes ferramentas e orientações sobre como os seus dados serão processados. O estabelecimento de canais de comunicação claros com estes fornecedores é fundamental, em especial quando se trata de dar resposta ao exercício dos direitos por parte dos titulares de dados.

Dados fornecidos diretamente pelo titular de dados

Finalmente, para os dados recolhidos diretamente dos titulares de dados, aplica-se o artigo 13.º do RGPD. Este artigo exige que os responsáveis pelo tratamento de dados forneçam informações específicas no momento da recolha, incluindo a identidade e os dados de contacto do responsável pelo tratamento de dados, as finalidades do tratamento e a base jurídica. Isto reforça a importância da comunicação e divulgação transparentes, garantindo que os utilizadores são informados sobre a forma como os seus dados serão utilizados. Ao ligar estes pontos, a transparência torna-se um elemento essencial para práticas responsáveis por parte de criadores de sistemas de IA e no alinhamento do seu tratamento de dados com as regras aplicáveis.