A raspagem da web (“web scraping”) é uma prática que permite aos programadores de inteligência artificial (“IA”) recolher grandes quantidades de dados para treinar os seus modelos. Este processo automatiza a recolha de dados, através de pedidos de acesso (GET requests) feitos a Localizadores Uniformes de Recursos (Uniform Resource Locators, ou “URLs”) específicos. O web scraping é frequentemente emparelhado com ferramentas de web crawling que atualizam dinamicamente as listas de URLs a serem processados, expandindo ainda mais o âmbito da recolha de dados.
No desenvolvimento da IA, o web scraping desempenha um papel vital. A eficácia dos modelos de IA depende frequentemente da qualidade, quantidade e diversidade dos dados com que são treinados. Ao facilitar a recolha rápida e em grande escala de dados, o web scraping fornece a matéria-prima para treinar estes modelos. Contudo, a recolha de dados – que na maioria dos casos irá incluir dados pessoais – através de web scraping suscita preocupações em termos de proteção de dados. Os princípios fundamentais do Regulamento Geral de Proteção de Dados (“RGPD”) – como a minimização, transparência e licitude – opõem-se geralmente a esta forma de recolha de dados pessoais em massa. Em particular, o princípio da licitude exige que todo o tratamento de dados seja feito com base numa das bases legais consagradas no RGPD. Dada a falta de contacto direto com o titular de dados, a quantidade de dados pessoais potencialmente recolhida e o caráter ‘silencioso’ da prática, a utilização destas ferramentas tem sido considerada como contrária ao RGPD por falta de uma base legal aplicável.
Mas será mesmo assim? Será que nenhuma das bases legais do RGPD permite, em situação alguma, a utilização desta ferramenta de recolha de dados?
Artigos 6.º e 9.º do RGPD
O tratamento de dados pessoais é proibido, exceto se justificado por uma base legal constante dos arts. 6.º e 9.º do RGPD, se aplicável. O art. 6.º aplica-se a todo o tratamento de dados pessoais, enquanto o art. 9.º regula a utilização de categorias especiais de dados, como dados que revelem origem racial, opiniões religiosas, orientação sexual ou dados relativos à saúde, que exigem salvaguardas mais rigorosas.
Assim, para que o web scraping seja permitido, pelo menos uma das bases constantes dos arts. 6.º e 9.º – se necessário – deve ser aplicável. Dadas as características deste método de recolha de dados, vemos que as possibilidades estão limitadas aos interesses legítimos consagrados no art. 6.º(1)(f).
Começando pelo art. 6.º, a maioria das bases deve ser excluída, uma vez que a recolha de dados não tem, normalmente, uma interação direta com o titular de dados nem prossegue um interesse protegido pelo RGPD:
Consentimento: o web scraping geralmente não permite cumprir os requisitos para um consentimento válido, uma vez que não é informado (p. ex. os titulares de dados não sabem quem está a raspar os seus dados ou como serão utilizados), não é específico (p. ex., tornar dados pessoais acessíveis ao público não implica o consentimento para a raspagem) e não é inequívoco (p. ex., colocar os dados em linha não equivale a uma autorização explícita para a raspagem).
Execução de um contrato: O web scraping não envolve um contrato com a pessoa em causa, o que torna esta base jurídica inaplicável.
Obrigação legal ou interesse público: Estas bases exigem uma obrigação legal ou um interesse público definido por lei. Uma vez que a raspagem da Web não é legalmente exigida nem legalmente protegida, estas bases não se aplicam.
Interesses vitais: Esta base aplica-se apenas em casos de ameaças imediatas à vida ou à segurança física, que são improváveis em contextos de recolha de dados da internet. Muito embora se possa conceber a utilização de um sistema de IA para proteger os interesses vitais do titular de dados (p. ex. num contexto hospitalar), o mesmo não se aplica ao treino do modelo com base em dados pessoais recolhidos da internet.
Assim, e por exclusão de partes, a única base legal potencialmente aplicável será a relativa a interesses legítimos. Para tal, é necessário demonstrar que o tratamento de dados é necessário ao interesse prosseguido e que não se sobrepõe aos direitos e interesses dos titulares dos dados. No entanto, alcançar este equilíbrio é complexo e depende do caso concreto.
Quando a recolha de dados envolve categorias especiais de dados, aplicam-se condições mais rigorosas nos termos do art. 9.º. Dado o caráter particularmente intrusivo do tratamento destes dados pessoais e o nível de proteção consagrado pelo RGPD, nenhuma das exceções do art. 9.º(2) permite a raspagem de categorias especiais de dados:
Consentimento: o consentimento explícito exigido pelo art. 9.º é mais exigente do que o consentimento previsto no art. 6.º. Este facto torna-o impraticável para a maioria dos cenários de recolha de categorias especiais de dados da internet.
Dados pessoais manifestamente tornados públicos: esta exceção aplica-se se o titular de dados tiver intencionalmente tornado os seus dados pessoais públicos. No entanto, a sua aplicação ao web scraping apresenta dois desafios: demonstração de intencionalidade – os responsáveis pelo tratamento devem demonstrar que os dados pessoais foram deliberadamente partilhados pelo titular de dados com o objetivo de serem publicamente acessíveis – e a aplicação concomitante de uma das bases do art. 6.º, que vimos ser limitada a interesses legítimos.
As outras exceções: a maioria das exceções ao abrigo do art 9.º(2) protegem interesses que não incluem o web scraping para fins de treino de IA. Mesmo que a utilização de um sistema de IA possa ser enquadrada nas situações aí previstas (p. ex., dispositivos usados para diagnóstico médico), a própria recolha de dados para treinar o modelo não será, ou só raramente será, considerada necessária.
Assim sendo, na maioria dos casos, a recolha de categorias especiais de dados por via de web scraping para treinar modelos de IA não será permitida à luz do RGPD, por falta de uma base legal aplicável.
Interesses legítimos e web scraping
Nestes termos, vemos que a única hipótese para um tratamento de dados lícito no contexto de web scraping dependerá da aplicação do art. 6.º(1)(f) do RGPD. Contudo, a sua aplicação depende da passagem por três testes: os responsáveis pelo tratamento devem demonstrar que (i) o interesse prosseguido é legítimo, (ii) o tratamento de dados pessoais é necessário e (iii) não infringe desproporcionadamente os direitos, liberdades e interesses dos titulares de dados. A falha em qualquer uma destas fases fará com que o web scraping não se possa basear em interesses legítimos sendo, portanto, ilícito.
Identificação de um interesse legítimo
Primeiro, os responsáveis pelo tratamento devem definir um interesse específico a ser prosseguido pelo web scraping. O RGPD não fornece uma lista exaustiva de interesses legítimos, pelo que, no caso concreto, devem estar relacionados com necessidades legítimas de dados durante o ciclo de vida do modelo de IA.
Por exemplo, o treino de modelos de IA requer conjuntos de dados diversos de modo a garantir resultados de qualidade. Se a recolha de dados pessoais publicados na Internet permitir obter este conjunto diversificado de dados pessoais, então o responsável pelo tratamento poderá ter um interesse legítimo na recolha dos mesmos.
Contudo, existem limitações na escolha do interesse. Se o modelo em causa que se pretende treinar for proibido – p. ex. ao abrigo de outros Regulamentos da UE, como o Regulamento da IA – então o interesse não pode ser legítimo por ser ilícito. De igual forma, a raspagem de dados publicados na internet de forma claramente ilícita – e.g. websites de piratagem – padecem da mesma falha, na medida em que o acesso a esses dados é igualmente ilícito.
Sendo possível encontrar um interesse que seja legítimo para o web scraping durante o ciclo de vida do modelo de IA, então o primeiro teste está ultrapassado, podendo passar-se para o seguinte.
Necessidade do tratamento de dados
O teste de necessidade é o segundo passo para determinar se os interesses legítimos podem justificar a raspagem da Web. Aqui, o responsável pelo tratamento deve demonstrar:
Que não existem alternativas menos intrusivas: a recolha de dados da internet só deve ser efetuada se não existirem outros métodos que permitam atingir o mesmo objetivo.
Que o escopo da raspagem se limita ao necessário: a não existirem alternativas, que os dados recolhidos devem ser limitados ao estritamente necessário para o objetivo identificado.
Assim, numa primeira fase, os responsáveis pelo tratamento devem avaliar outros métodos para a prossecução do interesse em causa e verificar se permitem alcançar os objetivos determinados. Isto passará primeiramente por verificar se dados pessoais são necessários ou se, alternativamente, é possível alcançar o mesmo objetivo com, p. ex., dados anonimizados ou sintéticos.
Se os dados pessoais foram necessários, então uma segunda fase passará por avaliar outros métodos de recolha que permitam alcançar os mesmos fins. Por exemplo, os responsáveis pelo tratamento devem avaliar se os dados pessoais necessários podem ser obtidos sem raspagem. Se a raspagem da Web for considerada necessária por falta de métodos alternativos, o responsável pelo tratamento deve tomar medidas adicionais para garantir a estrita necessidade dos dados pessoais recolhidos. Por exemplo:
Minimização de dados: Deve definir as categorias de dados pessoais necessários e limitar a recolha de dados a essas categorias. Deve, também, limitar a conjugação de web scraping com web crawling de modo a evitar uma recolha excessiva e indiscriminada de dados pessoais. A utilizar as ferramentas em conjunto, deverá filtrar os dados pessoais obtidos e eliminar aqueles que não são necessários.
Exatidão: Validar regularmente a qualidade e a estrutura dos dados extraídos.
Limitação do armazenamento: Estabelecer períodos de retenção claros e eliminar ou tornar anónimos os dados que já não são necessários. De igual forma, deve minimizar as possibilidades de os dados pessoais serem extraídos com a utilização do modelo final.
Proporcionalidade
Sendo o web scraping necessário ao interesse prosseguido, o passo final para a aplicação do art. 6.º(1)(f) envolve a ponderação dos interesses do responsável pelo tratamento com os direitos, liberdades e interesses dos titulares dos dados. Para tal, é necessário avaliar a natureza do tratamento, o seu âmbito e o seu impacto nos indivíduos, especialmente em grupos vulneráveis como crianças.
Nestes termos, a raspagem da Web coloca dois desafios principais a este equilíbrio:
Dados sensíveis e pessoas vulneráveis: a recolha de dados particularmente sensíveis (p. ex. dados de localização ou financeiros e categorias especiais de dados) ou de dados de indivíduos vulneráveis (p. ex. menores) faz pender a balança para a desproporcionalidade do tratamento de dados. Por isso, a raspagem destes dados pessoais, relativos a estas categorias de titulares de dados, dificilmente passará o crivo da proporcionalidade, devendo ser excluída.
Falta de transparência: A raspagem da Web ocorre frequentemente sem o conhecimento dos titulares dos dados, que podem não ter conhecimento do que foi recolhido, de onde ou para que fim. Esta falta de transparência e frustração das expectativas do titular de dados faz igualmente pender a balança a favor dos interesses do titular de dados.
Para mitigar estas limitações, os responsáveis pelo tratamento devem garantir a segurança dos dados recolhidos de modo a diminuir possíveis riscos derivados do tratamento de dados e, na medida do possível, garantir que os titulares de dados são informados do tratamento.
Assim, em termos de integridade e a confidencialidade, as medidas a adotar dependerão do caso e dos riscos que o treino do modelo de IA pode levantar. De forma geral, os responsáveis pelo tratamento devem:
Avaliar os níveis de risco associados ao web scraping e ao ciclo de vida do modelo de IA, tendo em conta as fontes dos dados, as ferramentas utilizadas para os extrair e para treinar o modelo e a utilização prevista do sistema de IA.
Implementar salvaguardas como encriptação, compartimentação de dados e monitorização contínua para evitar divulgações e acessos não autorizados.
Restringir o acesso às bases de dados, manter registos de acesso e supervisionar a partilha de dados.
Mitigar a possibilidade de o modelo e/ou sistema final fornecer os dados pessoais como output.
Treinar o seu pessoal para identificar e gerir eficazmente os riscos de segurança.
No que toca à necessidade de transparência, embora o RGPD exija que os titulares de dados sejam informados sobre a recolha dos seus dados pessoais (arts. 13.º e 14.º), a raspagem da Web apresenta desafios a esta prestação de informação devido à dificuldade de identificar e notificar o grande número de titulares de dados potencialmente afetados. Neste sentido, o RGPD não exige a notificação individual do titular de dados quando esta implica um esforço desproporcional ao responsável pelo tratamento (art. 14.º(5)(b)). Fatores como a idade dos dados, a sua pseudonimização e a disponibilidade de detalhes de contacto influenciam esta avaliação.
Contudo, mesmo quando o responsável pelo tratamento está isento desta notificação individual, este deve tornar a informação acessível ao público, explicando de forma clara o escopo e finalidade da recolha. Tal passará, por exemplo, pela inclusão dos URLs dos sítios Web extraídos e resumos do conteúdo dos dados de treino. Os responsáveis pelo tratamento devem também cumprir as obrigações de transparência nos termos do artigo 53.º do Regulamento da IA, quando aplicável.
Uma abordagem estratificada ao fornecimento de informações – destacando os pontos-chave logo à partida e oferecendo explicações detalhadas em patamares inferiores – garante a clareza da informação fornecida, equilibrando os seus direitos com os interesses legítimos do responsável pelo tratamento. Nestes termos, embora seja claro que o web scraping não pode ser visto como uma ferramenta a utilizar sem considerações suplementares, a sua exclusão em absoluto também não parece ser clara à luz do princípio da licitude do RGPD. Tudo dependerá do caso concreto e das medidas adotadas pelo responsável pelo tratamento de modo a garantir a necessidade e proporcionalidade dos dados pessoais recolhidos na prossecução do seu interesse legítimo.