Outro artigo sobre o ChatGPT? O possível futuro dos modelos fundacionais no Regulamento sobre Inteligência Artificial

Doutrina

Tanto o (ainda) futuro Regulamento sobre Inteligência Artificial (IA) como as ferramentas de Inteligência Artificial Generativa (ChatGPT ou Dall-e, entre outros) foram objeto de ampla discussão ao longo de 2023. As ferramentas de IA generativa, que explodiram em termos de popularidade no início do ano passado, suscitaram propostas de alterações significativas ao texto da Proposta de Regulamento de IA e debates entre Estados. Algumas dessas alterações podem ser encontradas nas Emendas à Proposta de Regulamento sobre IA apresentadas pelo Parlamento Europeu em 14 de junho de 2023. No final de 2023, ainda durante a presidência espanhola da UE, existiam duas posições opostas sobre a regulamentação dos modelos fundacionais: (1) fazê-lo através de códigos de conduta sem um regime de sanções por incumprimento; ou (2) a inclusão de certas obrigações no próprio Regulamento IA, referindo-se principalmente à transparência, embora também relacionadas com os direitos de autor.

Nesta publicação do blog, vamos centrar a nossa atenção em algumas das alterações do Parlamento Europeu sobre modelos fundacionais e na forma como isso afeta a IA generativa.

Para começar, convém esclarecer brevemente três conceitos: IA de objetivo geral, modelos fundacionais e Chat GPT.

Considera-se que os sistemas de IA de uso geral são os concebidos para desempenhar funções de uso geral, como o reconhecimento de texto, imagem e voz, a geração de texto, áudio, imagem ou vídeo, a deteção de padrões, a resposta a perguntas ou a tradução. Estes sistemas não teriam sido possíveis sem a redução dos custos de armazenamento e processamento de grandes quantidades de dados (big data).

Os modelos fundacionais, por outro lado, são modelos de inteligência artificial treinados em grandes quantidades de dados e concebidos para produzir informações gerais de saída capazes de ser adaptados a uma grande variedade de tarefas. Não devemos relacionar os modelos fundacionais exclusivamente com a IA de objetivo geral: um modelo fundacional pode servir tanto para sistemas de IA de objetivo específico como para sistemas de IA de objetivo geral. No entanto, os modelos fundacionais que não sirvam para ferramentas de IA para fins gerais não seriam abrangidos pelo futuro Regulamento relativo à IA (alteração 101 do PE e considerando 60-G).

O ChatGPT colocou desafios sociais e jurídicos significativos, não só em termos de direitos de autor, mas também em termos de cibersegurança e proteção de dados pessoais. Este tema será, no entanto, discutido num texto separado. Por enquanto, vejamos o que o futuro do Regulamento IA pode reservar para os modelos fundacionais, se as alterações do Parlamento Europeu forem aceites.

Os princípios gerais dos sistemas de IA

A alteração 213 do Parlamento Europeu propõe a introdução de um novo artigo 4º-A relativo aos princípios gerais aplicáveis a todos os sistemas de IA. Trata-se, de certa forma, de um equivalente ao artigo 5.º do Regulamento Geral sobre a Proteção de Dados, relativo aos princípios aplicáveis ao tratamento de dados pessoais.

Nos termos do artigo 4.º-A, todos os operadores abrangidos pelo âmbito de aplicação do Regulamento IA devem envidar todos os esforços para desenvolver e utilizar sistemas ou modelos fundacionais em conformidade com os seguintes princípios, destinados a promover uma abordagem europeia coerente, centrada no ser humano, de uma IA ética e fiável:

– Intervenção humana e vigilância

– Robustez técnica e segurança

– Privacidade e governação dos dados

– Transparência (e explicabilidade)

– Diversidade, não discriminação e equidade

– Bem-estar social e ambiental

Estes seis princípios serão aplicáveis tanto aos sistemas de IA como aos modelos fundacionais. No entanto, no caso dos modelos fundacionais, devem ser cumpridos pelos fornecedores ou responsáveis pela aplicação em conformidade com os requisitos estabelecidos nos artigos 28.-B. Note-se que os artigos 28.º a 28.º-B fazem parte do Título III relativo aos sistemas de alto risco. Já salientámos no início que as últimas discussões na negociação do Regulamento no que se refere aos modelos fundacionais não os consideram sistemas de alto risco. O mesmo não parece resultar das alterações do Parlamento. Por conseguinte, deve entender-se que os modelos fundacionais serão regulados nas disposições que os mencionam expressamente, como é o caso do artigo 4º-A ou dos artigos 28º a 28º-B, mas não no Título III do RIA no seu conjunto.

O artigo 28.º do PRIA diz respeito às obrigações dos distribuidores, importadores, utilizadores e terceiros. As alterações do Parlamento propõem a substituição do título por “Responsabilidades ao longo da cadeia de valor da IA dos fornecedores, distribuidores, importadores, responsáveis pela aplicação ou terceiros”.  A referência a toda a cadeia de valor da IA é, na minha opinião, uma boa medida, uma vez que sublinha a importância de todo o processo de IA: não só o seu desenvolvimento, mas também a sua utilização. Tenho mais dúvidas em substituir a palavra “obrigações” por “responsabilidades” ou em incluir no título uma lista pormenorizada de todas as partes envolvidas.

A maior parte das obrigações relativas aos modelos fundacionais encontra-se no n.º 3 do artigo 28.º (novo, alteração 399), que se intitula “Obrigações do fornecedor de um modelo fundacional” (o termo “obrigações” é retomado aqui).

Podemos agrupar as obrigações do fornecedor de modelos fundacionais em três grupos:

– Obrigações anteriores à comercialização de modelos fundacionais (n.ºs 1 e 2). Estas obrigações aplicam-se ao fornecedor, independentemente de o modelo ser fornecido autonomamente ou integrado num sistema de IA ou noutro produto ou de ser fornecido ao abrigo de licenças gratuitas e de fonte aberta.

– Obrigações pós-comercialização (n.º 3), e

– Obrigações específicas relativas aos sistemas de IA generativa, ou seja, especificamente destinados a gerar conteúdos, como texto, imagem, áudio ou vídeo complexos (secção 4).

Obrigações anteriores à comercialização do modelo fundacional

De acordo com o art. 28.ter.2, o fornecedor de um modelo fundacional, antes de comercializar ou colocar o modelo em funcionamento, deve (tendo em conta o estado da arte num dado momento):

– Demonstrar a deteção, redução e mitigação de riscos razoavelmente previsíveis para a saúde, a segurança, os direitos fundamentais, o ambiente, a democracia ou o Estado de direito.

o Tal deve ser demonstrado através de uma conceção, testes e análises adequados e com a participação de peritos independentes.

o Deve também fornecer documentação sobre os riscos não mitigáveis remanescentes após o desenvolvimento.

– Só deve processar e incorporar conjuntos de dados sujeitos a medidas de governação adequadas para modelos fundacionais.

o Em particular: adequação das fontes, enviesamentos e atenuação adequada.

– Deve conceber e desenvolver o modelo

o de modo a atingir, ao longo do seu ciclo de vida, níveis adequados de desempenho, previsibilidade, interpretabilidade, correção, segurança e cibersegurança, avaliados por métodos adequados;

o utilizando as normas aplicáveis para reduzir o consumo de energia, a utilização de recursos e os resíduos, bem como para aumentar a eficiência energética e a eficiência global do sistema. A este respeito, devem ser desenvolvidos modelos fundacionais com capacidades para medir e registar o consumo de energia e de recursos e o impacto ambiental.

– Desenvolverá uma documentação técnica exaustiva e instruções de utilização inteligíveis.

– Estabelecer um sistema de gestão da qualidade para garantir e documentar a conformidade com todos os elementos acima referidos (responsabilidade proactiva).

– Registar o modelo básico na base de dados da UE para sistemas independentes de alto risco.

Obrigações pós-comercialização do modelo básico

Durante dez anos após o sistema de IA ter sido colocado no mercado ou em serviço, os fornecedores de modelos fundacionais devem manter a documentação técnica à disposição das autoridades nacionais competentes (Agência de Controlo da IA).

Obrigações específicas para os modelos de IA generativa

Para além das obrigações gerais estabelecidas no ponto 28.ter.2, os fornecedores de sistemas de IA generativa devem:

– Cumprir as obrigações de transparência do artigo 52.º, n.º 1 (obrigação de informar as pessoas que interagem com estes sistemas de que estão a interagir com um sistema de IA).

– Conceber e desenvolver o modelo de forma a garantir salvaguardas adequadas contra a produção de conteúdos que infrinjam a legislação da UE.

– Sem prejuízo da legislação em matéria de direitos de autor, devem documentar e disponibilizar publicamente um resumo suficientemente pormenorizado da utilização de dados de formação protegidos por direitos de autor.

Bónus: dois desafios colocados pela IA generativa

Termino este post partilhando duas preocupações (às quais os nossos leitores poderão responder): os desafios em matéria de propriedade intelectual colocados pela IA generativa e a possibilidade de considerar os modelos fundacionais como de alto risco.

Começo pela primeira, porque é mais ousada da minha parte: quando é que eu, uma pessoa singular, posso ser considerado autor de uma obra literária gerada através de IA generativa (Chat GPT, por exemplo)? Desenvolvo um pouco mais a minha preocupação: não é (ou não deveria ser) a mesma coisa para mim introduzir uma simples pergunta no Chat GPT, como “escreva a oitava parte do Harry Potter”, do que introduzir várias perguntas com um certo nível de complexidade (quanto?), nas quais introduzo certas características específicas do romance. Se aceitarmos que as ferramentas de IA não deixam de ser ferramentas tecnológicas (muito complexas, mas tecnológicas), talvez possamos concordar que se trata de um debate semelhante ao que surgiu na altura em torno da fotografia, que permite distinguir legalmente entre “fotografia (artística)” e “mera fotografia (carregar no botão da câmara)”. Outra questão, mais difícil, seria distinguir, em cada caso, quando as instruções introduzidas numa ferramenta de IA generativa nos permitem falar de utilização artística da IA generativa ou de “mera utilização” da IA generativa.

O segundo desafio é, de facto, abrangido pelo Regulamento IA, mas é importante referi-lo. Consiste na consideração dos modelos fundacionais como sendo de alto risco. O anexo III da proposta de Regulamento IA contém uma lista não fechada de sistemas de IA de alto risco. No entanto, não se deve esquecer que a Comissão teria (na proposta de Regulamento relativo à IA, artigo 7.º) teria poderes para adotar atos delegados que alterem o anexo III para acrescentar sistemas de IA que satisfaçam duas condições: destinar-se a ser utilizados em qualquer dos domínios enumerados nos pontos 1 a 8 do anexo (ou seja, identificação biométrica e categorização de pessoas singulares; gestão e funcionamento de infra-estruturas críticas; educação e formação profissional, emprego, gestão de trabalhadores e acesso ao trabalho independente; acesso e usufruto de serviços públicos e privados essenciais e seus benefícios; questões de aplicação da lei; gestão das migrações; asilo e controlo financeiro; administração da justiça e processos democráticos); comportar um risco de danos para a saúde e a segurança ou um risco de consequências negativas para os direitos fundamentais que seja equivalente ou superior aos riscos de danos associados aos sistemas de IA de alto risco já mencionados no Anexo III, tendo em conta vários critérios, tais como, entre outros, o objetivo pretendido do sistema de IA ou a probabilidade de este ser utilizado de uma determinada forma.

Deve uma IA generativa (que é um exemplo de um modelo fundamental) capaz de produzir vídeos destinados a perturbar os processos democráticos ser considerada de alto risco? Parece claro que sim, uma vez que estas utilizações estão enumeradas no ponto 8 do anexo III, quer se destinem especificamente a perturbar os processos democráticos quer sejam suscetíveis de ser utilizadas para o efeito. O que não é claro neste momento (teremos de aguardar a redação final do texto) é se será considerado de alto risco desde o início, ou apenas depois de a Comissão adotar o ato delegado correspondente para alargar o Anexo III. Por outras palavras, se este ato delegado da Comissão seria constitutivo ou meramente declarativo de que um sistema de AI é de alto risco.

Proteção de Dados e Treino de IA: Bases de Licitude e Direito a ser Informado

Doutrina

No domínio da inteligência artificial (“IA”), uma das preocupações fundamentais prende-se com o tratamento de dados pessoais em conformidade com as normas aplicáveis, em particular, o Regulamento Geral de Proteção de Dados (“RGPD”).

Desde a compreensão das bases jurídicas que regem a utilização de dados pessoais até ao cumprimento dos direitos dos titulares dos dados e à promoção da transparência, o nosso objetivo neste post será o de desvendar as complexidades e oferecer conhecimentos práticos sobre como fazer o tratamento de dados no contexto da IA, de uma forma compatível com o RGPD.

Compreender as bases de licitude nos sistemas de IA

Nesta secção, aprofundamos o aspeto crítico das bases de licitude do art. 6.º RGPD para um tratamento lícito de dados pessoais por sistemas de IA, esclarecendo como os dados pessoais podem ser utilizados nestes sistemas.

Em primeiro lugar, é preciso compreender que os sistemas de IA são treinados com dados pessoais obtidos através de diversas fontes. Estes canais incluem principalmente a recolha de dados da Internet (o web scraping, cuja licitude já tem sido questionada por autoridades de supervisão a nível mundial), as informações fornecidas pelo utilizador já após o lançamento do sistema (e.g. ao utilizar o ChatGPT e ao enviar comandos, podem essas instruções conter dados pessoais que são utilizados para treinar o sistema) e, por último, terceiros, como bases de dados de terceiros.

Com base nestas fontes de dados pessoais, é-nos possível elencar três bases de licitude principais incluídas no art. 6.º do RGPD, que poderão ser usadas para treinar sistemas de IA com dados pessoais.

Execução de um contrato

O artigo 6.º, n.º 1, alínea b), do RGPD permite o tratamento de dados pessoais quando tal seja necessário para a execução de um contrato com o respetivo titular de dados. No entanto, a aplicação desta base ao treino de IA está sujeita a condições estritas.

Em particular, deve ser demonstrado que o treino do sistema de IA (e não apenas a sua utilização após o treino) é estritamente necessário para o cumprimento de um contrato com a pessoa em causa. Este requisito tem vindo a ser interpretado de forma restritiva, exigindo que o objeto principal do contrato seja impossível sem esse tratamento dos dados pessoais. No contexto da IA, isto cria cenários limitados nos quais a base contratual pode ser viável, muito provavelmente apenas em circunstâncias em que o sistema de IA é adaptado ao titular de dados (por exemplo, quando output de um modelo linguístico é personalizado para ser semelhante à forma como o consumidor responderia, ou com base em algum conhecimento pré-determinado do mesmo).

Quanto à segunda parte desta base jurídica – a necessidade de tomar diligências pré-contratuais – a sua utilização exige a demonstração de que não há outra forma de satisfazer as exigências de um titular de dados que possa potencialmente querer celebrar um contrato que não sejam treinar (e, mais uma vez, não utilizar apenas depois de treinado) o sistema de IA. Esta parece ser uma opção ainda mais limitada do que a primeira parte desta base de licitude.

Em suma, a possibilidade de utilizar um contrato como base jurídica para treinar sistemas de IA com dados pessoais parece limitada a casos muito específicos, não sendo, em regra, a primeira escolha a ponderar.

Interesses legítimos

Os interesses legítimos do responsável pelo tratamento é das bases mais versáteis do art. 6.º do RGPD, sendo utilizável nestas circunstâncias. Contudo, a utilizá-la, deve efetuar-se uma avaliação caso a caso para garantir que esses interesses não limitam de forma desproporcional os direitos e liberdades dos titulares dos dados. Esta análise torna-se particularmente difícil quando a entidade por detrás do treino do sistema de IA não tem contacto direto com os titulares dos dados. A luta da OpenAI com a Autoridade Italiana de Supervisão da Proteção de Dados é um exemplo claro desta dificuldade. De facto, ao utilizar o interesse legítimo como base legal para o treino do ChatGPT, a empresa vinculou a licitude do treino a uma base legal que é inerentemente vaga e incerta, dado também o direito das pessoas em causa de se oporem a esse tratamento.

Assim, para se fazer valer desta base de forma eficaz, os responsáveis pelo tratamento terão de fazer uma avaliação do interesse legítimo, em que verificam se o tratamento de dados corresponde às expectativas razoáveis das pessoas em causa, demonstram a estrita necessidade do tratamento (por exemplo, demonstrando que a IA não pode funcionar corretamente sem os dados pessoais em questão) e que o tratamento tem devidamente em conta os interesses das pessoas em causa.

Além disso, têm de garantir que as pessoas em causa sejam informadas de forma adequada do tratamento de dados, nos termos dos artigos 13.º e 14.º do RGPD, bem como a criação de um sistema eficaz para a objeção de titulares de dados a este tratamento.

Consentimento

O consentimento como base de licitude apresenta desafios derivados da forma comos os dados pessoais são recolhidos, frequentemente sem contacto direto com os titulares de dados. Embora em casos extremos possa ser a única base jurídica possível (por exemplo, ao processar categorias especiais de dados em conformidade com o art. 9.º do RGPD), o cumprimento dos requisitos do RGPD para um consentimento válido – incluindo a clareza, a especificidade e a inequivocidade – é uma exigência elevada no contexto do treino de sistemas de IA.

Em conclusão, a seleção de uma base jurídica adequada para o treino de sistemas de IA é uma tarefa complexa. Enquanto a execução de um contrato e o consentimento enfrentam limitações práticas, os interesses legítimos do responsável pelo tratamento, embora sendo uma base incerta, surge como a opção potencialmente mais adequada.

Transparência e direito de ser informado

Nesta secção, aprofundamos um aspeto crítico de conformidade com o RGDP: a transparência e o direito a ser informado nos termos dos arts. 13.º e 14.º do RGPD.

Assim sendo, a informação devida a titulares de dados – e o modo como é fornecida – varia consoante a forma como os dados pessoais são recolhidos. Os desafios em cada cenário, quer se trate de recolha de dados indireta ou diretamente do titular de dados, exigem medidas ponderadas para se alinharem com as exigências do RGPD.

Web Scraping

Uma das formas mais comuns de treinar sistemas de IA é por via de web scraping, ou seja através de ferramentas que extraem dados – incluindo dados pessoais – da Internet.

A obtenção de dados pessoais por esta via leva a desafios particulares, não só devido à forma potencialmente ilícita como os dados pessoais são recolhidos, mas também devido à falta de interação direta entre a entidade extratora dos dados e o titular de dados, o que dificulta a transmissão de informação contida no art. 14.º do RGPD. A isto, importa juntar que os operadores de sistemas de IA lidam frequentemente com grandes quantidades de dados extraídos automaticamente da Internet, o que dificulta a própria identificação dos titulares de dados.

Neste contexto, a alínea b) do n.º 5 do artigo 14.º do RGPD define que, quando o fornecimento da informação contida nesse artigo for impossível ou implicar um esforço desproporcionado por parte do responsável pelo tratamento, este fica isento desta obrigação. No entanto, as autoridades de supervisão tendem a interpretar esta exceção de forma restritiva, tornando pouco claro até que ponto os responsáveis pelo tratamento e os criadores de sistemas IA podem utilizá-la de forma eficaz.

Independentemente disso, os criadores de IA devem tomar medidas adequadaspara proteger os direitos e liberdades das pessoas em causa. Isto inclui a publicação de políticas de privacidade nos seus websites e, em alguns casos, a realização de campanhas de informação para garantir que são adotados todos os esforços para informar as pessoas em causa do tratamento de dados.

Embora existam desafios na recolha de dados, medidas proativas e um compromisso com a transparência podem facilitar a resolução destas questões. Os operadores de IA devem esforçar-se por equilibrar o seu tratamento de dados com as normas do RGPD e o direito dos utilizadores a serem informados.

Fornecimento de dados por terceiros

Nos casos em que os dados são fornecidos por terceiros, a colaboração entre as partes envolvidas no tratamento de dados torna-se crucial. Estes terceiros desempenham um papel importante para garantir a transparência no tratamento dos dados, na medida em que são a entidade – idealmente – em contacto com os titulares de dados.

Estas partes, sendo as que obtêm os dados pessoais, ocupam uma posição de ponte entre os criadores de sistemas de IA e os titulares de dados, fornecendo a estes ferramentas e orientações sobre como os seus dados serão processados. O estabelecimento de canais de comunicação claros com estes fornecedores é fundamental, em especial quando se trata de dar resposta ao exercício dos direitos por parte dos titulares de dados.

Dados fornecidos diretamente pelo titular de dados

Finalmente, para os dados recolhidos diretamente dos titulares de dados, aplica-se o artigo 13.º do RGPD. Este artigo exige que os responsáveis pelo tratamento de dados forneçam informações específicas no momento da recolha, incluindo a identidade e os dados de contacto do responsável pelo tratamento de dados, as finalidades do tratamento e a base jurídica. Isto reforça a importância da comunicação e divulgação transparentes, garantindo que os utilizadores são informados sobre a forma como os seus dados serão utilizados. Ao ligar estes pontos, a transparência torna-se um elemento essencial para práticas responsáveis por parte de criadores de sistemas de IA e no alinhamento do seu tratamento de dados com as regras aplicáveis.