Segurança jurídica no treinamento de modelos de IA e o legítimo interesse

Por Gabriel Carnaval

Originalmente publicado na Revista Consultor Jurídico (Conjur)

1. Uma questão regulatória
Desde a vigência da Lei Geral de Proteção de Dados (LGPD) em 2020, organizações tanto nacionais quanto internacionais têm empreendido esforços para ajustar seus procedimentos cotidianos, visando alcançar plena conformidade com as normativas regulatórias. A coleta, compartilhamento, armazenamento, exclusão e até análise de dados pessoais ou sensíveis agora exigem aderência irrestrita a uma das bases legais delineadas pela referida legislação.

Não que a LGPD condiciona necessariamente uma pessoa física ou jurídica, com interesses econômicos [1], à poder ou não realizar atos de tratamento de dados pessoais. Em vez disso, a legislação instituiu mecanismos com o propósito de orientar as boas práticas técnicas e organizacionais que já eram apreciadas em normas de padronização internacionais (como a família ISO/IEC 27000), mas agora dentro do contexto do Direito Regulatório. Ou seja, o Estado, por meio da Autoridade Nacional de Proteção de Dados, entraria como uma das partes interessadas nas atividades de tratamento de dados pessoais.

Em outras palavras, os arcabouços legais de proteção de dados não visam impor restrições à inovação, mas, sim, propugnam por viabilizar meios que propiciem a implementação de tecnologias avançadas de maneira responsável, levando em conta os titulares de dados: uma estrutura robusta e coerente de proteção de dados contribuirá efetivamente para fomentar a confiança que permitirá o desenvolvimento da economia digital.

Assim, qualquer projeto que uma organização pretenda realizar, deverá ser pensado nas práticas de Privacy by Design Privacy by Default, para identificar os riscos, estabelecer as medidas de mitigações e os requisitos legais dentro de seu Programa de Governança interna.

A escolha da hipótese de tratamento mais apropriada, no entanto, constitui essencialmente um desdobramento de um processo criativo-jurídico dentro da organização. Nesse contexto, a organização deve considerar cuidadosamente a finalidade e a necessidade associadas a cada atividade de tratamento contemplada.

Isso implica inclusive que projetos que englobem o tratamento automatizado de dados, os quais empregarão técnicas e modelos de inteligência artificial (IA), devem ser abrangidos pelas bases legais estipuladas pela LGPD, tanto para dados pessoais comuns [2], quanto para dados pessoais sensíveis [3].

Podemos imaginar diferentes cenários em que uma organização, podendo ser considerada o Controlador dos dados pessoais [4], ou até mesmo o fornecedor de IA [5], poderia se valer de projetos de IA para otimizar suas atividades empresariais. Os sistemas de IA, por meio da aplicação de uma miríade de ferramentas algorítmicas complexas, têm a capacidade de compilar, analisar e processar vastas quantidades de dados de múltiplas fontes, idealmente buscando resultados ou previsões confiáveis.

A partir disso, este artigo se propõe em adentrar no contexto das hipóteses legais cabíveis para o treinamento de algoritmos de IA que se valem de dados pessoais para suas finalidades, com foco especial para o legítimo interesse.

2. Os dados e a máquina
Antes mesmo de abordar a base legal do legítimo interesse, é necessário contextualizar em que medida os dados pessoais são utilizados para o treinamento de algoritmos e modelos de IA.

A IA apresenta diferentes estratos de complexidade, sendo que suas formas mais avançadas incluem as técnicas de machine learnning (ML). No entanto, todos esses sistemas estão intrinsecamente ligados ao processo de design, programação e desenvolvimento de aplicações computacionais que buscam autonomia no aprendizado. Tais aplicações fazem uso de uma variedade de métodos para analisar comportamentos e identificar padrões com base na experiência acumulada ao longo do tempo.

A premissa fundamental subjacente aos sistemas de IA avançada é a utilização de diversas formas de dados, empregando algoritmos computacionais para fins de treinamento e aprendizado. Neste contexto, o aprendizado de máquina destaca-se pela capacidade de aprimorar sua própria capacidade “cognitiva” por meio do aprendizado autodirigido.

Em todas as etapas de projetos de design e desenvolvimento de IA (incluindo coleta e medição de dados relevantes para aprendizado supervisionado, treinamento de um conjunto de algoritmos dependentes de dados e teste/validação do modelo algorítmico), diferentes tipos de operações de processamento de dados pessoais podem ocorrer.

Assim é que os algoritmos de ML operam a partir de informações iniciais fornecidas por programadores ou desenvolvedores, sob a forma de exemplos rotulados, alimentando um protocolo de aprendizado automático.

Sistemas de IA ainda podem adquirir conjuntos de dados contendo informações pessoais de várias fontes para combiná-los em um único banco de dados ou em vários bancos de dados. Essa situação apresenta uma ampla gama de desafios relacionados ao quadro legal que governa seu uso. Mais e mais dados estão disponíveis para treinar as máquinas, e, em muitos casos, esses dados estão relacionados a um indivíduo identificado ou identificável (dados pessoais) que alimentam esses sistemas, permitindo que eles aprendam e se tornem “artificialmente inteligentes”.

Diante do exposto, é evidente que a curadoria de dados para o treinamento de algoritmos representa um desafio ético e legal significativo. A escolha de dados de entrada (input) para o treinamento de algoritmos não é uma tarefa trivial, pois as decisões tomadas nesse processo podem ter impactos duradouros, inclusive nas definições claras para as hipóteses legais para a utilização desses dados pessoais para o treinamento desses sistemas.

3. Entre o interesse legítimo e a finalidade do modelo de IA
Diversas aplicações de IA demandam algoritmos distintos e se os juristas, ou as partes responsáveis pela escolha da base legal apropriada para o treinamento do modelo, negligenciarem essa consideração, qualquer tentativa de fundamentação se revelará infrutífera, deixando os potenciais prejuízos ignorados e as prescrições superficiais.

Assim, para os projetos que envolverão baixo, médio ou alto volume de dados pessoais em sua concepção. Sempre é recomendável que seja realizado um Relatório de Impacto de Tratamento de Dados, para fins de demonstração de conformidade e de gestão de risco que a organização empregou.

Quando esses projetos envolverem modelos específicos de IA, como as técnicas de Machine Learning, LLM, ou até mesmo de Modelos Fundacionais, é que as práticas de Privacy by Design e Privacy by Default se mostram relevantes dentro desse contexto regulatório, as quais irão compor um time multidisciplinar, preocupados tanto com a qualidade técnica, quanto com a conformidade jurídica do projeto.

Ambas as técnicas poderão ajudar a organização a identificar os seguintes pontos:

a) Definição da finalidade do modelo: quando os algoritmos de IA antecipam ou estimam algo, é imperativo estabelecer o que esse algo deveria ser e como mensurá-lo. Seja para os algoritmos de aprendizagem supervisionada ou não supervisionada, será preciso estipular as variáveis dos resultados, qual o ponto que almeja atingir;

b) Coleta e utilização dos dados para o treinamento: reside-se aqui a fase mais crucial e delicada do projeto, uma vez que qualquer deslize pode reverberar negativamente nas decisões do modelo. Uma vez que o objetivo do sistema de IA tenha sido concebido e traduzido em uma variável de resultado definida, deverá ser realizado a “curadoria” da base de dados a ser utilizada no treinamento do modelo, visando sua finalidade inicial;

c) Seleção do modelo apropriado: quando a finalidade for estabelecida, e os dados “curados”, deverá ser levado em conta o tipo de variável de resultado, a taxa de custo assimétrica, a explicabilidade, o overfitting, a oportunidade de ajustes e as limitações de recursos da organização.

4. O legítimo interesse da LGPD como meio de segurança jurídica da finalidade do modelo de IA
Com base nas considerações apresentadas anteriormente, é possível antecipar que a identificação primária da finalidade, da base de dados utilizada e do modelo selecionado conduzirá à escolha e justificação mais adequada da base legal estipulada pela LGPD. Dessa forma, no início do projeto de IA, seja ele voltado para um modelo de previsão, recomendação ou tomada de decisão, é imperativo fundamentar a base legal para a utilização dos dados pessoais no treinamento do modelo de IA.

A princípio, pode-se conjecturar como outras bases legais estabelecidas na LGPD, como o consentimento, poderiam ser mais apropriadas para legitimar o uso dos dados. Entretanto, é crucial considerar os riscos associados a esse dilema, que podem ser acentuados pela inadequação de cada base legal para a finalidade do tratamento.

Seria juridicamente seguro submeter um titular ao consentimento em um padrão transacional no qual não seria possível negociar os termos e condições com o controlador? Mesmo para uma organização, considerando que o consentimento pode ser revogado a qualquer momento pelo titular, isso acarretaria impactos negativos em termos de eficácia e precisão do objetivo de cada modelo de IA proposto?

Para os casos em que o modelo de IA será treinado exclusivamente com dados pessoais comuns, não em conjunto com dados pessoais sensíveis, parece extremamente viável que o controlador se valha da base legal do interesse legítimo.

Seguindo o modelo do GDPR, a LGPD não estabelece uma hierarquia entre as diversas bases de licitude contidas em seu artigo 7º, colocando, portanto, o interesse legítimo em pé de igualdade com as outras bases legais para o processamento de dados pessoais, especialmente o consentimento. Isso desloca o foco do consentimento como a única base que garante a autodeterminação e controle dos indivíduos sobre as operações de processamento.

O interesse legítimo apresenta garantias complementares, impedindo que seja considerado o elo mais fraco ou uma porta aberta para legitimar todas as atividades de processamento de dados que não se enquadram em nenhuma das outras bases legais. Esta base legal não deve ser vista como uma opção para preencher lacunas em situações raras e imprevistas, agindo como um “último recurso” ou uma última chance se nenhuma outra base se aplicar. No entanto, o tratamento de dados com base em um interesse legítimo está restrito ao que é plausivelmente necessário para perseguir esse interesse.

Seguindo essa abordagem, a ICO [6], em suas Diretrizes de 2020 sobre Inteligência Artificial e Proteção de Dados, destaca a necessidade de os controladores de dados identificarem a base legal apropriada para cada atividade de tratamento de dados no desenvolvimento e implementação de IA. No que tange à fase de desenvolvimento de IA, as diretrizes apontam que é possível basear-se em interesses legítimos. Contudo, os controladores de dados devem ter em mente que assumem uma responsabilidade adicional de considerar e proteger os direitos e interesses das pessoas, além de serem capazes de demonstrar a necessidade e proporcionalidade do processamento.

Em situações concretas, é essencial delinear claramente os interesses envolvidos, sendo recomendável o uso de um checklist conforme descrito no artigo 10 da LGPD [7]. Ademais, é importante considerar aspectos relacionados à necessidade do tratamento para cumprir os propósitos pretendidos, transparência e a possibilidade de a autoridade de supervisão solicitar, nesses casos, uma avaliação de impacto na proteção de dados. Além disso, o artigo 37 da LGPD estabelece que os controladores e processadores são obrigados a manter registros de suas operações de processamento de dados, especialmente quando baseadas em interesses legítimos.

Por fim, ressalta-se que, muito embora seja estipulado pela doutrina da matéria e em outras legislações não nacionais, o controlador não é obrigado a realizar o chamado “Teste de Proporcionalidade”, mas sim de cumprir com os demais requisitos regulatórios aplicáveis para o seu projeto e suas finalidades almejadas.

5. Considerações finais
O interesse legítimo não deve ser interpretado como uma autorização irrestrita para o fornecedor de sistema de IA ou controlador de dados pessoais; implica que este assume uma responsabilidade mais abrangente. Em contraposição à sua flexibilidade inerente, o processamento de dados pessoais com base em interesses legítimos exige que os controladores de dados avaliem minuciosamente o propósito dessas operações, os dados indispensáveis para sua execução e os variados direitos e liberdades em jogo, levando em consideração as circunstâncias particulares de cada caso.


[1] Art. 5º Para os fins desta Lei, considera-se: I – dado pessoal: informação relacionada a pessoa natural identificada ou identificável;

[2] II – dado pessoal sensível: dado pessoal sobre origem racial ou étnica, convicção religiosa, opinião política, filiação a sindicato ou a organização de caráter religioso, filosófico ou político, dado referente à saúde ou à vida sexual, dado genético ou biométrico, quando vinculado a uma pessoa natural;

[3] Nos termos da LGPD: Art. 5º Para os fins desta Lei, considera-se: […] VI – controlador: pessoa natural ou jurídica, de direito público ou privado, a quem competem as decisões referentes ao tratamento de dados pessoais;

[4] Nos termos do PL 2.338/2023: Art. 4º Para as finalidades desta Lei, adotam-se as seguintes definições: […] II – fornecedor de sistema de inteligência artificial: pessoa natural ou jurídica, de natureza pública ou privada, que desenvolva um sistema de inteligência artificial, diretamente ou por encomenda, com vistas a sua colocação no mercado ou a sua aplicação em serviço por ela fornecido, sob seu próprio nome ou marca, a título oneroso ou gratuito;

[5] ICO, I. C. O. Guidance on ai and data protection. Information Commissioner’s Office, UK, 2020. Citado na página 13.

[6] Art. 10. O legítimo interesse do controlador somente poderá fundamentar tratamento de dados pessoais para finalidades legítimas, consideradas a partir de situações concretas, que incluem, mas não se limitam a: I – apoio e promoção de atividades do controlador; e II – proteção, em relação ao titular, do exercício regular de seus direitos ou prestação de serviços que o beneficiem, respeitadas as legítimas expectativas dele e os direitos e liberdades fundamentais, nos termos desta lei.

  • Gabriel Carnaval Rosaé advogado, especialista em proteção de dados pessoais, privacidade e novas tecnologias, pós-graduando pela Uerj, aluno especial da FDUSP e membro pesquisador do Instituto de Estudos Avançados da USP (IEAUSP) e Legal Grounds Institute.
Sobre o autor
Picture of Legal Grounds Institute

Legal Grounds Institute

Produzindo estudos sobre políticas públicas para a comunicação social, novas mídias, tecnologias digitais da informação e proteção de dados pessoais, buscando ajudar na construção de uma esfera pública orientada pelos valores da democracia, da liberdade individual, dos direitos humanos e da autodeterminação informacional, em ambiente de mercado pautado pela liberdade de iniciativa e pela inovação.
Picture of Legal Grounds Institute

Legal Grounds Institute

Produzindo estudos sobre políticas públicas para a comunicação social, novas mídias, tecnologias digitais da informação e proteção de dados pessoais, buscando ajudar na construção de uma esfera pública orientada pelos valores da democracia, da liberdade individual, dos direitos humanos e da autodeterminação informacional, em ambiente de mercado pautado pela liberdade de iniciativa e pela inovação.

Leia mais

Tradutor »
Pular para o conteúdo