IA

IA Generativa: cadê a Transparência nos modelos fechados?

A Inteligência Artificial Generativa (Gen AI) deixou de ser uma promessa futurista para se tornar uma tecnologia crítica e estruturante da nossa sociedade contemporânea. Sua influência é vasta e profunda: ela automatiza processos industriais, redefine o mercado de trabalho, impacta a segurança nacional e transforma radicalmente a educação e a produção de conhecimento. No entanto, essa rápida adoção traz consigo desafios técnicos, éticos e políticos monumentais que a sociedade ainda não foi capaz de resolver.

Em nosso estudo mais recente, coordenado pelo Prof. Jorge Machado, analisamos o comparamos os modelos de inteligência artificial fechados (proprietários) e os modelos de código aberto (open source). O objetivo não foi apenas técnico, mas político: entender como garantir que a IA sirva ao interesse público e não apenas a oligopólios tecnológicos.

A Armadilha da “Caixa-Preta” e o Risco da Opacidade

A maior parte das ferramentas de IA que utilizamos hoje — desenvolvidas por gigantes como OpenAI, Google e Microsoft — opera sob um regime de severa opacidade técnica. Em nossa pesquisa, caracterizamos esses sistemas como verdadeiras “caixas-pretas”. Para o usuário comum, para os órgãos reguladores e até para a comunidade científica, o funcionamento interno desses modelos permanece oculto. Não temos acesso ao código-fonte, aos pesos pré-treinados e, crucialmente, aos imensos bancos de dados utilizados no treinamento.

Essa falta de transparência não é um mero detalhe de propriedade intelectual; ela representa uma barreira instransponível para a responsabilização. Teóricos como Frank Pasquale e Jenna Burrell já alertavam que algoritmos secretos que controlam fluxos de informação e dinheiro criam uma “sociedade de caixas-pretas”. Na era da Gen AI, esse risco é amplificado porque esses modelos não apenas processam dados, eles geram realidade. Sem auditoria, não podemos verificar se a IA está reproduzindo vieses racistas, sexistas ou de classe, nem prever como ela se comportará diante de ataques maliciosos que visam manipular sua lógica interna.

Desinformação em Escala Industrial: O Caso da Rede Pravda

Um dos pontos alarmantes apontados em nosso estudo é a vulnerabilidade dos modelos fechados à manipulação externa, um fenômeno conhecido como “data poisoning” (envenenamento de dados). Citamos o caso da Rede Pravda, revelado por auditorias da NewsGuard. Em 2024, essa rede publicou cerca de 3,6 milhões de artigos em 150 domínios diferentes, espalhando narrativas de desinformação em dezenas de idiomas para atingir 49 países.

O resultado foi devastador: todos os dez principais chatbots do mercado, incluindo ChatGPT, Gemini e Claude, foram “contaminados”, replicando informações falsas da Pravda como se fossem fatos verificados. Como as empresas mantêm seus bancos de dados de treinamento em segredo, torna-se impossível para a sociedade civil identificar de onde vem a distorção. Isso prova que modelos fechados, apesar de prometerem segurança, são frequentemente mais vulneráveis a manipulações que os desenvolvedores sequer percebem estar ocorrendo.

O Paradigma da Abertura e o Mito dos Modelos “Semi-Abertos”

A transparência é a única forma de garantir uma IA ética.

Neste cenário, modelos como o BLOOM e o OLMo surgem como faróis. Enquanto modelos como Llama (da Meta) ou Mistral são frequentemente chamados de “abertos”, há que se fazer uma ressalva importante: eles são, na verdade, parcialmente fechados, pois não disponibilizam os detalhes do seu “pipeline” de treinamento ou os dados brutos. Já modelos puramente abertos permitem que pesquisadores independentes:

  • Verifiquem a integridade: examinando os dados para mitigar preconceitos antes que eles cheguem ao usuário.
  • Identifiquem vulnerabilidades: permitindo que especialistas em cibersegurança corrijam falhas de forma colaborativa e rápida.
  • Garantam a reprodutibilidade: um pilar da ciência que é impossível em modelos proprietários onde os resultados podem ser alterados unilateralmente pelas empresas.

O Custo Invisível: Água, Energia e Clima

Um detalhe que o grande público raramente vê é o impacto ambiental da IA. O treinamento de modelos fechados é notoriamente opaco quanto ao seu consumo de recursos. Estudos citados em nossa análise revelam que o treinamento do GPT-3 em data centers nos EUA consumiu diretamente cerca de 700 mil litros de água potável — número que poderia triplicar se realizado em regiões com infraestrutura menos eficiente.

A abertura tecnológica também é uma ferramenta de sustentabilidade. O modelo aberto BLOOM, por exemplo, demonstrou ser 20 vezes mais eficiente em termos de emissão de carbono do que o GPT-3 (emitindo 25 toneladas de CO2 contra 502 toneladas do concorrente fechado). A transparência permite experimentos de otimização que reduzem o desperdício de energia e água, algo que as corporações tendem a ignorar em prol da performance pura e simples.

Conveniência Imediata ou Soberania de Longo Prazo?

É inegável que modelos fechados são atraentes: oferecem suporte dedicado, são fáceis de implementar e não exigem grandes investimentos em infraestrutura local. No entanto, essa facilidade tem um preço: o “technological lock-in” (aprisionamento tecnológico). Países e instituições que dependem exclusivamente de sistemas estrangeiros e fechados perdem sua autonomia e tornam-se reféns de mudanças unilaterais em termos de uso e custos.

A conclusão é clara: a escolha entre modelos abertos e fechados não é apenas técnica, mas uma decisão sobre que tipo de sistemas são mais justos e confiáveis para a sociedade. Precisamos de uma IA que seja Aberta, Pública e Segura — um framework que privilegie a governança multissetorial, o interesse público e a soberania tecnológica, permitindo nações em desenvolvimento não sejam apenas consumidores, mas protagonistas dessa revolução tecnológica.

——————————————————————————–

Este é o primeiro texto de uma série de três sobre o futuro da IA e Setor Público.

Para ler o artigo científico completo com todos os dados e tabelas da pesquisa, acesse: https://arxiv.org/abs/2505.10603

Guia para Análises de Políticas Públicas: Usando Evidências a partir de Ciência de Dados e Inteligência Artificial

fonte: teste

Você já imaginou como a combinação de Inteligência Artificial, Ciência de Dados e análise de políticas públicas pode revolucionar a forma como entendemos e tomamos decisões sobre os desafios sociais?

Atualmente, a pesquisa acadêmica tem se tornado um trabalho árduo e complexo. Ao buscar por palavras-chave nos buscadores de conteúdo científico, muitas vezes somos inundados com listas imensas de trabalhos relacionados. Embora o acesso aos dados tenha se tornado mais simples, essa abundância de informações também exige o uso de ferramentas complexas para compreender o que esses dados realmente ‘dizem’.

Nesse sentido, um projeto de doutorado em andamento no Colab está desenvolvendo um artefato com abordagem sistemática e automatizada para a pesquisa acadêmica em análise de políticas públicas. Por meio de métodos de Inteligência Artificial e Ciência de Dados, nosso projeto busca fornecer aos pesquisadores um “Guia” claro e eficiente para explorar grandes volumes de informações de maneira estruturada, economizando tempo e esforço. Assim, os pesquisadores podem concentrar-se na interpretação dos resultados e na seleção de insights relevantes para suas pesquisas.

Essa pesquisa teve início a partir de um estudo acadêmico (Almeida et al., 2018) que identificou a falta de ferramentas de automação na análise de trabalhos acadêmicos que utilizam dados abertos governamentais. Foram analisados 75 estudos selecionados entre 2009 e 2016. Os resultados revelaram que essas pesquisas tinham poucas ou nenhuma ferramenta de apoio para a automação na coleta, processamento e visualização dos dados. Em um estudo posterior (Beluzo & Craveiro, 2022), analisamos como esses trabalhos se relacionam com as técnicas da ciência de dados em alguma etapa do processo de análise, ficando evidente que as pesquisas estavam aquém das expectativas. Essas descobertas destacaram a necessidade de melhorias e avanços na automação e aplicação de técnicas de ciência de dados na análise de políticas públicas, originando a ideia do Guia.

Com abordagem interdisciplinar que combina técnicas estatísticas, mineração de dados e IA generativa, nosso projeto busca permitir uma análise mais abrangente a partir de um conjunto de textos acadêmicos (dados não estruturados) e dados abertos, descobrindo padrões, tendências e relações ocultas nos dados. Os pesquisadores poderão explorar diferentes métodos e ferramentas disponíveis no guia, possibilitando uma compreensão mais profunda e abrangente das políticas públicas estudadas. Vale ressaltar que o pesquisador continua como protagonista e conhecedor do assunto, sendo o guia um instrumento que reduz etapas de análise e apresenta informações relevantes durante o processo inicial da pesquisa.

Nosso projeto encontra-se em fase de desenvolvimento, e estamos comprometidos em garantir que ele seja aplicável a uma ampla variedade de contextos e problemas de pesquisa em políticas públicas.

Gostou do assunto? Quer saber mais? Entre em contato com o Co:LAB USP!

* José Rodolfo Beluzo é Doutorando no ProMuSPP – EACH / USP; Graduado em Ciências de Computação pelo ICMC-USP; Especialização em desenvolvimento de sistemas WEB pela UNIFAFIBE e Mestre em Sistemas de Informação pelo PPGSI – EACH / USP. Professor e Pesquisador na área de Informática no IFSP Araraquara / SP.