Dados Abertos

IA Generativa: cadê a Transparência nos modelos fechados?

A Inteligência Artificial Generativa (Gen AI) deixou de ser uma promessa futurista para se tornar uma tecnologia crítica e estruturante da nossa sociedade contemporânea. Sua influência é vasta e profunda: ela automatiza processos industriais, redefine o mercado de trabalho, impacta a segurança nacional e transforma radicalmente a educação e a produção de conhecimento. No entanto, essa rápida adoção traz consigo desafios técnicos, éticos e políticos monumentais que a sociedade ainda não foi capaz de resolver.

Em nosso estudo mais recente, coordenado pelo Prof. Jorge Machado, analisamos o comparamos os modelos de inteligência artificial fechados (proprietários) e os modelos de código aberto (open source). O objetivo não foi apenas técnico, mas político: entender como garantir que a IA sirva ao interesse público e não apenas a oligopólios tecnológicos.

A Armadilha da “Caixa-Preta” e o Risco da Opacidade

A maior parte das ferramentas de IA que utilizamos hoje — desenvolvidas por gigantes como OpenAI, Google e Microsoft — opera sob um regime de severa opacidade técnica. Em nossa pesquisa, caracterizamos esses sistemas como verdadeiras “caixas-pretas”. Para o usuário comum, para os órgãos reguladores e até para a comunidade científica, o funcionamento interno desses modelos permanece oculto. Não temos acesso ao código-fonte, aos pesos pré-treinados e, crucialmente, aos imensos bancos de dados utilizados no treinamento.

Essa falta de transparência não é um mero detalhe de propriedade intelectual; ela representa uma barreira instransponível para a responsabilização. Teóricos como Frank Pasquale e Jenna Burrell já alertavam que algoritmos secretos que controlam fluxos de informação e dinheiro criam uma “sociedade de caixas-pretas”. Na era da Gen AI, esse risco é amplificado porque esses modelos não apenas processam dados, eles geram realidade. Sem auditoria, não podemos verificar se a IA está reproduzindo vieses racistas, sexistas ou de classe, nem prever como ela se comportará diante de ataques maliciosos que visam manipular sua lógica interna.

Desinformação em Escala Industrial: O Caso da Rede Pravda

Um dos pontos alarmantes apontados em nosso estudo é a vulnerabilidade dos modelos fechados à manipulação externa, um fenômeno conhecido como “data poisoning” (envenenamento de dados). Citamos o caso da Rede Pravda, revelado por auditorias da NewsGuard. Em 2024, essa rede publicou cerca de 3,6 milhões de artigos em 150 domínios diferentes, espalhando narrativas de desinformação em dezenas de idiomas para atingir 49 países.

O resultado foi devastador: todos os dez principais chatbots do mercado, incluindo ChatGPT, Gemini e Claude, foram “contaminados”, replicando informações falsas da Pravda como se fossem fatos verificados. Como as empresas mantêm seus bancos de dados de treinamento em segredo, torna-se impossível para a sociedade civil identificar de onde vem a distorção. Isso prova que modelos fechados, apesar de prometerem segurança, são frequentemente mais vulneráveis a manipulações que os desenvolvedores sequer percebem estar ocorrendo.

O Paradigma da Abertura e o Mito dos Modelos “Semi-Abertos”

A transparência é a única forma de garantir uma IA ética.

Neste cenário, modelos como o BLOOM e o OLMo surgem como faróis. Enquanto modelos como Llama (da Meta) ou Mistral são frequentemente chamados de “abertos”, há que se fazer uma ressalva importante: eles são, na verdade, parcialmente fechados, pois não disponibilizam os detalhes do seu “pipeline” de treinamento ou os dados brutos. Já modelos puramente abertos permitem que pesquisadores independentes:

  • Verifiquem a integridade: examinando os dados para mitigar preconceitos antes que eles cheguem ao usuário.
  • Identifiquem vulnerabilidades: permitindo que especialistas em cibersegurança corrijam falhas de forma colaborativa e rápida.
  • Garantam a reprodutibilidade: um pilar da ciência que é impossível em modelos proprietários onde os resultados podem ser alterados unilateralmente pelas empresas.

O Custo Invisível: Água, Energia e Clima

Um detalhe que o grande público raramente vê é o impacto ambiental da IA. O treinamento de modelos fechados é notoriamente opaco quanto ao seu consumo de recursos. Estudos citados em nossa análise revelam que o treinamento do GPT-3 em data centers nos EUA consumiu diretamente cerca de 700 mil litros de água potável — número que poderia triplicar se realizado em regiões com infraestrutura menos eficiente.

A abertura tecnológica também é uma ferramenta de sustentabilidade. O modelo aberto BLOOM, por exemplo, demonstrou ser 20 vezes mais eficiente em termos de emissão de carbono do que o GPT-3 (emitindo 25 toneladas de CO2 contra 502 toneladas do concorrente fechado). A transparência permite experimentos de otimização que reduzem o desperdício de energia e água, algo que as corporações tendem a ignorar em prol da performance pura e simples.

Conveniência Imediata ou Soberania de Longo Prazo?

É inegável que modelos fechados são atraentes: oferecem suporte dedicado, são fáceis de implementar e não exigem grandes investimentos em infraestrutura local. No entanto, essa facilidade tem um preço: o “technological lock-in” (aprisionamento tecnológico). Países e instituições que dependem exclusivamente de sistemas estrangeiros e fechados perdem sua autonomia e tornam-se reféns de mudanças unilaterais em termos de uso e custos.

A conclusão é clara: a escolha entre modelos abertos e fechados não é apenas técnica, mas uma decisão sobre que tipo de sistemas são mais justos e confiáveis para a sociedade. Precisamos de uma IA que seja Aberta, Pública e Segura — um framework que privilegie a governança multissetorial, o interesse público e a soberania tecnológica, permitindo nações em desenvolvimento não sejam apenas consumidores, mas protagonistas dessa revolução tecnológica.

——————————————————————————–

Este é o primeiro texto de uma série de três sobre o futuro da IA e Setor Público.

Para ler o artigo científico completo com todos os dados e tabelas da pesquisa, acesse: https://arxiv.org/abs/2505.10603

COLAB contribui com a elaboração da Política de Dados Abertos de estado alemão Baden-Württemberg

O estado alemão de Baden-Württemberg – localizado do sudeste do país e conhecido por ser uma das regiões mais inovadoras da União Européia, pretende iniciar sua política de dados abertos. Para isso, organizou ontem um encontro de dados abertos em sua Escola de Governo (Führungsakademie), localizada em Karlsruhe. Para o evento, foram convidados gestores das principais cidades do Estado – como Stuttgart, Freiburg, Manheim Konstanz e Ulm -, representantes de organizações públicas, do setor empresarial e acadêmicos.

IMGP2645bwOpendataGroup-peq2

O objetivo principal do evento foi o estabelecer as bases sob as qual se desenvolverá a política estadual de dados abertos – a ser feito de forma conjunta e integrada com as administrações regionais e locais.

Open Data Meeting - Baden-Württemberg

Open Data Meeting – Baden-Württemberg

 

Jorge Machado, do COLAB/USP, apresentou um pouco da experiência brasileira, destacou a importância de mapear as bases disponíveis e criar um catálogo de dados, de estabelecer mecanismos efetivos de participação social, de identificação de demandas e prioridades e da necessidade de desenhar um modelo de governança que seja multisetorial e multistakeholder para dar mais segurança e legitimidade ao processo de tomada de decisão – uma vez que envolve temas como proteção de dados pessoais, direitos autorais, custos de gestão, entre outros.

 

 

 

 

 

 

 

 

Sob orientação de membros do COLAB, alunos desenvolvem Portal de Transparência da EACH/USP

Dentro dos esforços de promover maior transparência no uso dos recursos
da nossa unidade, foi desenvolvido pelos alunos do curso Sistemas de Informação da Escola de Artes Ciências e Humanidades. A equipe de desenvolvimento foi formada por  Vinicius Neves, Fabio Bim sob orientação do pesquisador Marcelo Tavares Santana e a professora Gisele Craveiro.

O protótipo está ainda em uma versão beta, mas já está disponível para testes
no endereço: http://devcolab.each.usp.br/Transparencia/portal-transparencia-each-colab

Nesse sistema web, a descrição dos gastos pode ser vista em forma
de tabela: http://devcolab.each.usp.br/Transparencia/Orcamento/Tabela

E através de um gráfico multinível, onde o nível mais externo revela a composição
da categoria do nível mais interno. O gráfico é interativo até o menor nível
possível da descrição: http://devcolab.each.usp.br/Transparencia/Orcamento/Grafico

Para os interessados em fazer suas próprias análises e filtros, foram disponibilizados
todos os dados em um formato que permite a abertura em qualquer programa de
planilha eletrônica: devcolab.each.usp.br/APITransparencia/CSV

A revolução dos dados está chegando! A III Conferência Internacional de Dados Abertos publica o relatório final, traçando um roteiro guia para Dados Abertos

Em maio esse ano aconteceu a Terceira Conferência Internacional de Dados Abertos em Ottawa Canada. Participaram mais que 1.000 pessoas de 56 países do setor público, acadêmico, privado, organizações civis, organizações multilaterais, estudantes e outros setores. Aconteceram também 29 eventos paralelos. Num deles, o Open Data Research Symposium, a profa. Gisele Craveiro apresentou as pesquisas do COLAB com dois papers: “Challenges of implementing a local open data initiative – the case of the Official Gazette of São Paulo, Brazil” e “Open Government Data Initiatives and its Impacts on Citizen Empowerment: the case of “Caring For My Neighborhood”.

Esse evento enriquecedor e inovador coletou muitas experiências das comunidades de dados abertos ao redor do mundo. O resultado disso é um relatório final que acaba de ser publicado:

Enabling the Data Revolution: An International Open Data Roadmap”.

A imagem mostra o IODC Report Cover

IODC Report Cover

Com base nas atividades e nos debates sobre dados abertos, o relatório pretende resumir o “estado da arte” do movimento, traçando um roteiro e visões sobre o futuro de dados abertos, além de propor o desenvolvimento de um plano de ação.

O plano de ação se divide em cinco áreas:

  • Construir princípios comuns para os dados abertos;

  • Desenvolver e adoptar boas práticas e padrões abertos para a publicação de dados;

  • Desenvolver a capacidade de produzir e utilizar dados abertos eficazmente;

  • Fortalecer as redes de inovação de dados abertos;

  • Adoptar medidas e ferramentas comuns de avaliação.

A conferência também incluiu 14 sessões onde se discutiu o impacto de dados abertos nas áreas de agricultura, educação, democracia, meio ambiente, extração de dados, transparência fiscal, saúde, cidades inteligentes, mídias e cultura, povos indígenas, dinheiro público, accountability no setor público e parlamentos abertos.

As discussões receberam contribuições de outras áreas como inovação digital, acesso à informação, desenvolvimento de códigos abertos e tecnologias cívicas.

Outros pontos discutidos foram a infraestrutura de dados abertos, a aplicação de padrões, visão dos usuários, política de dados, potenciais de dados abertos e monitoramento.

Um aspecto importante da Conferência era a discussão do rascunho da Carta Internacional de Dados Abertos, International Open Data Charter. Essa carta que deve ser lançada ainda esse ano, contendo 5 princípios:

  • Dados Abertos por Padrão;

  • Qualidade e Quantidade;

  • Acessíveis e utilizáveis por todos;

  • Engajamento e capacitação dos cidadãos;

  • Colaboração para Desenvolvimento e Inovação.

Os debates focaram também em pontos críticos como privacidade e direitos indígenas, além de propor a integração dos princípios de dados abertos entre os objetivos globais de desenvolvimento. O rascunho da carta está em discussão pública aqui: http://opendatacharter.net/charter/

Tendo em vista os resultados alcançados da conferência, o COLAB fica contente de ter contribuído também um pouco de sua experiência.

A 4th International Open Data Conference, será realizada no próximo ano em Madrid, Espanha, nos dias 6 a 7 de Outubro.