Opinião: o Amália é um marco para Portugal. E também um novo alvo de que ninguém quis falar

Artigo de opinião

O Amália foi apresentado esta quarta-feira no Técnico Innovation Center, em Lisboa, com o primeiro-ministro em palco e a palavra “soberania” repetida até à exaustão. Soberania da língua, soberania da cultura, soberania dos dados. O primeiro grande modelo de linguagem focado em português europeu é, de facto, um marco que merece ser saudado: 18 meses de trabalho, cerca de 60 investigadores de universidades públicas, 5,5 milhões de euros do PRR e um modelo em código aberto que, segundo o relatório técnico divulgado no final de 2025, supera outros modelos abertos no domínio do português de Portugal. Tudo isto é verdade e tudo isto é positivo. Mas houve uma palavra que praticamente não se ouviu na apresentação: segurança.

E é precisamente essa ausência que nos deve inquietar. Porque o Amália não vai ficar no laboratório, como fez questão de sublinhar o presidente da ARTE, Manuel Dias. Vai ser integrado em serviços da Administração Pública, através do portal gov.pt, e na plataforma IAedu da Fundação para a Ciência e Tecnologia. Ou seja: o Estado português está a construir, com toda a legitimidade, aquilo que será também uma nova superfície de ataque do próprio Estado. E sobre isso, silêncio.

Amália, o primeiro grande modelo de linguagem em português europeu, apresentado a 1 de julho de 2026
O Amália, primeiro grande modelo de linguagem focado no português europeu, foi apresentado a 1 de julho no Técnico Innovation Center, em Lisboa.

Um modelo aberto é uma escolha certa, com custos que é preciso assumir

Comecemos pelo que está bem. A decisão de disponibilizar o Amália em código aberto, “três vezes aberto” nas palavras de Paulo Dimas, CEO do Center for Responsible AI, é a decisão correta. Modelos abertos permitem escrutínio independente, auditoria, investigação de vulnerabilidades por terceiros e um ecossistema de inovação que um modelo fechado nunca geraria. A transparência é amiga da segurança.

Mas a abertura tem uma contrapartida que ninguém referiu em palco: um modelo aberto pode ser descarregado, estudado e testado por qualquer pessoa, incluindo por quem procura formas de o manipular. Quando esse mesmo modelo servir de base a assistentes no gov.pt, os atacantes terão tido meses de acesso irrestrito à peça central do sistema para preparar técnicas de prompt injection, jailbreaking e extração de comportamentos indesejados. Isto não é um argumento contra a abertura, é um argumento a favor de um programa sério e público de red-teaming antes de qualquer integração em serviços do Estado. Existe esse programa? Não sabemos. E o facto de não sabermos é, em si mesmo, o problema.

O arquivo.pt como fonte de treino: uma bênção com letras pequenas

O Amália foi treinado com dados do arquivo.pt, o arquivo da web portuguesa, complementados com dados pós-treino preparados especificamente para o português europeu. É uma escolha inteligente e culturalmente coerente. Mas levanta uma questão de segurança que a comunidade internacional de IA conhece bem: o envenenamento de dados de treino. Investigação recente tem demonstrado que basta uma fração surpreendentemente pequena de conteúdo malicioso num corpus de treino para induzir comportamentos anómalos num modelo. A web portuguesa arquivada não é um corpus curado à mão; é a web, com tudo o que isso implica. Que processos de higienização e validação foram aplicados? Que garantias existem contra conteúdo deliberadamente plantado? O relatório técnico fala de desempenho linguístico; não conhecemos avaliação equivalente sobre robustez adversarial.

A soberania que corre em hardware dos outros

Há ainda uma ironia no discurso da soberania que merece ser dita com clareza. Um modelo de linguagem não é soberano por ter sido treinado em português: é soberano se toda a cadeia que o serve estiver sob controlo nacional ou, no mínimo, europeu. Onde correm as GPUs que treinaram o Amália? Onde correrá a inferência quando o modelo estiver a responder a cidadãos no gov.pt? Se a resposta envolver infraestrutura de hyperscalers norte-americanos, como acontece com a esmagadora maioria da computação de IA na Europa, então a soberania anunciada é, para já, uma soberania de software a correr em silício e centros de dados de terceiros. O investimento adicional de 1,5 milhões de euros para “infraestrutura soberana” até 2027 reconhece implicitamente esta lacuna, e é justo dizê-lo. Mas convém não confundir o anúncio da intenção com a sua concretização.

O AI Act não é um detalhe

Há também um enquadramento regulatório que ninguém mencionou e que não é opcional. Quando o Amália servir de base a sistemas usados pela Administração Pública na interação com cidadãos, esses sistemas terão de cumprir o AI Act europeu, com as obrigações de gestão de risco, documentação, supervisão humana e robustez que o regulamento impõe. E as entidades públicas que o operem estão, em muitos casos, abrangidas pelo Regime Jurídico da Cibersegurança, o Decreto-Lei n.º 125/2025 que transpõe a NIS2, que exige gestão contínua de vulnerabilidades e notificação de incidentes. Um LLM em produção num serviço público é um ativo de software como qualquer outro: precisa de gestão de vulnerabilidades, de resposta a incidentes e de alguém que responda por ele quando algo correr mal. Quem é, no caso do Amália, esse alguém? A ARTE? O consórcio académico? A entidade que integrar o modelo? A pergunta parece burocrática; deixará de o parecer no dia do primeiro incidente.

Celebrar sim, mas com as perguntas em cima da mesa

Nada disto retira mérito ao Amália. Pelo contrário: é precisamente porque o projeto é sério e porque vai ser usado em serviços reais que merece ser tratado com a exigência que se aplica a infraestrutura crítica, e não com a complacência que se dedica a um troféu político. Portugal fez bem em construir um modelo próprio. Fará melhor ainda se, antes da integração no gov.pt, publicar os resultados de um red-teaming independente, documentar a proveniência e higienização dos dados de treino, clarificar o modelo de responsabilidade por incidentes e explicar em que infraestrutura correrá a inferência.

A soberania digital não se declara em conferências de imprensa. Constrói-se com engenharia de segurança, e demonstra-se com transparência. O Amália tem tudo para ser um caso de estudo positivo em ambas. Seria uma pena que a única coisa verdadeiramente portuguesa no primeiro incidente de segurança do primeiro LLM português fosse a surpresa.

As posições expressas neste artigo de opinião são da responsabilidade de José Jorge Santos.