v0.1-alpha · Em treino activo

NZINGA AI

A inteligência artificial que cresceu a ouvir o povo — nas ruas, nas rádios, nos parlamentos, nas redes.

O primeiro modelo de linguagem construído com os dados dos 9 países da CPLP. Não foi treinado sobre a nossa língua — foi treinado dentro dela. Com os nossos dialectos, as nossas leis, a nossa cultura.

O que é a NZINGA AI?

A NZINGA AI é um modelo de linguagem de 1.1 bilhão de parâmetros, construído sobre o TucanoBR/Tucano-1b1, fine-tunado com dados dos PALOP, Portugal e Brasil. Construído sobre o TucanoBR/Tucano-1b1 e treinado com um corpus que nunca existiu antes: a voz real, viva e diversa dos 9 países da CPLP.

Os grandes modelos de linguagem tratam o português como uma língua monolítica — como se Angola soasse igual a Lisboa, como se o crioulo de Cabo Verde fosse um erro ortográfico. A NZINGA AI foi construída para acabar com esse apagamento. Cada variante regional, cada dialecto, cada sotaque — está aqui.

Licença Apache 2.0 — livre para governos, universidades, empresas e cidadãos. O conhecimento é nosso. E fica connosco.

1.1B

Parâmetros

500M+

Tokens treino

2048

Tokens contexto

9

Países CPLP

O que recolhemos — Março 2026

~25GB

Dados Jurídicos

DRE + PALOP completo

1.001

Vídeos YouTube

Comentários em JSON

23

Programas Transcritos

Rádio e TV ao vivo

230+

Fontes Activas

Gov, ONU, Web, GitHub

Uma Língua. Nove Países.
Um só Corpus.

Fomos a cada país recolher a língua onde ela vive: nas leis, nas ruas, nas rádios, nos ecrãs, nos comentários. Isto não é uma amostra — é um retrato.

Angola

Diário da República, Legis-PALOP, literatura Mukanda. Programas de rádio e televisão transcritos com o povo a falar sobre corrupção, educação e dia-a-dia. Milhares de comentários do YouTube recolhidos via Bright Data. A voz real de Angola, em dados.

Brasil

Legislação federal completa (LexML, STF, DOU, Câmara), GigaVerbo (1.574 ficheiros), Wikipedia PT-BR, Portal da Transparência, Reddit lusófono e milhões de comentários do YouTube. Repositórios de código no GitHub em português. Maior volume do corpus — 215 milhões de falantes representados.

Cabo Verde

Boletim Oficial, imprensa, corpus de crioulo cabo-verdiano. Programas de rádio e televisão ao vivo transcritos — jornais e entrevistas reais. Comentários do YouTube da diáspora em todo o mundo. A língua que atravessa o Atlântico.

Guiné-Bissau

Legislação nacional, Legis-PALOP, BCD-CPLP, textos educativos bilingues. Programas de rádio transcritos. Comentários do YouTube recolhidos. Dados sintéticos SFT para o crioulo da Guiné. Um dos países menos representados na IA global — estamos a mudar isso.

Moçambique

Boletim da República, Legis-PALOP, imprensa lusófona. Programas de televisão e rádio ao vivo sobre corrupção, justiça e vida urbana — transcritos com Whisper. Milhares de comentários do YouTube com o português do sul de África. Dados de transportes e administração municipal.

Portugal

DRE na íntegra — ~12,6 GB, toda a legislação desde o século XIX. Parlamento, tribunais, Wikipedia PT (172 MB), comentários do YouTube, Reddit, GitHub e Eurostat. A espinha dorsal jurídica e académica do corpus lusófono.

São Tomé e Príncipe

Diário da República são-tomense, Legis-PALOP, rádio e imprensa locais. Comentários do YouTube recolhidos. Dados sintéticos SFT para o forro e o angolar. Um dos menores países do mundo — mas a sua língua tem lugar garantido neste modelo.

Timor-Leste

Jornal da República e textos bilingues Tétum-Português. Corpus académico e etnográfico do único país asiático da CPLP. Comentários do YouTube recolhidos. Uma nação que escolheu o português como língua da sua soberania — e que agora tem voz num modelo de IA soberano.

Guiné Equatorial (obs.)

País observador da CPLP; dados legislativos via Legis-PALOP e BCD-CPLP incluídos parcialmente. A coexistência do português com o espanhol e o francês torna este corpus único para tarefas multilingues.

Manifesto

A língua portuguesa é falada por mais de 260 milhões de pessoas em 4 continentes. É a 5.ª língua mais falada no mundo. E no entanto, os sistemas de inteligência artificial disponíveis hoje tratam-na como uma língua de segunda classe — um dialeto do inglês, sem história, sem sotaque, sem alma.

A NZINGA AI nasce para mudar isso. Não como produto de consumo, mas como infraestrutura soberana. O NZINGA AI não é um modelo construído sobre a lusofonia — é construído dentro dela.

O nome Nzinga não é por acaso. A Rainha Nzinga Mbande foi a primeira governante africana a enfrentar o colonialismo com diplomacia, inteligência e determinação. O nosso projecto herda o mesmo espírito: recusar a dependência tecnológica, construir com os nossos recursos, nas nossas línguas.

Soberana na origem. Livre na licença. Enraizada na cultura.

Roadmap de Versões

v0.1-alpha Em curso

Fine-tuning inicial com corpus jurídico (DRE, PALOP). Validação interna.

🤗 Disponível no HuggingFace →
v0.5-beta Em planeamento

Expansão do corpus cultural. Benchmark público em tarefas lusófonas.

v1.0 Q1 2027

Lançamento público. API. Suporte RAG. Integração com sistemas governamentais.