A inteligência artificial que cresceu a ouvir o povo — nas ruas, nas rádios, nos parlamentos, nas redes.
O primeiro modelo de linguagem construído com os dados dos 9 países da CPLP. Não foi treinado sobre a nossa língua — foi treinado dentro dela. Com os nossos dialectos, as nossas leis, a nossa cultura.
A NZINGA AI é um modelo de
linguagem de 1.1 bilhão de parâmetros, construído sobre o TucanoBR/Tucano-1b1, fine-tunado com dados dos PALOP, Portugal e Brasil. Construído sobre o TucanoBR/Tucano-1b1 e
treinado com um corpus que nunca existiu antes: a voz real, viva e diversa dos 9 países da CPLP.
Os grandes modelos de linguagem tratam o português como uma língua monolítica — como se Angola soasse igual a Lisboa, como se o crioulo de Cabo Verde fosse um erro ortográfico. A NZINGA AI foi construída para acabar com esse apagamento. Cada variante regional, cada dialecto, cada sotaque — está aqui.
Licença Apache 2.0 — livre para governos, universidades, empresas e cidadãos. O conhecimento é nosso. E fica connosco.
1.1B
Parâmetros
500M+
Tokens treino
2048
Tokens contexto
9
Países CPLP
O que recolhemos — Março 2026
~25GB
Dados Jurídicos
DRE + PALOP completo
1.001
Vídeos YouTube
Comentários em JSON
23
Programas Transcritos
Rádio e TV ao vivo
230+
Fontes Activas
Gov, ONU, Web, GitHub
Fomos a cada país recolher a língua onde ela vive: nas leis, nas ruas, nas rádios, nos ecrãs, nos comentários. Isto não é uma amostra — é um retrato.
Diário da República, Legis-PALOP, literatura Mukanda. Programas de rádio e televisão transcritos com o povo a falar sobre corrupção, educação e dia-a-dia. Milhares de comentários do YouTube recolhidos via Bright Data. A voz real de Angola, em dados.
Legislação federal completa (LexML, STF, DOU, Câmara), GigaVerbo (1.574 ficheiros), Wikipedia PT-BR, Portal da Transparência, Reddit lusófono e milhões de comentários do YouTube. Repositórios de código no GitHub em português. Maior volume do corpus — 215 milhões de falantes representados.
Boletim Oficial, imprensa, corpus de crioulo cabo-verdiano. Programas de rádio e televisão ao vivo transcritos — jornais e entrevistas reais. Comentários do YouTube da diáspora em todo o mundo. A língua que atravessa o Atlântico.
Legislação nacional, Legis-PALOP, BCD-CPLP, textos educativos bilingues. Programas de rádio transcritos. Comentários do YouTube recolhidos. Dados sintéticos SFT para o crioulo da Guiné. Um dos países menos representados na IA global — estamos a mudar isso.
Boletim da República, Legis-PALOP, imprensa lusófona. Programas de televisão e rádio ao vivo sobre corrupção, justiça e vida urbana — transcritos com Whisper. Milhares de comentários do YouTube com o português do sul de África. Dados de transportes e administração municipal.
DRE na íntegra — ~12,6 GB, toda a legislação desde o século XIX. Parlamento, tribunais, Wikipedia PT (172 MB), comentários do YouTube, Reddit, GitHub e Eurostat. A espinha dorsal jurídica e académica do corpus lusófono.
Diário da República são-tomense, Legis-PALOP, rádio e imprensa locais. Comentários do YouTube recolhidos. Dados sintéticos SFT para o forro e o angolar. Um dos menores países do mundo — mas a sua língua tem lugar garantido neste modelo.
Jornal da República e textos bilingues Tétum-Português. Corpus académico e etnográfico do único país asiático da CPLP. Comentários do YouTube recolhidos. Uma nação que escolheu o português como língua da sua soberania — e que agora tem voz num modelo de IA soberano.
País observador da CPLP; dados legislativos via Legis-PALOP e BCD-CPLP incluídos parcialmente. A coexistência do português com o espanhol e o francês torna este corpus único para tarefas multilingues.
A língua portuguesa é falada por mais de 260 milhões de pessoas em 4 continentes. É a 5.ª língua mais falada no mundo. E no entanto, os sistemas de inteligência artificial disponíveis hoje tratam-na como uma língua de segunda classe — um dialeto do inglês, sem história, sem sotaque, sem alma.
A NZINGA AI nasce para mudar isso. Não como produto de consumo, mas como infraestrutura soberana. O NZINGA AI não é um modelo construído sobre a lusofonia — é construído dentro dela.
O nome Nzinga não é por acaso. A Rainha Nzinga Mbande foi a primeira governante africana a enfrentar o colonialismo com diplomacia, inteligência e determinação. O nosso projecto herda o mesmo espírito: recusar a dependência tecnológica, construir com os nossos recursos, nas nossas línguas.
Soberana na origem. Livre na licença. Enraizada na cultura.
Fine-tuning inicial com corpus jurídico (DRE, PALOP). Validação interna.
🤗 Disponível no HuggingFace →Expansão do corpus cultural. Benchmark público em tarefas lusófonas.
Lançamento público. API. Suporte RAG. Integração com sistemas governamentais.