Documentação Técnica

Arquitetura Nzinga

Como construímos um modelo pequeno, rápido e culturalmente preciso — sem os recursos das Big Tech.

Pipeline de Dados

O corpus lusófono é recolhido, filtrado e curado em 4 fases antes de entrar no treino.

1

Recolha

Scrapers dos Diários da República, APIs legislativas, rádios comunitárias, Wikipedia PT.

2

Filtragem

Deduplicação MinHash, remoção de HTML/boilerplate, deteção de língua por país.

3

Anotação SFT

Geração de pares instrução/resposta com personas regionais usando APIs de LLM.

4

Treino QLoRA

Fine-tuning com Unsloth + QLoRA 4-bit. Eficiente em GPUs de consumo.

Stack Técnica

model_training

Modelo Base

TucanoBR/Tucano-1b1

LLM brasileiro de 1.1B já pré-treinado em português. Ponto de partida ideal para fine-tuning lusófono.

memory

Fine-tuning

Unsloth + QLoRA 4-bit

Treino eficiente com LoRA r=64 α=128. Reduz memória GPU em 70% sem perda significativa de qualidade.

storage

Dados

JSONL + SQLite corpus

Base de dados auditável por país. Rastreabilidade total da origem de cada exemplo de treino.

hub

Distribuição

HuggingFace Hub

Modelo publicado com pesos abertos. Compatível com transformers, llama.cpp, Ollama.

dns

Inferência

vLLM / Ollama

Datacenters em Luanda, Lisboa, Maputo e Brasília. Baixa latência para utilizadores da CPLP.

search

RAG

ChromaDB + embeddings PT

Retrieval-Augmented Generation para acesso a corpora jurídicos e documentais em tempo real.