Arquitetura Técnica

Pipeline de Dados

O corpus lusófono é recolhido, filtrado e curado em 4 fases antes de entrar no treino.

Scrapers dos Diários da República, APIs legislativas, rádios comunitárias, Wikipedia PT.

Deduplicação MinHash, remoção de HTML/boilerplate, deteção de língua por país.

Geração de pares instrução/resposta com personas regionais usando APIs de LLM.

Fine-tuning com Unsloth + QLoRA 4-bit. Eficiente em GPUs de consumo.

model_training

TucanoBR/Tucano-1b1

LLM brasileiro de 1.1B já pré-treinado em português. Ponto de partida ideal para fine-tuning lusófono.

memory

Unsloth + QLoRA 4-bit

Treino eficiente com LoRA r=64 α=128. Reduz memória GPU em 70% sem perda significativa de qualidade.

storage

JSONL + SQLite corpus

Base de dados auditável por país. Rastreabilidade total da origem de cada exemplo de treino.

hub

HuggingFace Hub

Modelo publicado com pesos abertos. Compatível com transformers, llama.cpp, Ollama.

dns

vLLM / Ollama

Datacenters em Luanda, Lisboa, Maputo e Brasília. Baixa latência para utilizadores da CPLP.

ChromaDB + embeddings PT

Retrieval-Augmented Generation para acesso a corpora jurídicos e documentais em tempo real.