Como construímos um modelo pequeno, rápido e culturalmente preciso — sem os recursos das Big Tech.
O corpus lusófono é recolhido, filtrado e curado em 4 fases antes de entrar no treino.
Scrapers dos Diários da República, APIs legislativas, rádios comunitárias, Wikipedia PT.
Deduplicação MinHash, remoção de HTML/boilerplate, deteção de língua por país.
Geração de pares instrução/resposta com personas regionais usando APIs de LLM.
Fine-tuning com Unsloth + QLoRA 4-bit. Eficiente em GPUs de consumo.
TucanoBR/Tucano-1b1
LLM brasileiro de 1.1B já pré-treinado em português. Ponto de partida ideal para fine-tuning lusófono.
Unsloth + QLoRA 4-bit
Treino eficiente com LoRA r=64 α=128. Reduz memória GPU em 70% sem perda significativa de qualidade.
JSONL + SQLite corpus
Base de dados auditável por país. Rastreabilidade total da origem de cada exemplo de treino.
HuggingFace Hub
Modelo publicado com pesos abertos. Compatível com
transformers, llama.cpp, Ollama.
vLLM / Ollama
Datacenters em Luanda, Lisboa, Maputo e Brasília. Baixa latência para utilizadores da CPLP.
ChromaDB + embeddings PT
Retrieval-Augmented Generation para acesso a corpora jurídicos e documentais em tempo real.