Últimas Notícias

Nenhuma publicacao encontrada em "Últimas Notícias".
Como orquestrar SLM e LLM em produção para cortar custo sem explodir latência

Como orquestrar SLM e LLM em produção para cortar custo sem explodir latência

Na Prática Ricardo Pupo Larguesa

O paper SOMA propõe uma arquitetura que adapta um modelo pequeno durante os primeiros turnos de diálogo para servir o restante da conversa, reduzindo drasticamente o custo de inferência em interações longas. A ideia central é que a escolha entre modelo pequeno ou grande está obsoleta; o que importa agora é saber orquestrar os dois em um único pipeline.