Como orquestrar SLM e LLM em produção para cortar custo sem explodir latência
O paper SOMA propõe uma arquitetura que adapta um modelo pequeno durante os primeiros turnos de diálogo para servir o restante da conversa, reduzindo drasticamente o custo de inferência em interações longas. A ideia central é que a escolha entre modelo pequeno ou grande está obsoleta; o que importa agora é saber orquestrar os dois em um único pipeline.