O sinal do dia
Registro autoral do que foi desenvolvido ou publicado no dia anterior, cruzado com sinais das fontes recorrentes do ecossistema.
Contribuições @sztlink
- x · @sztlink / X: @no_stp_on_snek @pbicho96 The fourth axis: trajectory fidelity. How long greedy decoding stays on the exact fp16 token path. KVarN holds it far longer than TurboQuant (4x to 11x at
- x · @sztlink / X: KV-cache quantization has no single winner. I mapped KVarN vs TurboQuant across four axes on one 4090, including a fidelity axis that still discriminates at 14B, where standard beh
Sinais externos do dia
- commit · TheTom / llama-cpp-turboquant: HIP: fix turbo KV decode crash under graph capture; batch-aware VEC/TILE FA routing (#176)
- issue · TheTom / llama-cpp-turboquant: #178 Misc. bug: Won't run on Intel Arc pro B50 GPU
- issue · TheTom / llama-cpp-turboquant: #112 Feature Request: Windows CUDA build with native Blackwell / RTX 5090 arch support
O que observar agora
- Velocidade entre paper, fork e validação em hardware real.
- Qualidade medida por REFRACT, não apenas throughput.
- Claims de forks comparados com execução concreta.
Nota autoral
- Esta edição combina radar de campo com diário de contribuição: o que se moveu no ecossistema e o que o @sztlink efetivamente colocou em circulação no GitHub/X.
- O texto público deve assumir uma voz de trabalho: método, dúvida, evidência e próximo experimento — sem transformar hipótese em resultado.
Fontes consultadas
- TheTom / llama-cpp-turboquant
- TheTom / turboquant_plus / REFRACT
- llama.cpp discussion #20969
- sztlink / turboquant-cuda-bench
- TurboQuant paper
Próxima leitura
TurboQuant é um radar diário e também um diário público de contribuição: consulta fontes recorrentes do ecossistema — TheTom, REFRACT, llama.cpp, benchmark @sztlink, paper TurboQuant e forks adjacentes — e registra o que o @sztlink colocou em circulação no GitHub/X.