O sinal do dia
Registro autoral do que foi desenvolvido ou publicado no dia anterior, cruzado com sinais das fontes recorrentes do ecossistema.
Contribuições @sztlink
- commit · sztlink / turboquant-cuda-bench: Add RECEIPT-2026-05-12: two-week curatorial receipt of the TurboQuant front
- commit · sztlink / turboquant-cuda-bench: Add FP8 calibrated W8A8 + on-the-fly panels: calibrated FP8 recovers structure, misses precision
- commit · sztlink / turboquant-cuda-bench: Add FP8 KV dtype sweep: auto/fp8/turboquant_k8v4 on Qwen 2.5-7B decoy k=16
- x · @sztlink / X: At 7B / 16K / exact-match retrieval: TurboQuant K8V4 holds. Calibrated FP8 emits near-miss precision errors on the digits it should hit. https://t.co/sJHnyUTy0k https://t.co/M9dbpB
Sinais externos do dia
- issue · TheTom / llama-cpp-turboquant: #142 Feature Request: Please merge upstream PR #22288 for Gemma4 SWA cache reuse fix
- issue · TheTom / llama-cpp-turboquant: #141 Bug: Please merge upstream PR #22288 for Gemma4 SWA cache reuse fix
- issue · TheTom / llama-cpp-turboquant: #19 feat: Metal support for turbo2 (2-bit KV cache, 6.4x compression)
- issue · TheTom / llama-cpp-turboquant: [#16 [sm_120 / Blackwell] Shadow buffer OOM and corruption on RTX 5060 Ti 16GB](https://github.com/TheTom/llama-cpp-turboquant/issues/16)
- issue · TheTom / llama-cpp-turboquant: #12 HIP Memory Aperture Violation with TurboQuant-3 KV-Cache Compression on AMD RDNA4 (RX 9070 XT)
O que observar agora
- Velocidade entre paper, fork e validação em hardware real.
- Qualidade medida por REFRACT, não apenas throughput.
- Claims de forks comparados com execução concreta.
Nota autoral
- Esta edição combina radar de campo com diário de contribuição: o que se moveu no ecossistema e o que o @sztlink efetivamente colocou em circulação no GitHub/X.
- O texto público deve assumir uma voz de trabalho: método, dúvida, evidência e próximo experimento — sem transformar hipótese em resultado.
Fontes consultadas
- TheTom / llama-cpp-turboquant
- TheTom / turboquant_plus / REFRACT
- llama.cpp discussion #20969
- sztlink / turboquant-cuda-bench
- TurboQuant paper
Próxima leitura
TurboQuant é um radar diário e também um diário público de contribuição: consulta fontes recorrentes do ecossistema — TheTom, REFRACT, llama.cpp, benchmark @sztlink, paper TurboQuant e forks adjacentes — e registra o que o @sztlink colocou em circulação no GitHub/X.