O sinal do dia
Registro autoral do que foi desenvolvido ou publicado no dia anterior, cruzado com sinais das fontes recorrentes do ecossistema.
Contribuições @sztlink
- commit · sztlink / turboquant-cuda-bench: Add public Evidence-Paged KV kernel receipts
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel v7 receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel v6 receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel v5 receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel v4 receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel v3 receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel v2 receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV CUDA kernel receipt
- commit · sztlink / turboquant-cuda-bench: Add Evidence-Paged KV microbench receipt
- commit · sztlink / turboquant-cuda-bench: Add KV kernel lab receipt
- x · @sztlink / X: published the first public cut of turboquant-cuda-bench: retrieved != used long-context / KV-cache receipts up to 192K on local RTX 4090: Qwen, llama.cpp, vLLM, TurboQuant, CASK, K
Sinais externos do dia
- commit · TheTom / llama-cpp-turboquant: Merge pull request #146 from TheTom/sync/upstream-b9190-mtp
- issue · TheTom / llama-cpp-turboquant: #119 Eval bug: cublasSgemm_v2 CUBLAS_STATUS_INVALID_VALUE during prompt-cache invalidation under sustained load (turbo3 KV + --n-cpu-moe + MoE model)
- issue · TheTom / llama-cpp-turboquant: #64 Eval bug: broken vulkan on Bazzite Linux
- commit · TheTom / turboquant_plus / REFRACT: docs(papers): add block-selector sparse attention WIP log
O que observar agora
- Velocidade entre paper, fork e validação em hardware real.
- Qualidade medida por REFRACT, não apenas throughput.
- Claims de forks comparados com execução concreta.
Nota autoral
- Esta edição combina radar de campo com diário de contribuição: o que se moveu no ecossistema e o que o @sztlink efetivamente colocou em circulação no GitHub/X.
- O texto público deve assumir uma voz de trabalho: método, dúvida, evidência e próximo experimento — sem transformar hipótese em resultado.
Fontes consultadas
- TheTom / llama-cpp-turboquant
- TheTom / turboquant_plus / REFRACT
- llama.cpp discussion #20969
- sztlink / turboquant-cuda-bench
- TurboQuant paper
Próxima leitura
TurboQuant é um radar diário e também um diário público de contribuição: consulta fontes recorrentes do ecossistema — TheTom, REFRACT, llama.cpp, benchmark @sztlink, paper TurboQuant e forks adjacentes — e registra o que o @sztlink colocou em circulação no GitHub/X.