O sinal do dia
Registro autoral do que foi desenvolvido ou publicado no dia anterior, cruzado com sinais das fontes recorrentes do ecossistema.
Contribuições @sztlink
- x · @sztlink / X: the curve, point by point + how to reproduce on your rig: https://t.co/LXySq7gRnn eviction physically deletes kv entries; the safe ratio for agent workloads is ~0.25, far below the
- x · @sztlink / X: your kv compression looks lossless on the benchmark while your agent falls apart. measured the cliff: snapkv keeps 97% of agent behavior at ratio 0.25, 75% at 0.5, 0% at 0.75. quan
- x · @sztlink / X: your GPU can sit at 100% util, drawing 104W, doing nothing. WSL2 silently spills VRAM to system RAM past the residency limit: same cuBLAS kernels, 50-130x slower. one config line b
Sinais externos do dia
- commit · TheTom / llama-cpp-turboquant: CUDA/HIP: fix -Werror CI failures (unused warp_id, missing D=640 CDNA FA config) (#174)
- commit · TheTom / llama-cpp-turboquant: Merge pull request #172 from TheTom/feat/gemma4-mtp
- commit · TheTom / llama-cpp-turboquant: HIP/MUSA: fix build break from unguarded 3D peer memcpy and bare cudaEventCreate (#173)
- issue · TheTom / llama-cpp-turboquant: #12 HIP Memory Aperture Violation with TurboQuant-3 KV-Cache Compression on AMD RDNA4 (RX 9070 XT)
- commit · TheTom / turboquant_plus / REFRACT: docs: link Atlas in the downstream-engines header
O que observar agora
- Velocidade entre paper, fork e validação em hardware real.
- Qualidade medida por REFRACT, não apenas throughput.
- Claims de forks comparados com execução concreta.
Nota autoral
- Esta edição combina radar de campo com diário de contribuição: o que se moveu no ecossistema e o que o @sztlink efetivamente colocou em circulação no GitHub/X.
- O texto público deve assumir uma voz de trabalho: método, dúvida, evidência e próximo experimento — sem transformar hipótese em resultado.
Fontes consultadas
- TheTom / llama-cpp-turboquant
- TheTom / turboquant_plus / REFRACT
- llama.cpp discussion #20969
- sztlink / turboquant-cuda-bench
- TurboQuant paper
Próxima leitura
TurboQuant é um radar diário e também um diário público de contribuição: consulta fontes recorrentes do ecossistema — TheTom, REFRACT, llama.cpp, benchmark @sztlink, paper TurboQuant e forks adjacentes — e registra o que o @sztlink colocou em circulação no GitHub/X.