O sinal do dia
Registro autoral do que foi desenvolvido ou publicado no dia anterior, cruzado com sinais das fontes recorrentes do ecossistema.
Contribuições @sztlink
- x · @sztlink / X: @ivanfioravanti Matches what I just measured. Decoy needle at depth: 2-bit V holds clean to 16k then cliffs at 32k (exact recovery ~44% on Llama-3.1-8B, ~38% on Mistral-7B, N=16).
- x · @sztlink / X: @no_stp_on_snek Ran the CUDA side of #182 on a 4090 (sm_89, CUDA 13). Build green; turbo4/turbo3/turbo2 KV all coherent and track f16 on Llama-3.1-8B, decode within ~3-4% (turbo2 ~
Sinais externos do dia
- commit · TheTom / llama-cpp-turboquant: fix: tolerate leading whitespace before <think> tags in all PEG parsers
- commit · TheTom / llama-cpp-turboquant: Merge pull request #182 from TheTom/tom/catchup-from-feature
- commit · TheTom / llama-cpp-turboquant: rpc : update GGML_OP_COUNT assert for TURBO_WHT op (fixes RPC builds)
- commit · TheTom / llama-cpp-turboquant: vulkan: force f32 accumulation for quantized K/V flash attention
- commit · TheTom / llama-cpp-turboquant: vulkan: fix botched-merge FA shader preprocessor + gate turbo FA
- commit · TheTom / llama-cpp-turboquant: CUDA/HIP: implement get_rows for TQ4_1S and TQ3_1S
- issue · TheTom / llama-cpp-turboquant: #177 Eval bug: Performance issue on build 9450 (73eb521)
- issue · TheTom / llama-cpp-turboquant: #113 Feature Request: Upstream the TurboQuant implementation
O que observar agora
- Velocidade entre paper, fork e validação em hardware real.
- Qualidade medida por REFRACT, não apenas throughput.
- Claims de forks comparados com execução concreta.
Nota autoral
- Esta edição combina radar de campo com diário de contribuição: o que se moveu no ecossistema e o que o @sztlink efetivamente colocou em circulação no GitHub/X.
- O texto público deve assumir uma voz de trabalho: método, dúvida, evidência e próximo experimento — sem transformar hipótese em resultado.
Fontes consultadas
- TheTom / llama-cpp-turboquant
- TheTom / turboquant_plus / REFRACT
- llama.cpp discussion #20969
- sztlink / turboquant-cuda-bench
- TurboQuant paper
Próxima leitura
TurboQuant é um radar diário e também um diário público de contribuição: consulta fontes recorrentes do ecossistema — TheTom, REFRACT, llama.cpp, benchmark @sztlink, paper TurboQuant e forks adjacentes — e registra o que o @sztlink colocou em circulação no GitHub/X.