O sinal do dia
Registro autoral do que foi desenvolvido ou publicado no dia anterior, cruzado com sinais das fontes recorrentes do ecossistema.
Contribuições @sztlink
- commit · sztlink / turboquant-cuda-bench: Add narrative synthesis (Giselle) + Casey audit correction: glass canonical IS in shard 1380 but retriever misses it
- commit · sztlink / turboquant-cuda-bench: Add Mistral 7B + Qwen 14B-AWQ; reframe rerank_proxy as family/calibration, not size
- commit · sztlink / turboquant-cuda-bench: README: reframe rerank_proxy 7B miss as format-strictness mismatch (glass canonical in JSON not shard)
- commit · sztlink / turboquant-cuda-bench: Add 32B-AWQ decoy+splice replay, glass deep dive, top_k+seed sweeps; re-frame as format-strictness mismatch
- commit · sztlink / turboquant-cuda-bench: Add 32B-AWQ rerank_proxy (4/4) — capacity threshold sits below 27B, above 7B
- commit · sztlink / turboquant-cuda-bench: Update README: rerank_proxy cross-stack divergence (4/4 on 27B, 3/4 on 7B)
- commit · sztlink / turboquant-cuda-bench: Add rerank_proxy via longctx-svc → vLLM: 3/4 on 7B (vs 4/4 llama-cpp 27B); model size matters
- commit · sztlink / turboquant-cuda-bench: Update README: add vLLM cross-stack benches (smoke/needle/decoy) + BUILD-CUDA.md + longctx findings
- commit · sztlink / turboquant-cuda-bench: Add vLLM decoy-resolution replay: policy_splice 4/4 (V3 off + V3 on); cross-stack solution confirmed
- commit · sztlink / turboquant-cuda-bench: Add 4090 vLLM decoy/ranking replay (same prompts as llama-cpp); cross-stack 5/8 match
Sinais externos do dia
- Nenhum sinal externo automático registrado nessa janela.
O que observar agora
- Velocidade entre paper, fork e validação em hardware real.
- Qualidade medida por REFRACT, não apenas throughput.
- Claims de forks comparados com execução concreta.
Nota autoral
- Esta edição combina radar de campo com diário de contribuição: o que se moveu no ecossistema e o que o @sztlink efetivamente colocou em circulação no GitHub/X.
- O texto público deve assumir uma voz de trabalho: método, dúvida, evidência e próximo experimento — sem transformar hipótese em resultado.
Fontes consultadas
- TheTom / llama-cpp-turboquant
- TheTom / turboquant_plus / REFRACT
- llama.cpp discussion #20969
- sztlink / turboquant-cuda-bench
- TurboQuant paper
Próxima leitura
TurboQuant é um radar diário e também um diário público de contribuição: consulta fontes recorrentes do ecossistema — TheTom, REFRACT, llama.cpp, benchmark @sztlink, paper TurboQuant e forks adjacentes — e registra o que o @sztlink colocou em circulação no GitHub/X.