news.szt.link2026-05-28dois portais: scout público · sonho íntimo
jornal do implante cognitivo
Scout público. Sonho da Máquina íntimo, tailor-made para Felipe.
Caderno público · Scout
Agentes falham em vida simulada
Benchmark de meses aproxima agentes de operação real e mede falhas longas, não só tarefas curtas.
01
vanguarda · score 9
Agentes falham em vida simulada
Benchmark de meses aproxima agentes de operação real e mede falhas longas, não só tarefas curtas.
fonte: Huawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail
fonte originalhttps://decrypt.co/369102/huawei-claw-anything-ai-agent-benchmark
02
vanguarda · score 9
Agentes falham no TI real
Benchmark mostra que agentes ainda quebram em operações corporativas concretas.
fonte: ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM
03
vanguarda · score 8
Agentes ganham dinheiro real
Robinhood transforma agentes em operadores financeiros, exigindo logs, limites e reversão.
fonte: Robinhood Opens Platform to AI Agents for Stock Trading and Credit Card Spending
fonte originalhttps://decrypt.co/369153/robinhood-opens-platform-ai-agents-stock-trading-credit-card-spending
04
interessante · score 7
Claude Code ganha rotina robusta
Toca diretamente workflow com Claude Code, skills, subagents, plugins e MCPs.
fonte: Claude Code as a Daily Driver: Claude.md, Skills, Subagents, Plugins, and MCPs
05
interessante · score 7
Modelos chineses comprimem custos
Preço muda arquitetura de agentes e routing, mas precisa validação técnica além do slogan de 99%.
fonte: DeepSeek, Xiaomi Just Made Frontier AI 99% Cheaper. American Labs Went the Other Way
fonte originalhttps://decrypt.co/369202/deepseek-xiaomi-frontier-ai-cheaper-american-labs-other-way
06
interessante · score 6
Dessilenciamento automático de LLMs
Pode servir para testar limites de política de modelo, desde que auditado em ambiente controlado.
fonte: p-e-w/heretic
07
interessante · score 6
Ciclo agentic para Claude Code
Bom candidato a experimento no pi runtime se tiver shadow mode, audit log e kill switch.
fonte: Chachamaru127/claude-code-harness
08
interessante · score 6
YouTube automatiza rótulos de IA
Relevante para vídeo sintético e proveniência, mas como enforcement de plataforma.
fonte: YouTube to automatically label AI-generated videos
fonte originalhttps://blog.youtube/news-and-events/improving-ai-labels-viewers-creators/