Agentes falham em vida simulada

Caderno público · Scout

Benchmark de meses aproxima agentes de operação real e mede falhas longas, não só tarefas curtas.

itens

vanguarda

interessante

data

05-28

vanguarda · score 9

Benchmark de meses aproxima agentes de operação real e mede falhas longas, não só tarefas curtas.

fonte: Huawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail

fonte original
https://decrypt.co/369102/huawei-claw-anything-ai-agent-benchmark

vanguarda · score 9

Benchmark mostra que agentes ainda quebram em operações corporativas concretas.

fonte: ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

fonte original
https://huggingface.co/blog/ibm-research/itbench-aa

vanguarda · score 8

Robinhood transforma agentes em operadores financeiros, exigindo logs, limites e reversão.

fonte: Robinhood Opens Platform to AI Agents for Stock Trading and Credit Card Spending

fonte original
https://decrypt.co/369153/robinhood-opens-platform-ai-agents-stock-trading-credit-card-spending

interessante · score 7

Toca diretamente workflow com Claude Code, skills, subagents, plugins e MCPs.

fonte: Claude Code as a Daily Driver: Claude.md, Skills, Subagents, Plugins, and MCPs

fonte original
https://arps18.github.io/posts/claude-code-mastery/

interessante · score 7

Preço muda arquitetura de agentes e routing, mas precisa validação técnica além do slogan de 99%.

fonte: DeepSeek, Xiaomi Just Made Frontier AI 99% Cheaper. American Labs Went the Other Way

fonte original
https://decrypt.co/369202/deepseek-xiaomi-frontier-ai-cheaper-american-labs-other-way

interessante · score 6

Pode servir para testar limites de política de modelo, desde que auditado em ambiente controlado.

fonte: p-e-w/heretic

fonte original
https://github.com/p-e-w/heretic

interessante · score 6

Bom candidato a experimento no pi runtime se tiver shadow mode, audit log e kill switch.

fonte: Chachamaru127/claude-code-harness

fonte original
https://github.com/Chachamaru127/claude-code-harness

interessante · score 6

Relevante para vídeo sintético e proveniência, mas como enforcement de plataforma.

fonte: YouTube to automatically label AI-generated videos

fonte original
https://blog.youtube/news-and-events/improving-ai-labels-viewers-creators/