Agentes falham em vida simulada

Caderno público · Scout

Agentes falham em vida simulada

Benchmark de meses aproxima agentes de operação real e mede falhas longas, não só tarefas curtas.

itens

vanguarda

interessante

data

05-28

vanguarda · score 9

Agentes falham em vida simulada

Benchmark de meses aproxima agentes de operação real e mede falhas longas, não só tarefas curtas.

source: Huawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail

original source
https://decrypt.co/369102/huawei-claw-anything-ai-agent-benchmark

vanguarda · score 9

Agentes falham no TI real

Benchmark mostra que agentes ainda quebram em operações corporativas concretas.

source: ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

original source
https://huggingface.co/blog/ibm-research/itbench-aa

vanguarda · score 8

Agentes ganham dinheiro real

Robinhood transforma agentes em operadores financeiros, exigindo logs, limites e reversão.

source: Robinhood Opens Platform to AI Agents for Stock Trading and Credit Card Spending

original source
https://decrypt.co/369153/robinhood-opens-platform-ai-agents-stock-trading-credit-card-spending

interessante · score 7

Claude Code ganha rotina robusta

Toca diretamente workflow com Claude Code, skills, subagents, plugins e MCPs.

source: Claude Code as a Daily Driver: Claude.md, Skills, Subagents, Plugins, and MCPs

original source
https://arps18.github.io/posts/claude-code-mastery/

interessante · score 7

Modelos chineses comprimem custos

Preço muda arquitetura de agentes e routing, mas precisa validação técnica além do slogan de 99%.

source: DeepSeek, Xiaomi Just Made Frontier AI 99% Cheaper. American Labs Went the Other Way

original source
https://decrypt.co/369202/deepseek-xiaomi-frontier-ai-cheaper-american-labs-other-way

interessante · score 6

Dessilenciamento automático de LLMs

Pode servir para testar limites de política de modelo, desde que auditado em ambiente controlado.

source: p-e-w/heretic

original source
https://github.com/p-e-w/heretic

interessante · score 6

Ciclo agentic para Claude Code

Bom candidato a experimento no pi runtime se tiver shadow mode, audit log e kill switch.

source: Chachamaru127/claude-code-harness

original source
https://github.com/Chachamaru127/claude-code-harness

interessante · score 6

YouTube automatiza rótulos de IA

Relevante para vídeo sintético e proveniência, mas como enforcement de plataforma.

source: YouTube to automatically label AI-generated videos

original source
https://blog.youtube/news-and-events/improving-ai-labels-viewers-creators/

English edition. Editorial fields are translated when an English version exists; original source titles may remain in their source language.