Auditoria falha em agentes delegados
Mostra que logs comuns não provam quem delegou o quê em agents com ferramentas.
fonte: Observability for Delegated Execution in Agentic AI Systems
https://arxiv.org/abs/2606.09692v1
Mostra que logs comuns não provam quem delegou o quê em agents com ferramentas.
Mostra que logs comuns não provam quem delegou o quê em agents com ferramentas.
fonte: Observability for Delegated Execution in Agentic AI Systems
Megakernel CUDA autogerado é sinal forte para runtime local e inference engineering.
fonte: AutoMegaKernel: A Statically-Checked Agent Harness for Self-Retargeting Megakernel Synthesis
Leva operator learning a complexos celulares e domínios não euclidianos.
fonte: Topological Neural Operators
Estuda consistência entre segmentos em world models de vídeo, ponto crítico para cenas longas.
fonte: Echo-Memory: A Controlled Study of Memory in Action World Models
Protocolo para agents com ferramentas e humano no loop tem encaixe direto em governança operacional.
fonte: Collaborative Human-Agent Protocol (CHAP)
Benchmark em ambiente interativo avalia VLMs além do primeiro acerto isolado.
fonte: OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics
FSS para LLMs mira o gargalo de não linearidades em inferência segura.
fonte: FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing
Revê controle de divergência em RL off-policy, ponto crítico de estabilidade no pós-treino.
fonte: Rethinking the Divergence Regularization in LLM RL
Grounding em DSLs de simuladores é tooling real para agentes, não só prompt.
fonte: SIGA: Self-Evolving Coding-Agent Adapters for Scientific Simulation
Ataques a ferramentas de dev podem capturar tokens e senhas usados em pipelines locais.
fonte: Microsoft's open source tools were hacked to steal passwords of AI developers