1️⃣ A DeepMind já trata agents como risco interno A Google DeepMind publicou um AI Control Roadmap para agents mais autónomos: assume que um agent pode agir como insider threat, monitoriza ações e prevê bloqueios em tempo real para tarefas de maior risco.

💡 Porque importa Para equipas que dão permissões reais a agents, a pergunta deixa de ser só alinhamento. Passa a ser logging, acesso mínimo, alertas e travão operacional.

☕ Conversa de café Quantos agents internos já têm permissões que ninguém daria a um estagiário?


2️⃣ A Perplexity deu memória de trabalho ao Computer A Perplexity lançou Brain para Max e Enterprise Max: um sistema que cria um grafo do trabalho feito pelo Computer, revê sessões e fontes durante a noite e carrega esse contexto em tarefas futuras.

💡 Porque importa Memória deixa de ser só preferência do utilizador. Aqui é histórico operacional: o que funcionou, o que falhou e onde o agent deve procurar antes de gastar tokens.

☕ Conversa de café Se a memória melhora com cada tarefa, quem audita o que o agent decidiu aprender?


3️⃣ O novo benchmark de agents ainda dói A Artificial Analysis lançou o AA-Briefcase, com 91 tarefas de conhecimento em projetos longos, quase 2.000 ficheiros, emails e Slack. O melhor modelo completou todos os critérios em apenas 3% das tarefas.

💡 Porque importa Ranking sozinho vale pouco. O dado útil é o custo por tarefa, a degradação com contexto fragmentado e a diferença entre output bonito e trabalho certo.

☕ Conversa de café Quem ainda vende agents autónomos vai mostrar a taxa de tarefas completas ou só o demo?