1️⃣ GPT-Rosalind ficou mais útil no laboratório OpenAI atualizou o GPT-Rosalind, o modelo para life sciences. A nova versão junta capacidades de GPT-5.5, melhora em medicinal chemistry, genomics e lab work, e fica disponível em research preview para organizações elegíveis.

💡 Porque importa Isto leva agentes para workflows científicos reais: literatura, dados ómicos, bioinformática, evidência e revisão de experiências no mesmo ambiente.

☕ Conversa de café Quantos laboratórios estão prontos para deixar o modelo tocar nos dados, nos plugins e nas decisões intermédias?


2️⃣ Copilot ganhou um posto de comando para agentes GitHub alargou o technical preview da Copilot app a clientes Pro, Pro+, Business e Enterprise, com canvases, sessões paralelas, worktrees isoladas, sandboxes e browser integrado.

💡 Porque importa O problema já não é só gerar código. É ver o que vários agentes estão a fazer, validar diffs e travar trabalho fraco antes de chegar ao PR.

☕ Conversa de café Se a equipa passa o dia a gerir agentes, quem continua a chamar isto só de IDE?


3️⃣ O novo benchmark SRE cortou o hype dos agentes Artificial Analysis e IBM lançaram o ITBench-AA para incidentes Kubernetes. Claude Opus 4.7 lidera com 47%, GPT-5.5 fica nos 46%, e todos os frontier models ficam abaixo de 50%.

💡 Porque importa Diagnosticar produção exige causa-raiz limpa, não conversa longa. O benchmark penaliza sintomas extra e mostra que investigar mais nem sempre melhora a resposta.

☕ Conversa de café Quem vai pôr isto em on-call sem um humano a confirmar a causa-raiz?