1️⃣ Copilot mostrou que o harness também conta GitHub publicou testes do harness agentic do Copilot em SWE-bench, TerminalBench, SkillsBench e Win-Hill. Com os mesmos modelos e tarefas, diz que fica ao nível dos harnesses dos fornecedores e gasta menos tokens em várias configurações.
💡 Porque importa Para coding agents, a escolha já não é só modelo. Contexto, ferramentas, routing e custo por tarefa começam a pesar tanto como o nome que aparece no selector.
☕ Conversa de café Quem ainda compra benchmark de modelo isolado está a medir a peça certa ou só a mais fácil?
2️⃣ MIT quer tirar desperdício dos workflows agentic Investigadores do MIT e da Microsoft apresentaram Murakkab, um sistema que monta e optimiza workflows com agents, modelos, ferramentas e hardware. Nos testes, usou cerca de 35% da computação, 27% da energia e menos de 25% do custo de outros métodos.
💡 Porque importa Agents em produção viram problema de orquestração e infra, não só de prompt. A próxima poupança pode estar em escolher melhor a sequência, o GPU e o paralelismo.
☕ Conversa de café Quantos workflows de agents estão caros porque alguém os desenhou como se fosse um script?
3️⃣ Anthropic abriu mais a telemetria do Claude O novo Economic Index da Anthropic já separa chat, Cowork, Claude Code e API. Um dado útil: 93% das conversas Claude geram um artefacto; explicações são 17%, documentos e relatórios 15%, guidance 11%, e código/trabalho técnico cerca de um sexto.
💡 Porque importa Isto ajuda equipas a perceber onde a AI está mesmo a entrar no trabalho: menos pergunta-resposta, mais entregáveis, automação e tarefas longas.
☕ Conversa de café Se quase tudo já sai como artefacto, ainda faz sentido gerir AI como ferramenta de chat?