1️⃣ DeepSWE apertou o teste aos coding agents A Datacurve lançou o DeepSWE, benchmark com 113 tarefas originais em 91 repositórios e 5 linguagens. No leaderboard inicial, os melhores agentes ficam separados por diferenças largas, em vez de todos parecerem quase empatados.

💡 Porque importa Benchmarks saturados já dizem pouco. Para escolher um agente de código, interessa saber se ele aguenta trabalho longo, novo e verificável.

☕ Conversa de café Se o teste parece mais com trabalho real, quantos rankings antigos ainda servem para comprar ferramenta?


2️⃣ Anthropic mostrou onde os agentes ainda escapam A Anthropic publicou a arquitectura de contenção usada em claude.ai, Claude Code e Claude Cowork: containers efémeros, sandbox local, VM e controlos de rede para limitar o raio de estrago.

💡 Porque importa O problema já não é só o modelo obedecer. É o que ele consegue ler, escrever e enviar quando uma prompt ou um ficheiro corre mal.

☕ Conversa de café Quem ainda protege agentes só com pop-ups de aprovação já viu quantos deles são aceites em piloto automático?


3️⃣ Microsoft levou o MAI-Image-2.5 ao pódio da Arena A Microsoft lançou o MAI-Image-2.5 e diz que o modelo entrou em terceiro no leaderboard text-to-image da Arena. O foco é texto em imagem, layouts de marca, produto e cenas comerciais mais coerentes.

💡 Porque importa Imagem AI começa a ser menos demo e mais produção. Para equipas de design e marketing, texto legível e embalagem consistente contam mais do que uma imagem bonita.

☕ Conversa de café Quando o modelo já escreve bem no rótulo, quantos mockups ainda precisam de passar pelo Photoshop?