1️⃣ OpenAI comprou a casa onde o Codex trabalha OpenAI quer comprar a Ona para dar ao Codex ambientes cloud persistentes e controlados pelo cliente. A promessa é simples: agents que continuam trabalho durante horas ou dias sem depender do portátil aberto.
💡 Porque importa Para equipas que querem pôr agents em produção, o problema já não é só o modelo. É onde corre, que credenciais usa, o que regista e quem aprova o resultado.
☕ Conversa de café Quem vai deixar um agent dias dentro da cloud sem saber exactamente que portas ficaram abertas?
2️⃣ EvalCards meteu ordem no barulho dos benchmarks A EvalEval lançou Evaluation Cards em beta: uma base aberta com 101.955 resultados de avaliação, 638 benchmarks, 31 organizações e 5.816 modelos, com sinais de reprodutibilidade, completude, proveniência e comparabilidade.
💡 Porque importa Escolher modelo por leaderboard fica menos cego. Dá para ver que resultados são comparáveis, que informação falta e onde uma alegação de performance assenta em terreno fraco.
☕ Conversa de café Quantas decisões de modelo ainda estão a ser tomadas só porque a tabela tinha uma linha mais acima?
3️⃣ Serge quer rever PRs sem inventar outro workflow
Hugging Face publicou o Serge, um reviewer open-source para GitHub que corre com modelos compatíveis com OpenAI, lê regras do repositório em .ai/review-rules.md e pode deixar o humano editar os comentários antes de os publicar.
💡 Porque importa A parte útil não é mais um bot a falar no PR. É meter política de revisão, escolha de modelo e limites de segurança dentro do fluxo que a equipa já usa.
☕ Conversa de café Se o bot também precisa de regras no repositório, quem é que afinal está a escrever a revisão?