Radar AI - manhã de 15 de junho de 2026

1️⃣ OpenAI comprou a casa onde o Codex trabalha OpenAI quer comprar a Ona para dar ao Codex ambientes cloud persistentes e controlados pelo cliente. A promessa é simples: agents que continuam trabalho durante horas ou dias sem depender do portátil aberto.

💡 Porque importa Para equipas que querem pôr agents em produção, o problema já não é só o modelo. É onde corre, que credenciais usa, o que regista e quem aprova o resultado.

☕ Conversa de café Quem vai deixar um agent dias dentro da cloud sem saber exactamente que portas ficaram abertas?

2️⃣ EvalCards meteu ordem no barulho dos benchmarks A EvalEval lançou Evaluation Cards em beta: uma base aberta com 101.955 resultados de avaliação, 638 benchmarks, 31 organizações e 5.816 modelos, com sinais de reprodutibilidade, completude, proveniência e comparabilidade.

💡 Porque importa Escolher modelo por leaderboard fica menos cego. Dá para ver que resultados são comparáveis, que informação falta e onde uma alegação de performance assenta em terreno fraco.

☕ Conversa de café Quantas decisões de modelo ainda estão a ser tomadas só porque a tabela tinha uma linha mais acima?

3️⃣ Serge quer rever PRs sem inventar outro workflow Hugging Face publicou o Serge, um reviewer open-source para GitHub que corre com modelos compatíveis com OpenAI, lê regras do repositório em .ai/review-rules.md e pode deixar o humano editar os comentários antes de os publicar.

💡 Porque importa A parte útil não é mais um bot a falar no PR. É meter política de revisão, escolha de modelo e limites de segurança dentro do fluxo que a equipa já usa.

☕ Conversa de café Se o bot também precisa de regras no repositório, quem é que afinal está a escrever a revisão?

Radar AI - manhã de 15 de junho de 2026

Fontes

OpenAI comprou a casa onde o Codex trabalha

EvalCards meteu ordem no barulho dos benchmarks

Serge quer rever PRs sem inventar outro workflow