1️⃣ A NVIDIA testou LLMs que deixam de escrever token a token A NVIDIA publicou a família Nemotron-Labs Diffusion no Hugging Face: modelos de 3B, 8B e 14B que podem gerar em modo autoregressivo, difusão ou self-speculation. No 8B, reporta até 6,4x mais tokens por forward pass em self-speculation.
💡 Porque importa Latência e custo de inferência continuam a ser o travão real. Se isto aguentar qualidade, a escolha de modelo passa a incluir arquitectura de geração, não só benchmark.
☕ Conversa de café Quantos produtos de AI estão lentos porque o modelo ainda escreve como uma máquina de escrever?
2️⃣ MobileGym deu aos agentes móveis um ginásio verificável Investigadores lançaram o MobileGym, ambiente browser-based para treinar e avaliar agentes em apps móveis. O benchmark tem 416 templates sobre 28 apps, judges determinísticos e rollouts paralelos com cerca de 400 MB por instância.
💡 Porque importa Agentes que mexem em telemóveis precisam de avaliação reproduzível. Screenshots e respostas livres não chegam quando há estado, permissões e risco de acção errada.
☕ Conversa de café Quando um agente toca numa app bancária, quem ainda aceita um teste que depende de screenshot bonito?
3️⃣ LocateAnything atacou o gargalo das caixas nos VLMs A NVIDIA apresentou o LocateAnything, modelo de grounding/detecção que prevê caixas como unidades completas, em vez de coordenadas token a token. O projecto reporta até 2,5x mais throughput e treino com 138M queries e 785M bounding boxes.
💡 Porque importa Para UI agents, documentos e OCR, saber onde clicar ou ler é tão crítico como perceber texto. Menos serialização pode dar VLMs mais rápidos e menos frágeis.
☕ Conversa de café Se o modelo sabe responder mas demora a encontrar o botão, isso é inteligência ou só conversa?