1️⃣ OpenAI desenhou o seu primeiro chip para inference OpenAI e Broadcom apresentaram o Jalapeño, um acelerador para LLM inference. As primeiras amostras já correm workloads em laboratório e a implantação inicial está prevista para o fim de 2026.

💡 Porque importa O custo da AI começa a descer para dentro do silício. Para developers, a promessa é simples: respostas mais baratas, rápidas e estáveis quando houver escala.

☕ Conversa de café Se a inference passa a ser chip próprio, quanto tempo até o preço da API deixar de ser só decisão comercial?


2️⃣ Lambda ganhou microVMs para código de agentes AWS lançou Lambda MicroVMs: sandboxes Firecracker por sessão, com isolamento ao nível de VM, arranque e retoma quase imediatos, estado preservado até 8 horas e regiões já disponíveis.

💡 Porque importa Agents que executam código precisam de contenção real. Isto dá uma peça pronta para correr código gerado por AI sem meter tudo no runtime do próprio agent.

☕ Conversa de café Quem ainda está a deixar o agent correr comandos no mesmo sítio onde guarda as credenciais?


3️⃣ Qualcomm quer levar modelos do Hugging Face do edge ao cloud Qualcomm e Hugging Face alargaram a parceria para pôr modelos abertos em plataformas Qualcomm, de dispositivos a data centers, com onboarding e otimização automatizados.

💡 Porque importa A escolha de modelo fica mais próxima do hardware. Para apps com latência, custo ou privacidade sensíveis, o destino já não é sempre mandar tudo para a cloud.

☕ Conversa de café Se o modelo pode correr no telefone, no carro ou no rack, quem decide onde fica a parte cara do raciocínio?