Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?
Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”. 00:00 - [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5 01:12 - [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1 05:10 - [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet? 08:22 - [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu 09:30 - [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu 10:30 - [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny? 12:50 - [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu 13:59 - [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing 19:49 - [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI 22:29 - [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę? 23:58 - [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę 25:18 - [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI? #betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Better Dev Club #33 - Snap and AI is gone: what should the EU and Poland do?

Better Dev Club #28 - No More 'Git Push and Go Home'? What to Do with Deployment in the AI Era

Jak Chiny oszukują cały świat? Prawda, którą ukrywają dealerzy

We've seen the future of Windows. IT'S THE END OF PCs.

Administrujesz Fortigate? To współczuję.

"Controlled by algorithms?" – who really rules in the digital world?

Watch this if you want to survive IT layoffs | Andrzej Krzywda

Better Dev Club #34 - Checking our 2026 AI predictions: what came true?

Better Dev Club #30 - Google I/O casual take. Gemini Flash, antigravity, and no revolution

Nie będzie Siri AI w Europie :(

COLLAPSE of Personal Computing | Investigation Into the Destruction of Ownership

Zig 2026: No-AI Policy, $670K Foundation, Left GitHub & Why Zig Isn’t 1.0 - Andrew Kelley Explains

Better Dev Club #31 - Juniors in the age of AI: be afraid or not? New roles and data from Uber, P...

Kiedy komputery kwantowe

Korporacje zwalniały ludzi, teraz żałują. AI generuje olbrzymie koszty

ASMR Best Triggers For Sleep Collection (No Talking) 3 Hours of Tapping & Scratching

263 DIOS TE DICE HOY: ESA ANGUSTIA QUE TE ROBA LA PAZ SERÁ CAMBIADA POR DESCANSO

How AI will use the data you enter against you | Mateusz Chrobok

The beginning of the end for keyboards?

