Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?

Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”. 00:00 - [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5 01:12 - [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1 05:10 - [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet? 08:22 - [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu 09:30 - [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu 10:30 - [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny? 12:50 - [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu 13:59 - [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing 19:49 - [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI 22:29 - [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę? 23:58 - [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę 25:18 - [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI? #betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Better Dev Club #33 - Snap and AI is gone: what should the EU and Poland do?
▶︎

Better Dev Club #33 - Snap and AI is gone: what should the EU and Poland do?

Better Dev Club #28 - No More 'Git Push and Go Home'? What to Do with Deployment in the AI ​​Era
▶︎

Better Dev Club #28 - No More 'Git Push and Go Home'? What to Do with Deployment in the AI ​​Era

Jak Chiny oszukują cały świat? Prawda, którą ukrywają dealerzy
▶︎

Jak Chiny oszukują cały świat? Prawda, którą ukrywają dealerzy

We've seen the future of Windows. IT'S THE END OF PCs.
▶︎

We've seen the future of Windows. IT'S THE END OF PCs.

Administrujesz Fortigate? To współczuję.
▶︎

Administrujesz Fortigate? To współczuję.

"Controlled by algorithms?" – who really rules in the digital world?
▶︎

"Controlled by algorithms?" – who really rules in the digital world?

Watch this if you want to survive IT layoffs | Andrzej Krzywda
▶︎

Watch this if you want to survive IT layoffs | Andrzej Krzywda

Better Dev Club #34 - Checking our 2026 AI predictions: what came true?
▶︎

Better Dev Club #34 - Checking our 2026 AI predictions: what came true?

Better Dev Club #30 - Google I/O casual take. Gemini Flash, antigravity, and no revolution
▶︎

Better Dev Club #30 - Google I/O casual take. Gemini Flash, antigravity, and no revolution

Nie będzie Siri AI w Europie :(
▶︎

Nie będzie Siri AI w Europie :(

COLLAPSE of Personal Computing | Investigation Into the Destruction of Ownership
▶︎

COLLAPSE of Personal Computing | Investigation Into the Destruction of Ownership

Zig 2026: No-AI Policy, $670K Foundation, Left GitHub & Why Zig Isn’t 1.0 - Andrew Kelley Explains
▶︎

Zig 2026: No-AI Policy, $670K Foundation, Left GitHub & Why Zig Isn’t 1.0 - Andrew Kelley Explains

Better Dev Club #31 - Juniors in the age of AI: be afraid or not? New roles and data from Uber, P...
▶︎

Better Dev Club #31 - Juniors in the age of AI: be afraid or not? New roles and data from Uber, P...

Kiedy komputery kwantowe
▶︎

Kiedy komputery kwantowe

Korporacje zwalniały ludzi, teraz żałują. AI generuje olbrzymie koszty
▶︎

Korporacje zwalniały ludzi, teraz żałują. AI generuje olbrzymie koszty

ASMR Best Triggers For Sleep Collection (No Talking) 3 Hours of Tapping & Scratching
▶︎

ASMR Best Triggers For Sleep Collection (No Talking) 3 Hours of Tapping & Scratching

263 DIOS TE DICE HOY: ESA ANGUSTIA QUE TE ROBA LA PAZ SERÁ CAMBIADA POR DESCANSO
▶︎

263 DIOS TE DICE HOY: ESA ANGUSTIA QUE TE ROBA LA PAZ SERÁ CAMBIADA POR DESCANSO

How AI will use the data you enter against you | Mateusz Chrobok
▶︎

How AI will use the data you enter against you | Mateusz Chrobok

The beginning of the end for keyboards?
▶︎

The beginning of the end for keyboards?

Billionaire's WARNING: I'm SELLING. The Crash Is Already Here!
▶︎

Billionaire's WARNING: I'm SELLING. The Crash Is Already Here!