AI od Podstaw: Zbuduj swoją pierwszą sieć neuronową w Pythonie! (E04)

Witaj w kolejnym odcinku serii, w której rozkładamy sztuczną inteligencję na czynniki pierwsze! W dzisiejszym materiale dowiesz się, co to jest pochodna oraz pochodna cząstkowa. Poznamy też kluczowe pojęcia, takie jak gradient, reguła łańcuchowa, forward i backward pass, oraz zobaczymy, jaką rolę grają one w trenowaniu sieci neuronowych. W poprzednim filmie nauczyliśmy się obliczać błąd za pomocą funkcji strat, a dziś dowiemy się, w jaki sposób zmienić wartości parametrów (wag i biasów), aby strata w końcu zmalała. Dowiesz się: 1.Dlaczego metoda losowego dobierania wag (Random Search) nie zadziała w przypadku sieci neuronowych, które są wielkimi, wielowymiarowymi funkcjami z setkami tysięcy parametrów. 2. Czym jest pochodna, w jaki sposób pozwala określić, jak szybko funkcja rośnie lub maleje, oraz jak wykorzystać ją do optymalizowania parametrów. 3. Dlaczego odejmowanie pochodnej bezpośrednio od wartości parametru sprawia, że strata drastycznie rośnie (zamiast maleć) i dlaczego musimy wcześniej pomnożyć ją przez współczynnik uczenia ("learning_rate"). 4. Na czym polega "Forward pass" (przejście danych w przód przez wszystkie warstwy) i dlaczego jest tak różny od "Backward pass" (propagacji wstecznej). 5. Czym jest Reguła Łańcuchowa (Chain Rule) i jak pozwala wyliczyć pochodne każdej funkcji oddzielnie, aby następnie pomnożyć je wszystkie przez siebie. 6. W jaki sposób pochodne cząstkowe pozwalają sprawdzić wpływ jednego, konkretnego parametru (np. wagi) poprzez traktowanie innego (np. biasu) jako stałej. 7. Dlaczego w propagacji wstecznej używamy transpozycji macierzy, z jakiego powodu sumujemy błędy dla całej paczki danych ("batcha") i czym tak właściwie jest gradient. Spis treści: 1. Przypomnienie działania funkcji strat i zdefiniowanie problemu optymalizacji sieci 2. Dlaczego ślepe losowanie parametrów nie zdaje egzaminu? 3. Podstawy matematyki: Czym jest pochodna i jak wpływa na zmianę funkcji? 4. Wybuch straty oraz konieczność zastosowania współczynnika uczenia 5. Matematyczne wyjaśnienie: Rola logarytmu i problem log(0) 6. Backward pass – dlaczego musimy cofnąć się przez wszystkie elementy sieci od tyłu 7. Reguła Łańcuchowa (Chain Rule) i wyliczanie pochodnych przez warstwy 8. Pochodne cząstkowe: Jak odróżnić winę błędnej wagi od błędnego biasu? 9. Po co nam trzecia pochodna wyliczana względem danych wejściowych? 10. Czarna magia wstecznej propagacji: Transpozycja macierzy i paczki danych (Batche) 11. Zdefiniowanie gradientu, czyli macierzy grupującej wszystkie pochodne cząstkowe 12. Podsumowanie zdobytej wiedzy i zakończenie Kod z filmu: https://github.com/niepowiem/EasyNeurons #ai #sztucznainteligencja #python #programowanie #machinelearning #naukaprogramowania #datascience