7.2 Vision Transformers (ViT)

📌 Ushbu darsda siz quyidagilarni o'rganasiz: 1️⃣ Patch embeddings — rasm qanday tokenga aylanadi va nima uchun 196 ta patch 50176 pikseldan yaxshiroq 2️⃣ CLS token va Position embedding — klassifikatsiya qanday amalga oshiriladi 3️⃣ Inductive bias — CNN va ViT arxitekturalari ma'lumot haqida qanday taxminlar qiladi 4️⃣ CNN vs ViT — locality, translation equivariance va global attention farqlari 5️⃣ To'liq ViT pipeline — rasmdan klassifikatsiyagacha har bir qadam 🎯 Bu dars orqali siz quyidagini chuqur tushunasiz: CNN rasmlarga mo'ljallangan maxsus taxminlar bilan ishlaydi. ViT bu taxminlarni olib tashlaydi — va ko'p data bo'lsa CNNdan yaxshiroq ishlaydi. Bugungi eng kuchli vision modellari — DINOv2, SAM, Stable Diffusion — barchasi ViT asosida qurilgan. 👉 Kurs rejasi (to'liq): 🔗   / deep-learning-matematikasi-intensiv-kurs-r...   📌 Telegram kanal: 👉 https://t.me/EldorML