How Language Models Are Built: Data, Pretraining, and Adaptation
Video này sử dụng Manim để trình bày và giải thích lại nội dung của tutorial “Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation”. Nội dung video tập trung vào quy trình xây dựng một mô hình ngôn ngữ, bao gồm chuẩn bị dữ liệu, kiến trúc mô hình, huấn luyện mô hình, pretraining, instruction tuning, RLHF và các phương pháp thích nghi mô hình. 1. Danh sách thành viên nhóm Nguyễn Phúc Hậu - 23120252 Lê Tấn Hiệp - 23120255 Tống Dương Thái Hòa - 23120262 Nguyễn Phúc Hoàng - 23120264 2. Thông tin môn học Tên môn học: Cơ sở trí tuệ nhân tạo Khóa/Lớp: CQ2023/3 GVLT: Bùi Duy Đăng GVTH: Huỳnh Lâm Hải Đăng GVTH: Nguyễn Ngọc Đức GVTH: Nguyễn Thị Thu Hằng GVTH: Nguyễn Thanh Tình 3. Link GitHub repository Mã nguồn Manim: https://github.com/phuchau26/ai-works... 4. Thông tin bài báo/tutorial được chọn Tên bài báo/tutorial: Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation Tác giả: Kyle Lo, Akshita Bhagia, Nathan Lambert Link toàn văn: https://neurips.cc/virtual/2024/tutor... Hội nghị/Tạp chí: NeurIPS 2024 Tutorial Năm xuất bản: 2024 5. Phân công công việc và phần trăm đóng góp Lê Tấn Hiệp - 23120255: Phụ trách phần Intro và Phase 1 - Data. Nội dung bao gồm giới thiệu tổng quan video và trình bày các bước trong giai đoạn chuẩn bị dữ liệu như data sourcing, data cleaning/filtering, deduplication, safety/PII filtering và data mixing. - 25% Nguyễn Phúc Hậu - 23120252: Phụ trách Phase 2A - Core Pretraining. Nội dung bao gồm tokenization, kiến trúc mô hình Transformer ở mức trực quan, training objective với nhiệm vụ dự đoán token tiếp theo, và luồng xử lý từ input đến output trong quá trình huấn luyện. - 25% Tống Dương Thái Hòa - 23120262: Phụ trách Phase 2B - Training System & Scaling. Nội dung bao gồm distributed training như data parallel và model parallel ở mức trực quan, scaling laws, training stability như loss spike/crash, và monitoring/evaluation trong quá trình training. - 25% Nguyễn Phúc Hoàng - 23120264: Phụ trách Phase 3 và phần tổng kết. Nội dung bao gồm supervised fine-tuning, preference tuning, RLHF/DPO ở mức trực quan, evaluation, contamination nếu có, đồng thời tổng kết lại các phần chính mà video đã trình bày và rút ra insight chính từ workshop. - 25% Tổng phần trăm đóng góp: 100% 6. Các phần trong video 0:00 Intro & Phase 1 - Data 24:28 Phase 2A - Core Pretraining 55:07 Phase 2B - Training System & Scaling 1:11:16 Phase 3 - Post-Training & Conclusion 7. Tài liệu tham khảo Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation - Kyle Lo, Akshita Bhagia, Nathan Lambert, NeurIPS 2024 Tutorial. Video và mã nguồn được thực hiện nhằm mục đích học tập và trình bày lại kiến thức bằng hình ảnh trực quan.

Tất tần tật về RAG cơ bản trong 20 phút
![Data Modeling for Power BI [Full Course] 📊](https://i.ytimg.com/vi/MrLnibFTtbA/hqdefault.jpg?sqp=-oaymwEjCNACELwBSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLASQdyWMIppxB5x-w51fuei9wE8xw)
Data Modeling for Power BI [Full Course] 📊

Học Claude Code từ con số 0 → Build AI Projects, Sub-Agents & Automation từ A–Z trong 2 giờ

Read The Korea Economic Daily in 30 Minutes | 20260511🌞#MorningRoutine

Causality for Large Language Models | NeurIPS 2024 Tutorial Visualization | HCMUS-lab01-GPT

How to increase your vocabulary: Live English Class

Towards Efficient Generative Large Language Model Serving: A Tutorial from Algorithms to Systems

AI Is Creating A Rare Opportunity For Investors. How Jim Roppel Is Playing It. | Investing With IBD

RL for Agents Workshop - Deep Dive on Training Agents with RL and Open Source

GOD GAVE YOU THE CROWN SO YOU CAN CAST IT BEFORE HIM! MAY YOU HAVE EYES THAT SEE
![Mini Hackathon - Build a Power App! [Full Course]](https://i.ytimg.com/vi/Gx7xL8w2AnY/hqdefault.jpg?sqp=-oaymwEjCNACELwBSFryq4qpAxUIARUAAAAAGAElAADIQj0AgKJDeAE=&rs=AOn4CLDg-4z-P6ph4ZXx54pdOkTeAq53JA)
Mini Hackathon - Build a Power App! [Full Course]

How to Start Coding | Programming for Beginners | Learn Coding | Intellipaat

Bộ Khung Nền Tảng Để Tự Xây Dựng AI Agent Hiệu Quả | Làm Bạn Với AI EP 80

Place your brain in the frequency of wealth, prosperity and total abundance - Attraction Law

Data Analysis with Python: Part 5 of 6 - Visualization with Matplotlib and Seaborn (Live Course)

ACLS Drugs Review with Nurse Eunice 📚💉

Free Event: Power BI Beginner to Pro 2026 Edition - Full Hands-On Tutorial

Hướng dẫn xây dựng RAG chatbot từ A-Z

GOD WANTS TO SHOW YOU THIS SECRET

