Наиболее полная учебная программа центра Crosvia. Систематическое изучение LLM — от математических основ до production-развёртывания.
Программа охватывает полный спектр знаний, необходимых для понимания и работы с большими языковыми моделями. Материал основан на анализе более 50 ключевых академических публикаций, включая оригинальные статьи по архитектуре трансформеров (Vaswani et al., 2017), BERT, GPT и их производным.
Особое внимание уделяется практическим навыкам: работе с Hugging Face Transformers, fine-tuning предобученных моделей на собственных данных, построению RAG-систем (Retrieval-Augmented Generation) и оценке качества генерации.
Важное примечание: Данная программа является образовательным ресурсом для изучения теории и архитектуры LLM. Программа не включает коммерческий доступ к коммерческим API или сторонним платформам.
N-gram модели, RNN, LSTM, seq2seq — предшественники трансформеров. Почему понадобилась новая архитектура.
Dot-product attention, scaled attention, multi-head attention. Визуализация матриц внимания и их интерпретация.
Позиционное кодирование, Feed-Forward слои, Layer Normalization, residual connections. Разбор оригинальной статьи "Attention is All You Need".