Чёткие, проверенные определения ключевых понятий в области искусственного интеллекта и машинного обучения. Обновляется редакцией Crosvia по мере развития индустрии.
Компонент нейронной сети, позволяющий модели при обработке каждого токена взвешивать релевантность других токенов в последовательности. Является ключевым элементом архитектуры трансформера. Self-attention позволяет модели соотносить слова с другими словами в том же тексте, независимо от расстояния между ними.
Тип генеративной модели, которая предсказывает следующий токен на основе всех предыдущих токенов. GPT-подобные модели являются авторегрессионными: они генерируют текст последовательно, слева направо, предсказывая по одному токену за раз.
Систематические ошибки в выводах ИИ-систем, создающие несправедливые результаты для определённых групп людей. Может возникать из-за предвзятости обучающих данных, ошибок дизайна системы или неверного выбора целевых метрик. Подробнее: статья об этике ИИ.
Алгоритм обучения нейронных сетей, который вычисляет градиент функции потерь по всем весам сети, применяя цепное правило дифференцирования. Позволяет эффективно настраивать веса модели в направлении уменьшения ошибки.
Языковая модель Google (2018), использующая двунаправленный трансформер-энкодер. В отличие от GPT, BERT обрабатывает контекст с обеих сторон каждого токена одновременно. Предобучена на задачах Masked Language Modeling и Next Sentence Prediction. Была революционной для задач понимания текста.
Архитектура нейронной сети, использующая операцию свёртки для автоматического извлечения признаков из данных с пространственной структурой (изображений). Свёрточные слои применяют фильтры к локальным областям входных данных, что обеспечивает инвариантность к сдвигу и эффективность обучения.
Максимальный объём текста (в токенах), который языковая модель может обрабатывать одновременно при генерации. Определяет, сколько «памяти» о предыдущем контексте имеет модель. GPT-4 Turbo — 128K токенов, Claude 3 — до 200K токенов. Подробнее: статья о LLM.
Подраздел машинного обучения, использующий многослойные нейронные сети для автоматического извлечения признаков из сырых данных. «Глубина» относится к количеству слоёв в сети. Обеспечивает прорывы в компьютерном зрении, NLP и генеративных моделях начиная с 2012 года.
Класс генеративных моделей, обученных обращать постепенный процесс добавления шума к данным. При генерации модель начинает с чистого шума и итеративно «очищает» его, воссоздавая реалистичные изображения. Основа Stable Diffusion, DALL-E 3 и Midjourney.
Плотное числовое представление объекта (слова, токена, документа, изображения) в многомерном векторном пространстве. Близкие по смыслу объекты имеют близкие векторы. Эмбеддинги — фундаментальный способ преобразования дискретных объектов в форму, пригодную для нейронных сетей.
Процесс дополнительного обучения предобученной модели на специфическом наборе данных для адаптации к конкретной задаче. Позволяет использовать знания, закодированные в больших предобученных моделях, и специализировать их для узких применений. Требует значительно меньше данных и вычислений, чем обучение с нуля.
Термин Стэнфордского HAI (2021) для обозначения больших моделей, предобученных на широких наборах данных и применяемых в множестве задач. GPT-4, Claude, Gemini — примеры фундаментальных моделей. Характеризуются масштабом, универсальностью и способностью к адаптации через fine-tuning или prompting.
Архитектура из двух конкурирующих нейронных сетей (генератор и дискриминатор), предложенная Яном Гудфеллоу в 2014 году. Генератор создаёт данные, дискриминатор отличает реальные данные от сгенерированных. Состязательное обучение позволяет генератору создавать всё более реалистичные данные. Широко применялась в генерации изображений до распространения диффузионных моделей.
Итеративный алгоритм оптимизации для минимизации функции потерь. На каждом шаге параметры модели обновляются в направлении, противоположном градиенту функции потерь. Stochastic Gradient Descent (SGD) использует случайные мини-батчи данных для вычисления приближённого градиента.
Явление, при котором языковая модель генерирует правдоподобно звучащий, но фактически неверный или несуществующий текст. Модель не «знает», что она не знает — она всегда генерирует следующий наиболее вероятный токен, независимо от того, является ли это точным фактом.
Параметр, задаваемый до начала обучения модели и не обновляемый в процессе обучения. Примеры: learning rate, batch size, количество слоёв, размер скрытого слоя. В отличие от параметров модели (весов), гиперпараметры настраиваются экспериментально.
Языковая модель с миллиардами параметров, предобученная на масштабных текстовых данных. Обладает широкими способностями: генерация текста, ответы на вопросы, перевод, программирование. GPT-4, Claude 3, Gemini Ultra — примеры LLM. Подробнее: статья о LLM.
Метод параметрически-эффективного дообучения (PEFT): вместо обновления всех весов модели обучаются лишь низкоранговые матрицы, которые добавляются к исходным. Позволяет дообучать крупные LLM на потребительском оборудовании, сокращая число обучаемых параметров на 90–99%.
Подраздел ИИ, в котором системы обучаются на данных без явного программирования. Алгоритм автоматически выявляет закономерности в данных и использует их для предсказаний или решений. Включает обучение с учителем, без учителя и обучение с подкреплением.
Расширение механизма внимания, при котором несколько «голов» внимания работают параллельно в разных пространствах представлений. Каждая голова может фокусироваться на разных аспектах контекста. Результаты всех голов конкатенируются и проецируются в итоговое представление.
Область ИИ, изучающая взаимодействие компьютеров с человеческим языком. Охватывает задачи понимания и генерации текста: классификация, извлечение информации, машинный перевод, анализ тональности, вопросно-ответные системы и языковое моделирование.
Вычислительная модель, инспирированная структурой биологического мозга. Состоит из слоёв взаимосвязанных узлов (нейронов), каждый из которых применяет математическую функцию к взвешенной сумме входных данных. Обучение заключается в подборе весов связей через обратное распространение ошибки.
Явление, при котором модель слишком хорошо подстраивается под обучающие данные, включая их шум и случайные особенности, и теряет способность к обобщению на новых данных. Признак: высокая точность на обучающей выборке и низкая на тестовой. Решения: регуляризация, dropout, ранняя остановка, увеличение данных.
Дисциплина создания эффективных инструкций для языковых моделей с целью получения желаемых результатов. Включает техники: few-shot prompting (примеры в контексте), chain-of-thought (пошаговое рассуждение), role prompting (назначение роли модели) и системные инструкции.
Первичный этап обучения фундаментальной модели на масштабных наборах данных (текст всего интернета, книги, код) без специфической задачи. Модель учится предсказывать следующий токен, аккумулируя общие знания о языке и мире. Является дорогостоящим: обучение GPT-4 обошлось по оценкам более чем в $100M.
Архитектурный паттерн, при котором языковая модель дополняется системой поиска по внешней базе знаний. Перед генерацией релевантные документы извлекаются и добавляются в контекст запроса. Позволяет LLM работать с актуальной или специализированной информацией без переобучения.
Метод выравнивания языковых моделей с предпочтениями человека. Разметчики оценивают ответы модели, на основе оценок обучается модель вознаграждения, затем исходная модель оптимизируется с помощью обучения с подкреплением. Использован в InstructGPT и ChatGPT для снижения вредных выводов.
Эмпирически установленные закономерности, описывающие предсказуемое улучшение производительности LLM при увеличении масштаба: числа параметров, объёма обучающих данных и вычислительных ресурсов. Работа Kaplan et al. (OpenAI, 2020) формализовала эти зависимости и обосновала стратегию масштабирования.
Функция активации, преобразующая вектор произвольных чисел в вектор вероятностей, сумма которых равна 1. Используется в последнем слое классификационных нейронных сетей и в механизме внимания для вычисления весов.
Гиперпараметр генерации текста языковой моделью, управляющий «случайностью» вывода. При t=0 модель выбирает наиболее вероятный токен (детерминированная генерация), при высоких значениях (t>1) вывод становится более разнообразным и непредсказуемым. Типичные значения: 0.7–1.0 для креативных задач, 0–0.3 для фактических.
Процесс разбиения текста на минимальные единицы обработки — токены. Токен — это не всегда слово: он может быть частью слова, знаком препинания или символом. GPT-4 использует алгоритм BPE (Byte Pair Encoding). 1 токен примерно соответствует 4 символам или 0.75 слова в английском тексте.
Архитектура нейронной сети, представленная в работе Vaswani et al. «Attention Is All You Need» (Google, 2017). Полностью основана на механизме само-внимания, без рекуррентных или свёрточных слоёв. Стала основой всех современных LLM: GPT, BERT, T5, LLaMA и других. Подробнее: статья о LLM.
Специализированная СУБД, оптимизированная для хранения и поиска векторных эмбеддингов по семантическому сходству (приближённый поиск ближайших соседей, ANN). Ключевой компонент RAG-систем. Примеры: Pinecone, Weaviate, Chroma, pgvector.