Глоссарий терминов ИИ

Перейти: A B C D E F G H L M N O P R S T V

Attention Mechanism (Механизм внимания)

NLPАрхитектура

Компонент нейронной сети, позволяющий модели при обработке каждого токена взвешивать релевантность других токенов в последовательности. Является ключевым элементом архитектуры трансформера. Self-attention позволяет модели соотносить слова с другими словами в том же тексте, независимо от расстояния между ними.

Autoregressive Model (Авторегрессионная модель)

LLM

Тип генеративной модели, которая предсказывает следующий токен на основе всех предыдущих токенов. GPT-подобные модели являются авторегрессионными: они генерируют текст последовательно, слева направо, предсказывая по одному токену за раз.

Алгоритмическая предвзятость (Algorithmic Bias)

Этика ИИ

Систематические ошибки в выводах ИИ-систем, создающие несправедливые результаты для определённых групп людей. Может возникать из-за предвзятости обучающих данных, ошибок дизайна системы или неверного выбора целевых метрик. Подробнее: статья об этике ИИ.

Backpropagation (Обратное распространение ошибки)

Обучение

Алгоритм обучения нейронных сетей, который вычисляет градиент функции потерь по всем весам сети, применяя цепное правило дифференцирования. Позволяет эффективно настраивать веса модели в направлении уменьшения ошибки.

BERT (Bidirectional Encoder Representations from Transformers)

NLPLLM

Языковая модель Google (2018), использующая двунаправленный трансформер-энкодер. В отличие от GPT, BERT обрабатывает контекст с обеих сторон каждого токена одновременно. Предобучена на задачах Masked Language Modeling и Next Sentence Prediction. Была революционной для задач понимания текста.

CNN (Convolutional Neural Network / Свёрточная нейронная сеть)

Computer Vision

Архитектура нейронной сети, использующая операцию свёртки для автоматического извлечения признаков из данных с пространственной структурой (изображений). Свёрточные слои применяют фильтры к локальным областям входных данных, что обеспечивает инвариантность к сдвигу и эффективность обучения.

Context Window (Контекстное окно)

LLM

Максимальный объём текста (в токенах), который языковая модель может обрабатывать одновременно при генерации. Определяет, сколько «памяти» о предыдущем контексте имеет модель. GPT-4 Turbo — 128K токенов, Claude 3 — до 200K токенов. Подробнее: статья о LLM.

Deep Learning (Глубокое обучение)

Подраздел машинного обучения, использующий многослойные нейронные сети для автоматического извлечения признаков из сырых данных. «Глубина» относится к количеству слоёв в сети. Обеспечивает прорывы в компьютерном зрении, NLP и генеративных моделях начиная с 2012 года.

Diffusion Model (Диффузионная модель)

Генеративный ИИ

Класс генеративных моделей, обученных обращать постепенный процесс добавления шума к данным. При генерации модель начинает с чистого шума и итеративно «очищает» его, воссоздавая реалистичные изображения. Основа Stable Diffusion, DALL-E 3 и Midjourney.

Embedding (Векторное представление)

NLPML

Плотное числовое представление объекта (слова, токена, документа, изображения) в многомерном векторном пространстве. Близкие по смыслу объекты имеют близкие векторы. Эмбеддинги — фундаментальный способ преобразования дискретных объектов в форму, пригодную для нейронных сетей.

Fine-tuning (Дообучение)

MLLLM

Процесс дополнительного обучения предобученной модели на специфическом наборе данных для адаптации к конкретной задаче. Позволяет использовать знания, закодированные в больших предобученных моделях, и специализировать их для узких применений. Требует значительно меньше данных и вычислений, чем обучение с нуля.

Foundation Model (Базовая / Фундаментальная модель)

LLM

Термин Стэнфордского HAI (2021) для обозначения больших моделей, предобученных на широких наборах данных и применяемых в множестве задач. GPT-4, Claude, Gemini — примеры фундаментальных моделей. Характеризуются масштабом, универсальностью и способностью к адаптации через fine-tuning или prompting.

GAN (Generative Adversarial Network)

Генеративный ИИ

Архитектура из двух конкурирующих нейронных сетей (генератор и дискриминатор), предложенная Яном Гудфеллоу в 2014 году. Генератор создаёт данные, дискриминатор отличает реальные данные от сгенерированных. Состязательное обучение позволяет генератору создавать всё более реалистичные данные. Широко применялась в генерации изображений до распространения диффузионных моделей.

Gradient Descent (Градиентный спуск)

Оптимизация

Итеративный алгоритм оптимизации для минимизации функции потерь. На каждом шаге параметры модели обновляются в направлении, противоположном градиенту функции потерь. Stochastic Gradient Descent (SGD) использует случайные мини-батчи данных для вычисления приближённого градиента.

Hallucination (Галлюцинация модели)

LLMБезопасность

Явление, при котором языковая модель генерирует правдоподобно звучащий, но фактически неверный или несуществующий текст. Модель не «знает», что она не знает — она всегда генерирует следующий наиболее вероятный токен, независимо от того, является ли это точным фактом.

Hyperparameter (Гиперпараметр)

Параметр, задаваемый до начала обучения модели и не обновляемый в процессе обучения. Примеры: learning rate, batch size, количество слоёв, размер скрытого слоя. В отличие от параметров модели (весов), гиперпараметры настраиваются экспериментально.

LLM (Large Language Model / Большая языковая модель)

NLPLLM

Языковая модель с миллиардами параметров, предобученная на масштабных текстовых данных. Обладает широкими способностями: генерация текста, ответы на вопросы, перевод, программирование. GPT-4, Claude 3, Gemini Ultra — примеры LLM. Подробнее: статья о LLM.

LoRA (Low-Rank Adaptation)

Fine-tuning

Метод параметрически-эффективного дообучения (PEFT): вместо обновления всех весов модели обучаются лишь низкоранговые матрицы, которые добавляются к исходным. Позволяет дообучать крупные LLM на потребительском оборудовании, сокращая число обучаемых параметров на 90–99%.

Machine Learning (Машинное обучение)

Подраздел ИИ, в котором системы обучаются на данных без явного программирования. Алгоритм автоматически выявляет закономерности в данных и использует их для предсказаний или решений. Включает обучение с учителем, без учителя и обучение с подкреплением.

Multi-Head Attention (Многоголовое внимание)

Архитектура

Расширение механизма внимания, при котором несколько «голов» внимания работают параллельно в разных пространствах представлений. Каждая голова может фокусироваться на разных аспектах контекста. Результаты всех голов конкатенируются и проецируются в итоговое представление.

NLP (Natural Language Processing / Обработка естественного языка)

NLP

Область ИИ, изучающая взаимодействие компьютеров с человеческим языком. Охватывает задачи понимания и генерации текста: классификация, извлечение информации, машинный перевод, анализ тональности, вопросно-ответные системы и языковое моделирование.

Neural Network (Нейронная сеть)

Вычислительная модель, инспирированная структурой биологического мозга. Состоит из слоёв взаимосвязанных узлов (нейронов), каждый из которых применяет математическую функцию к взвешенной сумме входных данных. Обучение заключается в подборе весов связей через обратное распространение ошибки.

Overfitting (Переобучение)

Явление, при котором модель слишком хорошо подстраивается под обучающие данные, включая их шум и случайные особенности, и теряет способность к обобщению на новых данных. Признак: высокая точность на обучающей выборке и низкая на тестовой. Решения: регуляризация, dropout, ранняя остановка, увеличение данных.

Prompt Engineering (Разработка промптов)

LLM

Дисциплина создания эффективных инструкций для языковых моделей с целью получения желаемых результатов. Включает техники: few-shot prompting (примеры в контексте), chain-of-thought (пошаговое рассуждение), role prompting (назначение роли модели) и системные инструкции.

Pre-training (Предобучение)

LLMML

Первичный этап обучения фундаментальной модели на масштабных наборах данных (текст всего интернета, книги, код) без специфической задачи. Модель учится предсказывать следующий токен, аккумулируя общие знания о языке и мире. Является дорогостоящим: обучение GPT-4 обошлось по оценкам более чем в $100M.

RAG (Retrieval-Augmented Generation)

LLMАрхитектура

Архитектурный паттерн, при котором языковая модель дополняется системой поиска по внешней базе знаний. Перед генерацией релевантные документы извлекаются и добавляются в контекст запроса. Позволяет LLM работать с актуальной или специализированной информацией без переобучения.

RLHF (Reinforcement Learning from Human Feedback)

LLMВыравнивание

Метод выравнивания языковых моделей с предпочтениями человека. Разметчики оценивают ответы модели, на основе оценок обучается модель вознаграждения, затем исходная модель оптимизируется с помощью обучения с подкреплением. Использован в InstructGPT и ChatGPT для снижения вредных выводов.

Scaling Laws (Законы масштабирования)

LLM

Эмпирически установленные закономерности, описывающие предсказуемое улучшение производительности LLM при увеличении масштаба: числа параметров, объёма обучающих данных и вычислительных ресурсов. Работа Kaplan et al. (OpenAI, 2020) формализовала эти зависимости и обосновала стратегию масштабирования.

Softmax

Функция активации, преобразующая вектор произвольных чисел в вектор вероятностей, сумма которых равна 1. Используется в последнем слое классификационных нейронных сетей и в механизме внимания для вычисления весов.

Temperature (Температура)

LLM

Гиперпараметр генерации текста языковой моделью, управляющий «случайностью» вывода. При t=0 модель выбирает наиболее вероятный токен (детерминированная генерация), при высоких значениях (t>1) вывод становится более разнообразным и непредсказуемым. Типичные значения: 0.7–1.0 для креативных задач, 0–0.3 для фактических.

Tokenization (Токенизация)

NLP

Процесс разбиения текста на минимальные единицы обработки — токены. Токен — это не всегда слово: он может быть частью слова, знаком препинания или символом. GPT-4 использует алгоритм BPE (Byte Pair Encoding). 1 токен примерно соответствует 4 символам или 0.75 слова в английском тексте.

Transformer (Трансформер)

АрхитектураNLP

Архитектура нейронной сети, представленная в работе Vaswani et al. «Attention Is All You Need» (Google, 2017). Полностью основана на механизме само-внимания, без рекуррентных или свёрточных слоёв. Стала основой всех современных LLM: GPT, BERT, T5, LLaMA и других. Подробнее: статья о LLM.

Vector Database (Векторная база данных)

ИнфраструктураRAG

Специализированная СУБД, оптимизированная для хранения и поиска векторных эмбеддингов по семантическому сходству (приближённый поиск ближайших соседей, ANN). Ключевой компонент RAG-систем. Примеры: Pinecone, Weaviate, Chroma, pgvector.