Главная/Глоссарий
// термины и определения

Глоссарий терминов ИИ

Чёткие, проверенные определения ключевых понятий в области искусственного интеллекта и машинного обучения. Обновляется редакцией Crosvia по мере развития индустрии.

Перейти: A B C D E F G H L M N O P R S T V
A
Attention Mechanism (Механизм внимания)
NLPАрхитектура

Компонент нейронной сети, позволяющий модели при обработке каждого токена взвешивать релевантность других токенов в последовательности. Является ключевым элементом архитектуры трансформера. Self-attention позволяет модели соотносить слова с другими словами в том же тексте, независимо от расстояния между ними.

Autoregressive Model (Авторегрессионная модель)
LLM

Тип генеративной модели, которая предсказывает следующий токен на основе всех предыдущих токенов. GPT-подобные модели являются авторегрессионными: они генерируют текст последовательно, слева направо, предсказывая по одному токену за раз.

Алгоритмическая предвзятость (Algorithmic Bias)
Этика ИИ

Систематические ошибки в выводах ИИ-систем, создающие несправедливые результаты для определённых групп людей. Может возникать из-за предвзятости обучающих данных, ошибок дизайна системы или неверного выбора целевых метрик. Подробнее: статья об этике ИИ.

B
Backpropagation (Обратное распространение ошибки)
Обучение

Алгоритм обучения нейронных сетей, который вычисляет градиент функции потерь по всем весам сети, применяя цепное правило дифференцирования. Позволяет эффективно настраивать веса модели в направлении уменьшения ошибки.

BERT (Bidirectional Encoder Representations from Transformers)
NLPLLM

Языковая модель Google (2018), использующая двунаправленный трансформер-энкодер. В отличие от GPT, BERT обрабатывает контекст с обеих сторон каждого токена одновременно. Предобучена на задачах Masked Language Modeling и Next Sentence Prediction. Была революционной для задач понимания текста.

C
CNN (Convolutional Neural Network / Свёрточная нейронная сеть)
Computer Vision

Архитектура нейронной сети, использующая операцию свёртки для автоматического извлечения признаков из данных с пространственной структурой (изображений). Свёрточные слои применяют фильтры к локальным областям входных данных, что обеспечивает инвариантность к сдвигу и эффективность обучения.

Context Window (Контекстное окно)
LLM

Максимальный объём текста (в токенах), который языковая модель может обрабатывать одновременно при генерации. Определяет, сколько «памяти» о предыдущем контексте имеет модель. GPT-4 Turbo — 128K токенов, Claude 3 — до 200K токенов. Подробнее: статья о LLM.

D
Deep Learning (Глубокое обучение)
ML

Подраздел машинного обучения, использующий многослойные нейронные сети для автоматического извлечения признаков из сырых данных. «Глубина» относится к количеству слоёв в сети. Обеспечивает прорывы в компьютерном зрении, NLP и генеративных моделях начиная с 2012 года.

Diffusion Model (Диффузионная модель)
Генеративный ИИ

Класс генеративных моделей, обученных обращать постепенный процесс добавления шума к данным. При генерации модель начинает с чистого шума и итеративно «очищает» его, воссоздавая реалистичные изображения. Основа Stable Diffusion, DALL-E 3 и Midjourney.

E
Embedding (Векторное представление)
NLPML

Плотное числовое представление объекта (слова, токена, документа, изображения) в многомерном векторном пространстве. Близкие по смыслу объекты имеют близкие векторы. Эмбеддинги — фундаментальный способ преобразования дискретных объектов в форму, пригодную для нейронных сетей.

F
Fine-tuning (Дообучение)
MLLLM

Процесс дополнительного обучения предобученной модели на специфическом наборе данных для адаптации к конкретной задаче. Позволяет использовать знания, закодированные в больших предобученных моделях, и специализировать их для узких применений. Требует значительно меньше данных и вычислений, чем обучение с нуля.

Foundation Model (Базовая / Фундаментальная модель)
LLM

Термин Стэнфордского HAI (2021) для обозначения больших моделей, предобученных на широких наборах данных и применяемых в множестве задач. GPT-4, Claude, Gemini — примеры фундаментальных моделей. Характеризуются масштабом, универсальностью и способностью к адаптации через fine-tuning или prompting.

G
GAN (Generative Adversarial Network)
Генеративный ИИ

Архитектура из двух конкурирующих нейронных сетей (генератор и дискриминатор), предложенная Яном Гудфеллоу в 2014 году. Генератор создаёт данные, дискриминатор отличает реальные данные от сгенерированных. Состязательное обучение позволяет генератору создавать всё более реалистичные данные. Широко применялась в генерации изображений до распространения диффузионных моделей.

Gradient Descent (Градиентный спуск)
Оптимизация

Итеративный алгоритм оптимизации для минимизации функции потерь. На каждом шаге параметры модели обновляются в направлении, противоположном градиенту функции потерь. Stochastic Gradient Descent (SGD) использует случайные мини-батчи данных для вычисления приближённого градиента.

H
Hallucination (Галлюцинация модели)
LLMБезопасность

Явление, при котором языковая модель генерирует правдоподобно звучащий, но фактически неверный или несуществующий текст. Модель не «знает», что она не знает — она всегда генерирует следующий наиболее вероятный токен, независимо от того, является ли это точным фактом.

Hyperparameter (Гиперпараметр)
ML

Параметр, задаваемый до начала обучения модели и не обновляемый в процессе обучения. Примеры: learning rate, batch size, количество слоёв, размер скрытого слоя. В отличие от параметров модели (весов), гиперпараметры настраиваются экспериментально.

L
LLM (Large Language Model / Большая языковая модель)
NLPLLM

Языковая модель с миллиардами параметров, предобученная на масштабных текстовых данных. Обладает широкими способностями: генерация текста, ответы на вопросы, перевод, программирование. GPT-4, Claude 3, Gemini Ultra — примеры LLM. Подробнее: статья о LLM.

LoRA (Low-Rank Adaptation)
Fine-tuning

Метод параметрически-эффективного дообучения (PEFT): вместо обновления всех весов модели обучаются лишь низкоранговые матрицы, которые добавляются к исходным. Позволяет дообучать крупные LLM на потребительском оборудовании, сокращая число обучаемых параметров на 90–99%.

M
Machine Learning (Машинное обучение)
ML

Подраздел ИИ, в котором системы обучаются на данных без явного программирования. Алгоритм автоматически выявляет закономерности в данных и использует их для предсказаний или решений. Включает обучение с учителем, без учителя и обучение с подкреплением.

Multi-Head Attention (Многоголовое внимание)
Архитектура

Расширение механизма внимания, при котором несколько «голов» внимания работают параллельно в разных пространствах представлений. Каждая голова может фокусироваться на разных аспектах контекста. Результаты всех голов конкатенируются и проецируются в итоговое представление.

N
NLP (Natural Language Processing / Обработка естественного языка)
NLP

Область ИИ, изучающая взаимодействие компьютеров с человеческим языком. Охватывает задачи понимания и генерации текста: классификация, извлечение информации, машинный перевод, анализ тональности, вопросно-ответные системы и языковое моделирование.

Neural Network (Нейронная сеть)
ML

Вычислительная модель, инспирированная структурой биологического мозга. Состоит из слоёв взаимосвязанных узлов (нейронов), каждый из которых применяет математическую функцию к взвешенной сумме входных данных. Обучение заключается в подборе весов связей через обратное распространение ошибки.

O
Overfitting (Переобучение)
ML

Явление, при котором модель слишком хорошо подстраивается под обучающие данные, включая их шум и случайные особенности, и теряет способность к обобщению на новых данных. Признак: высокая точность на обучающей выборке и низкая на тестовой. Решения: регуляризация, dropout, ранняя остановка, увеличение данных.

P
Prompt Engineering (Разработка промптов)
LLM

Дисциплина создания эффективных инструкций для языковых моделей с целью получения желаемых результатов. Включает техники: few-shot prompting (примеры в контексте), chain-of-thought (пошаговое рассуждение), role prompting (назначение роли модели) и системные инструкции.

Pre-training (Предобучение)
LLMML

Первичный этап обучения фундаментальной модели на масштабных наборах данных (текст всего интернета, книги, код) без специфической задачи. Модель учится предсказывать следующий токен, аккумулируя общие знания о языке и мире. Является дорогостоящим: обучение GPT-4 обошлось по оценкам более чем в $100M.

R
RAG (Retrieval-Augmented Generation)
LLMАрхитектура

Архитектурный паттерн, при котором языковая модель дополняется системой поиска по внешней базе знаний. Перед генерацией релевантные документы извлекаются и добавляются в контекст запроса. Позволяет LLM работать с актуальной или специализированной информацией без переобучения.

RLHF (Reinforcement Learning from Human Feedback)
LLMВыравнивание

Метод выравнивания языковых моделей с предпочтениями человека. Разметчики оценивают ответы модели, на основе оценок обучается модель вознаграждения, затем исходная модель оптимизируется с помощью обучения с подкреплением. Использован в InstructGPT и ChatGPT для снижения вредных выводов.

S
Scaling Laws (Законы масштабирования)
LLM

Эмпирически установленные закономерности, описывающие предсказуемое улучшение производительности LLM при увеличении масштаба: числа параметров, объёма обучающих данных и вычислительных ресурсов. Работа Kaplan et al. (OpenAI, 2020) формализовала эти зависимости и обосновала стратегию масштабирования.

Softmax
ML

Функция активации, преобразующая вектор произвольных чисел в вектор вероятностей, сумма которых равна 1. Используется в последнем слое классификационных нейронных сетей и в механизме внимания для вычисления весов.

T
Temperature (Температура)
LLM

Гиперпараметр генерации текста языковой моделью, управляющий «случайностью» вывода. При t=0 модель выбирает наиболее вероятный токен (детерминированная генерация), при высоких значениях (t>1) вывод становится более разнообразным и непредсказуемым. Типичные значения: 0.7–1.0 для креативных задач, 0–0.3 для фактических.

Tokenization (Токенизация)
NLP

Процесс разбиения текста на минимальные единицы обработки — токены. Токен — это не всегда слово: он может быть частью слова, знаком препинания или символом. GPT-4 использует алгоритм BPE (Byte Pair Encoding). 1 токен примерно соответствует 4 символам или 0.75 слова в английском тексте.

Transformer (Трансформер)
АрхитектураNLP

Архитектура нейронной сети, представленная в работе Vaswani et al. «Attention Is All You Need» (Google, 2017). Полностью основана на механизме само-внимания, без рекуррентных или свёрточных слоёв. Стала основой всех современных LLM: GPT, BERT, T5, LLaMA и других. Подробнее: статья о LLM.

V
Vector Database (Векторная база данных)
ИнфраструктураRAG

Специализированная СУБД, оптимизированная для хранения и поиска векторных эмбеддингов по семантическому сходству (приближённый поиск ближайших соседей, ANN). Ключевой компонент RAG-систем. Примеры: Pinecone, Weaviate, Chroma, pgvector.