Нейронные сети и глубокое обучение: учебный курс [Чару Аггарвал] (pdf) читать постранично, страница - 2

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

мультиклассовых моделей

2.3.1. Мультиклассовый перцептрон
2.3.2. SVM Уэстона-Уоткинса
2.3.3. Мультиномиальная логистическая регрессия
(классификатор Softmax)
2.3.4. Иерархическая функция Softmax для случая многих классов
2.4.

93

Введение

2.2.1.
2.2.2.
2.2.3.
2.2.4.
2.3.

90
90
92

Машинное обучение с помощью
мелких нейронных сетей

2.1.

87
87
88
89

119
119
121
123
125

Использование алгоритма обратного распространения ошибки
для улучшения интерпретируемости и выбора признаков

126

Факторизация матриц с помощью автокодировщиков

127
128
135
138
142
142
144

2.5.1. Автокодировщик: базовые принципы
2.5.2. Нелинейные активации
2.5.3. Глубокие автокодировщики
2.5.4. Обнаружение выбросов
2.5.5. Когда скрытый слой шире входного
2.5.6. Другие применения
2.5.7. Рекомендательные системы: предсказание значения
для индекса строки

2.5.8.

Обсуждение

147
151

8

СОДЕРЖАНИЕ

2.6. Word2vec: применение простых архитектур нейронных сетей
2.6.1. Нейросетевые вложения в рамках модели непрерывного
мешка слов

2.6.2.
2.6.3.
2.6.4.

Нейросетевые вложения в рамках модели скип-грамм

Модель

SGNS- это логистическая матричная факторизация
Простая модель скип-грамм - это мультиномиальная
матричная факторизация

2.7.

Простые архитектуры нейронных сетей для вложений графов

2. 7.1.
2. 7.2.
2.7.3.
2.8.
2.9.

Обработка произвольных значений счетчиков ребер
Мультиномиальная модель

Связь с моделями

DeepWalk и node2vec

Резюме
Библиографическая справка

2.9.1. Программные ресурсы
2.10. Упражнения
Глава

3.

Обучение глубоких нейронных сетей

3 .1. Введение
3.2. Алгоритм

подробное рассмотрение

На выручку приходит динамическое программирование

189

Обратное распространение ошибки с предактивационными
переменными

распространения ошибки
Функции потерь на нескольких выходных и скрытых узлах

Мини-пакетный стохастический градиентный спуск

193
196
198
201
203

Приемы обратного распространения ошибки для обработки
разделяемых весов

3.2.10. Проверка корректности

вычисления градиентов

Настройка и инициализация сети

3.3 .1.
3.3.2.
3.3.3.

182
187

Обратное распространение ошибки с постактивационными

3.2.5. Примеры обновлений для различных активаций
3.2.6. Обособленное векторное представление процесса обратного

3.3.

179
179
182

переменными

3.2.7.
3.2.8.
3.2.9.

168
169
171
171
172
172
173
175
175

обратного распространения ошибки с помощью

абстракции вычислительного графа

3.2.4.

153
157
164

обратного распространения ошибки:

3.2.1. Анализ
3.2.2.
3.2.3.

151

Тонкая настройка гиперпараметров

Предварительная обработка признаков
Инициализация

206
207
208
208
210
214

9

СОДЕРЖАНИЕ

3.4.

Проблемы затухающих и взрывных градиентов

3.4.1. Геометрическая интерпретация эффекта отношений градиентов
3.4.2. Частичное устранение проблем за счет выбора функции
активации

3.4.3.
3.5.

Мертвые нейроны и "повреждение мозга"

Стратегии градиентного спуска

3.5.1. Регулирование скорости обучения
3.5.2. Метод импульсов
3.5.3. Скорости обучения, специфические для параметров
3.5.4. Овраги и нестабильность более высокого порядка
3.5.5. Отсечение градиентов
3.5.6. Производные второго порядка
3.5.7. Усреднение Поляка
3.5.8. Локальные и ложные минимумы
3.6.
3. 7.

Пакетная нормализация
Практические приемы ускорения вычислений и сжатия моделей

3.7.1. Ускорение с помощью GPU
3.7.2. Параллельные и распределенные реализации
3.7.3. Алгоритмические приемы сжатия модели
3.8. Резюме
3.9. Библиографическая справка
3.9.1. Программные ресурсы
3.10. Упражнения
Глава

4.

Введение

Дилемма смещения

4.2.1.
4.3.

-

дисперсии

Формальное рассмотрение

Проблемы обобщаемости модели при ее настройке и оценке
4.3.1. Оценка точности с помощью отложенного набора данных
и перекрестной проверки

4.3 .2.
4.3.3.
4.4.

219
221
222
223
224
227
232
234
235
246
247
249
254
255
258
260
265
265
267
268

Обучение глубоких сетей способности
к обобщению

4.1.
4.2.

215
217

Проблемы с крупномасштабной тренировкой

Как определить необходимость в сборе дополнительных данных

Регуляризация на основе штрафов

4.4.1. Связь регуляризации с внедрением шума
4.4.2. L 1 -регуляризация
4.4.3. Что лучше: L 1- или L 2 -регуляризация?
4.4.4. Штрафование скрытых элементов: обучение разреженным
представлениям

271
271
278
280
284
287
288
289
289
292
293
294
295

10

4.5.

СОДЕРЖАНИЕ

Ансамблевые методы

4.5.1.
4.5.2.
4.5.3.
4.5.4.
4.5.5.
4.6.

Рандомизированное отбрасывание соединений
Дропаут

Ансамбли на основе возмущения данных
Ранняя остановка с точки зрения дисперсии

Предварительное обучение без учителя

4.