Нихиль Будума - Основы глубокого обучения

Здесь есть возможность читать онлайн «Нихиль Будума - Основы глубокого обучения» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Манн, Иванов и Фербер, Жанр: economics, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Основы глубокого обучения: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Основы глубокого обучения»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Глубокое обучение — раздел машинного обучения, изучающий глубокие нейронные сети и строящий процесс получения знаний на основе примеров. Авторы рассказывают об основных принципах решения задач в глубоком обучении и способах внедрения его алгоритмов.

Основы глубокого обучения — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Основы глубокого обучения», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

perplexity = math.exp(float(loss)) if loss <

300 else float("inf")

print ("global step %d learning rate %.4f

step-time %.2f perplexity "

"%.2f" % (model.global_step.eval(),

model.learning_rate.eval(),

step_time, perplexity))

# Decrease learning rate if no improvement was seen over last 3 times. (Снижаем темп обучения, если за последние 3 раза не было улучшений)

if len(previous_losses) > 2 and loss > max(

previous_losses[-3:]):

sess.run(model.learning_rate_decay_op)

previous_losses.append(loss)

# Save checkpoint and zero timer and loss. (Сохраняем контрольную точку, нулевой таймер и величину потерь)

checkpoint_path = os.path.join(FLAGS.train_dir, "translate.ckpt")

model.saver.save(sess, checkpoint_path, global_step=model.global_step)

step_time, loss = 0.0, 0.0

Теперь измеряем производительность нашей модели на тестовом наборе данных. Тем самым мы определяем обобщающую способность модели, чтобы узнать, повышается ли она, и если да, то насколько. Мы снова получаем данные с помощью get_batch, но на этот раз используем bucket_id из тестового набора. Снова делаем шаг вперед в рамках модели, но не обновляем веса, поскольку последний аргумент в методе step() — True — противоположен False во время основного цикла обучения; семантику step() мы рассмотрим позже. Измеряем потери на тестовом наборе данных и выводим их пользователю:

# Run evals on development set and print

# their perplexity. (Запускаем оценки качества на наборе данных для тестирования, печатаем перплексию)

for bucket_id in xrange(len(_buckets)):

if len(dev_set[bucket_id]) == 0:

print(" eval: empty bucket %d" % (bucket_id))

continue

encoder_inputs, decoder_inputs,

target_weights = model.get_batch(

dev_set, bucket_id)

# attns, _, eval_loss, _ = model.step(sess,

encoder_inputs, decoder_inputs,

_, eval_loss, _ = model.step(sess, encoder_inputs,

decoder_inputs,

target_weights,

bucket_id,

True)

eval_ppx = math.exp(float(eval_loss)) if eval_loss <

300 else float(

"inf")

print(" eval: bucket %d perplexity %.2f" % (

bucket_id, eval_ppx))

sys.stdout.flush()

Есть еще один подходящий сценарий использования нашей модели — однократное предсказание. Мы хотим иметь возможность использовать обученную модель для перевода новых предложений — наших или других пользователей. Для этого пользуемся методом decode(). Он включает примерно те же функции, что были реализованы в цикле оценки на тестовом наборе данных. Основное различие в том, что при обучении и оценке нам не требовалось переводить выходные векторные представления в понятные людям токены, а этим мы сейчас и займемся. Изложим метод подробно.

Поскольку это отдельный режим вычислений, необходимо снова запустить сессию TensorFlow и либо создать модель, либо загрузить уже сохраненную в предыдущей контрольной точке:

def decode():

with tf.Session() as sess:

# Create model and load parameters. (Создаем модель и загружаем параметры)

model = create_model(sess, True)

Мы назначаем размер пакета 1, поскольку параллельно не обрабатываем новых предложений, а загружаем только входные и выходные словари, но не сами данные:

model.batch_size = 1

# We decode one sentence at a time. (Декодируем по предложению за раз)

# Load vocabularies. (Загружаем словари)

en_vocab_path = os.path.join(FLAGS.data_dir,

"vocab%d.en" %

FLAGS.en_vocab_size)

fr_vocab_path = os.path.join(FLAGS.data_dir,

"vocab%d.fr" %

FLAGS.fr_vocab_size)

en_vocab, _ = data_utils.initialize_vocabulary(

en_vocab_path)

_, rev_fr_vocab = data_utils.initialize_vocabulary(

fr_vocab_path)

Читаем входные данные со стандартного ввода, чтобы запрашивать предложения у пользователя:

# Decode from standard input. (Декодировать стандартный ввод)

sys.stdout.write("> ")

sys.stdout.flush()

sentence = sys.stdin.readline()

Если полученное предложение не пустое, оно разбивается на токены и обрезается при превышении определенной длины:

while sentence:

# Get token-ids for the input sentence. (Получаем токены для входящего предложения)

token_ids = data_utils.sentence_to_token_ids(

tf.compat.as_bytes(sentence), en_vocab)

# Which bucket does it belong to? (К какой группе оно принадлежит?)

bucket_id = len(_buckets) — 1

for i, bucket in enumerate(_buckets):

if bucket[0] >= len(token_ids):

bucket_id = i

break

else:

logging.warning("Sentence truncated: %s", sentence)

Хотя мы не загружаем никаких данных, get_batch() преобразует введенные данные в нужный формат и готовит к использованию в step():

# Get a 1-element batch to feed the sentence to

# the model. (Получаем одноэлементный пакет для ввода предложения в модель)

encoder_inputs, decoder_inputs, target_weights =

model.get_batch(

{bucket_id: [(token_ids, [])]}, bucket_id)

Мы делаем шаг вперед в рамках модели. На этот раз нам нужны output_logits, то есть ненормализованные вероятности выходных токенов, а не величина функции потерь. Декодируем их при помощи выходного словаря и останавливаем декодирование при первом появлении метки EOS.

Теперь выводим французское предложение или фразу пользователю и ожидаем следующую фразу:

# Get output logits for the sentence. (Получаем логиты вывода для предложения)

_, _, output_logits = model.step(sess, encoder_inputs,

decoder_inputs,

target_weights,

bucket_id, True)

# This is a greedy decoder — outputs are just argmaxes

# of output_logits. (Это жадный декодер: выводы — просто номера максимумов в output_logits)

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Основы глубокого обучения»

Представляем Вашему вниманию похожие книги на «Основы глубокого обучения» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Светлана Маркова - Основы быстрого обучения
Светлана Маркова
Отзывы о книге «Основы глубокого обучения»

Обсуждение, отзывы о книге «Основы глубокого обучения» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x