The Goldfinch, Donna Tartt.
Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».
On Writing: A Memoir of the Craft, Stephen King.
To Kill a Mockingbird, Harper Lee.
В отдельных случаях примеры адаптированы для русского читателя. ( Примеч. ред .)
Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. ( Примеч. авторов. )
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге ( www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). ( Примеч. авторов. )
A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.
A River Runs through It, Norman Maclean.
Rogue Lawyer, John Grisham.
All the Light We Cannot See, Anthony Doerr.
The Girl on the Train, Paula Hawkins.
Go Set a Watchman, Harper Lee.
The Nightingale, Kristin Hannah.
O Alquimista, Paulo Coelho.
Ready Player One, Ernest Cline.
Роман Селесты Инг. Everything I Never Told You, Celeste Ng.
Роман Кристины Бейкер Кляйн. Orphan Train, Christina Baker Kline.
Роман Колма Тойбина. Brooklyn, Colm Tóibín.
House Rules, Jodi Picoult.
Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. Оказалось, что да. Подкрепив свою уверенность с помощью перекрестной проверки, мы можем исследовать прогноз и связанные с ним показатели вероятностей для каждой книги. По поводу некоторых книг модель не смогла прийти к окончательному выводу, и такие книги получали индекс 51 %. Поскольку случайная догадка имеет вероятность 50 на 50, это не очень высокая степень уверенности. В таком случае мы исследовали все остальные характеристики текста – например стиль или сюжет, – прежде чем сделать вывод о вероятности успеха. Но для других книг модель прогнозировала индекс успеха с большой уверенностью и присваивала им соответствующий рейтинг. ( Примеч. авторов. )
The House on Hope Street, Danielle Steel.
Mixed Blessings, Danielle Steel.
Accident, Danielle Steel.
The Litigators, John Grisham.
The Associate, John Grisham.
Calico Joe, John Grisham.
Going Home, Danielle Steel.
The Firm, John Grisham.
Для тех, кого интересуют подробности, в послесловии объясняется, как мы вводили поправки при работе модели с несколькими книгами одного и того же автора. ( Примеч. авторов. )
The Kiss, Danielle Steel.
The Pelican Brief, John Grisham.
Разумеется, многие читатели вспомнят хотя бы один бестселлер со званым ужином и танцами. Но единичные случаи не делают статистики. Чтобы тему можно было использовать для прогноза, она должна много раз фигурировать в бестселлерах, попавших в список. ( Примеч. авторов. )
Читать дальше
Конец ознакомительного отрывка
Купить книгу