Владимир Алпатов - Языкознание - От Аристотеля до компьютерной лингвистики

Здесь есть возможность читать онлайн «Владимир Алпатов - Языкознание - От Аристотеля до компьютерной лингвистики» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2015, ISBN: 2015, Жанр: Языкознание, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Языкознание: От Аристотеля до компьютерной лингвистики: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Языкознание: От Аристотеля до компьютерной лингвистики»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Языкознание: От Аристотеля до компьютерной лингвистики — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Языкознание: От Аристотеля до компьютерной лингвистики», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Предполагалось, что с 1970-х гг. появятся системы третьего поколения, где будет не только производиться морфологический и синтаксический анализ и синтез (эта проблема более или менее решалась уже во втором поколении), но и вступят в действие семантические компоненты, в конечном итоге являющиеся главными. Надеялись на создание универсального семантического языка-посредника; если бы он был создан, то получилось бы что-то вроде универсальной логической структуры в «Грамматике Пор-Рояля» XVII в. или глубинной структуры у Хомского. Но такого языка нет и сейчас, а проблема неоднозначности решена лишь частично, поскольку она в значительной степени является семантической.

Однако компьютерная лингвистика отнюдь не сводится к трудной и лишь частично решенной проблеме машинного перевода. Здесь на полюсе, связанном с максимальной сложностью объекта, находится машинный перевод, однако далеко не всегда нам для практических нужд необходимо анализировать и переводить весь текст. На другом полюсе находятся значительно более простые и вполне решаемые проблемы, например когда нужно из большого массива текстов выбрать те тексты, в которых содержатся интересующие нас ключевые слова. В промежутке между двумя полюсами имеются системы, решающие разные другие практические задачи, не охватывающие систему языка в целом. Обычно в таких случаях говорят об информационно-поисковых системах (ИПС). Такие системы в больших количествах создавались в советских ведомственных НИИ в 1960–1980-е гг.

Эти системы так или иначе связаны с обработкой массивов текстов на естественном языке. В них не ставится задача сохранения всей имеющейся в текстах информации. Тем или иным способом осуществляется ее редукция, позволяющая найти во множестве документов то, что соответствует данному запросу. В том числе такие системы на основе заданных параметров обеспечивают составление рефератов и аннотаций обрабатываемых документов. Документы могут описываться на особом формальном информационно-поисковом языке; составляется словарь дескрипторов — слов, обозначающих категории и понятия области, в которой ведется поиск. На основе этого словаря информационная система должна выделить среди обрабатываемых текстов те, которые имеют запрашиваемое содержание. Более простые системы только выделяют нужную лексику, но в других системах может в определенных пределах проводиться и грамматический анализ.

Наряду с прикладными направлениями, сложившимися в рамках формальной лингвистики, большое место в последние десятилетия занимают и направления работ, связанные с функционализмом. Среди них надо особо выделить корпусную лингвистику.

Как определяют создатели Национального корпуса русского языка (НКРЯ), лингвистический корпус — это «информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов». Такого рода представления, конечно, создавались и раньше, прежде всего при составлении словарей. Известны огромные картотеки, вручную формировавшиеся десятилетиями на основе расписки большого количества текстов. Но теперь они создаются в электронном виде и постоянно пополняются.

Впервые лингвистический корпус был создан в США в 1960-е гг. Первые корпуса были невелики по объему, стандартом считался объем в миллион слов, что было недостаточно. Значительное развитие корпусная лингвистика получила с 1980-х гг. в связи с дальнейшим развитием вычислительной техники. В настоящее время НКРЯ (формируется с начала 2000-х гг.) содержит более 600 млн словоупотреблений, и эта цифра постоянно растет. Важна представительность и сбалансированность корпуса, в который должны включаться не только письменные, но и устные тексты. Конечно, наряду с корпусами, представляющими язык в целом, распространены и корпуса, специализированные для какой-то его части; корпуса могут отражать лишь современный язык, но могут, как НКРЯ, включать в себя и тексты на протяжении того или иного периода времени. Наряду с одноязычными корпусами существуют и многоязычные.

Корпус — не то же самое, что просто электронное собрание текстов большого объема. При его создании необходимо провести ряд операций, именуемых разметкой. Нужно разделить тексты на слова, привести каждое слово к его словарной форме, провести морфологический, синтаксический, акцентологический анализ. Серьезную проблему составляет то, что при обширном объеме корпуса в ответ на запрос может быть выдано столь большое число в основном ненужной информации, что ее невозможно охватить. Поэтому нужны также системы группировки поиска.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Языкознание: От Аристотеля до компьютерной лингвистики»

Представляем Вашему вниманию похожие книги на «Языкознание: От Аристотеля до компьютерной лингвистики» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Владимир Алпатов - Япония - язык и общество
Владимир Алпатов
Владимир Алпатов - Слово и части речи
Владимир Алпатов
Владимир Алпатов - Япония - язык и культура
Владимир Алпатов
Владимир Алпатов - Чёрная книга капитализма
Владимир Алпатов
Отзывы о книге «Языкознание: От Аристотеля до компьютерной лингвистики»

Обсуждение, отзывы о книге «Языкознание: От Аристотеля до компьютерной лингвистики» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x