ИИ Microsoft улучшает производительность суммирования текста, уделяя больше внимания началу

Новая функция от Нью-Йорк Таймс должен иметь другой тон, чем средний пост Reddit. Действительно, разнообразие стилей письма и грамматических структур делает задачу автоматического обобщения текста очень сложной. Вот почему исследователи из лаборатории «Будущий социальный опыт» (FUSE) в Питтсбурге и Microsoft Researcher, специализирующейся на опыте в реальном времени и насыщенном медиа, разработаны система ИИ, которая уделяет пристальное внимание началу документов, которые она обобщает. Команда говорит, что этот подход улучшил экспериментальную производительность, особенно в случае содержания веб-форума, а также с более общими формами текстовых данных.

Это исследование следует за публикацией исследования Microsoft Research детализация «гибкая» система ИИ, способная рассуждать об отношениях в «слабо структурированном» тексте. Соавторы утверждают, что могут превзойти традиционные модели обработки естественного языка по ряду задач суммирования текста.

Как отмечают исследователи, обсуждения в форумах обычно начинаются с сообщений или комментариев, требующих знания или помощи, а последующие комментарии стремятся ответить на исходное сообщение, предоставив дополнительную информацию или мнения. Часто этот исходный текст содержит важную тематическую информацию, которая может быть полезна при обобщении.

Предложенный ИИ извлекает выгоду из этой зависимости между исходными сообщениями и ответами, но он также пытается отсеять ненужные или поверхностные ответы, чтобы гарантировать, что они не ухудшают обобщение.

Исследователи подготовили и оценили свою модель на основе двух обобщающих материалов: один из форума TripAdvisor, содержащий 700 потоков (из которых 500 были использованы для обучения, а 200 — для проверки и тестирования), а другой — 532 документа Microsoft Word по предметам (из которых 266 138 и 128 использовались для обучения, валидации и тестирования соответственно). AI принимал ключевые слова, извлеченные из каждого предложения, а также представления на уровне предложений в целом документе, позволяя ему узнать, какие предложения были заметны в текстовых документах, и использовать эти предложения для генерации обобщений.

В будущем исследователи планируют включить более общие наборы данных в фазы обучения и тестирования для дальнейшей проверки своего подхода. Они также планируют варьировать количество предложений, принимаемых моделью, от начальной части типовых документов.

«Мы используем тенденцию вводить важную информацию в начале текста, обращая внимание на первые несколько предложений в общих текстовых данных», — написали они в статье, подробно описывающей их работу. «Оценки показали, что посещение вводных предложений с использованием двунаправленного внимания повышает производительность моделей экстрактивного суммирования (даже когда), применяемых к более общей форме (ам) текстовых данных».



Источник: ИИ Microsoft улучшает производительность суммирования текста, уделяя больше внимания началу


Похожие материалы по теме: ИИ Microsoft улучшает производительность суммирования текста, уделяя больше внимания началу

Leave a comment