Los Angeles Times
В марте 2014 года робот газеты Los Angeles Times написал заметку о землетрясении в Калифорнии. В ней сообщалось, когда произошло землетрясение, какая у него была магнитуда, и каков был радиус распространения. В конце текста стояла подпись: «Этот пост был создан алгоритмом, написанным автором». У алгоритма есть прозвище — Quakebot (бот землетрясений). Когда он получает оповещение о землетрясении от Геологической службы США, он выбирает нужные данные и вставляет их в заранее написанный шаблон. А затем отправляет редактору уведомление, чтобы он проверил текст.
Это не единственный робот издания. У Los Angeles Times есть проект Mapping LA с картой районов Лос-Анджелеса. По каждому роботы собирают информацию об учебных заведениях, демографии района, а также его новости. Другой проект газеты, The Homicide Report, автоматически публикует сообщения полиции об убийствах в городе.
Accociated Press
Постепенно появляются и более сложные алгоритмы, которые могут писать не только сухие сводки о происшествиях, но и полноценные тексты. Компания Automated Insights из Северной Каролины создала платформу Wordsmith, которая генерирует связанные тексты на основе набора данных. Она не просто заполняет пропуски, а пишет собственные тексты. Программа собирает данные из финансовых отчетов, вычленяет из них самые важные, сопоставляет с обще-экономической информацией и формирует новостные заметки о доходах.
Wordsmith может писать 2000 заметок в секунду. С помощью сервиса за год было создано более миллиарда материалов. Ранее журналисты Associated Press писали 300 финансовых отчетов в квартал, а теперь агентство публикует 4,4 тысячи заметок о доходах компаний.
Пользователями Wordsmith также являются Samsung, Yahoo!, Comcast, New York Times. Помимо финансовых отчетов, они заказывают у сервиса спортивные заметки. Сравните два материала, опубликованных в New York Times. Один был написан человеком, а другой — роботом.
«Положение Ангелов казалось мрачным, когда они отставали на два очка на девятой подаче, но Los Angeles смогли реабилитироваться благодаря ключевому удару Владимира Гурреро, который позволил вырвать победу со счетом 7–6»
«Бейсбольная команда Университета Мичигана воспользувалась пятой подачей на четвертой пробежке, чтобы спасти финал трехнедельной серии игр с Айовой, выиграв со счетом 7–5 в субботу вечером (24 апреля)»
Робот является автором первой заметки.
Алгоритм анализирует не только данные конкретного матча, но и предысторию, например, информацию о том, как играл тот или иной спортсмен в предыдущих матчах.
Сооснователь Narrative Science Ларри Бирнбаум также говорил на одной из конференций, что он хотел бы создать систему, которая будет отбирать темы для текстов, редактировать их и выбирать, среди какой аудитории распространять те или иные материалы.
Forbes
Издание Forbes использует сервис Quill чикагской компании Narrative Science для создания объемных текстов об ожидаемых финансовых результатах компаний. Для этого программа использует статистические данные развития компании, а также информацию о ключевых финансовых понятиях, таких как банкротство, выручка и прибыль, а также о связи этих понятий между собой.
Сервис умеет структурировать предложения, параграфы и страницы, исключает повторы и неоправданно длинные конструкции. Клиенты также могут настроить стиль написания и выбор лексики под свой формат. Это может быть маркетинговый текст положительного характера, а может быть подробные отчет со всеми мелкими деталями для финансовой организации.
Quill также генерирует заметки о бейсболе для телеканалов и спортивных сайтов. Сервис умеет делать не только объективные новостные материалы, но и заметки для фанатских сайтов — в этом случае он смягчает информацию о проигрыше команды, за которую болеют читатели.
Гендиректор Narrative Science Крис Хэммонд предсказывал в мае 2012 года, что статья робота выиграет Пулитцеровскую премию до 2017 года. Он также считает, что к 2027 году 90 процентов новостей будут написаны алгоритмами.
MittMedia
Mittmedia — это один из крупнейших шведских медиахолдингов. В него входят множество газет, радиостанций и сайтов. Компания использует несколько алгоритмов для работы с новостями. Один — для генерации прогноза погоды, второй — для отслеживания распространения новости онлайн, третий — для персонализированного подбора материалов для каждого пользователя на основе того, где он находится и чем интересуется. Сейчас программисты холдинга разрабатывают «футбольного робота», который будет создавать сообщения о ходе и результатах матча сразу же после его окончания.
The Guardian
The Guardian использует алгоритмы для формирования своего еженедельного издания The Long Good Read, в котором собраны лучшие статьи The Guardian за последнюю неделю. Статьи отбираются роботами. Система находит среди всех материалов самые популярные заметки больше определенного размера и располагает их в верстке издания. Таким образом, газета готова за один час. Такой подход выгоден для изданий небольшого тиража.
«Би-би-си»
Спортивный раздел «Би-би-си» тоже использует алгоритмы для описания матчей. Издание покупает информацию об игре (о голах, ударах, фолах, аутах, офсайдах, карточек) у компаний, которые занимаются ручным сбором спортивных данных, а затем с помощью специальной программы преобразует их в текстовую трансляцию. Пример такого текста можно увидеть в нижней части этого материала. Российское издание Sports.ru тоже использует фактологические текстовые трансляции, созданные роботами.
Рекомендательные сервисы
До «Яндекса» в России почти не было сервисов, которые сами бы генерировали связные тексты. Возможно, это связано с более сложной структурой русского языка, которая затрудняет автоматическое создание полноценных текстов. Но зато российские СМИ уже давно пользуются рекомендательными сервисами, которые тоже можно назвать роботами-редакторами — они автоматически подбирают материалы, наиболее релевантные конкретному пользователю.
Например, Surfingbird. Программа использует информацию о том, какие темы интересны человеку, какие издания он предпочитает, а также какие статьи «лайкает» он и его друзья. Постепенно сервис все лучше узнает о предпочтениях пользователя, что позволяет ему выбирать все более подходящие материалы. Аналогичное приложение «Мята» собирает статьи не со всего Рунета, а из самых популярных пабликов «ВКонтакте».
Редакторские сервисы
Еще одно направление, в котором развивается роботизация журналистики — редактура текстов. Существуют сервисы, которые автоматически заменяют слова в исходном материалы не синонимы, создавая таким образом рерайт оригинала. Но качество такого текста чаще всего оставляет желать лучшего. Пока что лучше работают программы, которые не правят текст автоматически, а подчеркивают ошибки. И речь идет не только об опечатках, грамматических и пунктуационных ошибках, которые идентифицирует Word, но и о стилистических недочетах.
Например, сервис Test the Text позволяет создавать максимально лаконичные и объективные новостные тексты и инструкции. Если вставить в него текст, он подчеркнет в нем все лишнее — слова-паразиты, лишние вводные слова, междометия, модальные глаголы, отглагольные существительные, а также оценочные прилагательные и наречия. То есть, все слова, которые не несут в себе смысла.