Сегодня, 8 сентября, Тотальный диктант и Яндекс проводят совместный онлайн-марафон «Русский язык: настоящее, прошлое и будущее». Одним из гостей стал руководитель группы исследований Яндекса Максим Матющенко. Он рассказал, как специалисты компании анализируют язык поисковых запросов и какие выводы можно сделать на их основании.

Ежедневно в поисковую систему поступает около 300 миллионов запросов. Это огромный массив данных, который позволяет делать выводы об окружающем мире, в частности — о языке. Но извлечь нужную информацию не так уж просто, ведь не все запросы содержат очевидные ключевые слова. Приходится приложить фантазию. Так, чтобы узнать, какие виды бизнеса популярны в России, аналитики ориентировались не на специфические термины, а на простой человеческий вопрос «как открыть».
Не менее интересным стало исследование, посвященное трудностям правописания. Выяснилось, что далеко не все пользователи, желающие уточнить написание слова, обращались к поисковику с вопросом «Как пишется». Поэтому для анализа специалисты отбирали те, после которых шел переход на сайты, связанные с русским языком. Оказалось, что чаще всего пользователи интересуются правописанием «не» и «ни» с наречиями. На втором месте по популярности оказались проверяемые гласные в корне, на третьем — правописание приставок. Пунктуация интересовала пользователей значительно меньше, но и там есть свой лидер — вводные конструкции.
Еще одно неожиданное исследование от Яндекса — сравнение Толкового словаря живого великорусского языка Владимира Ивановича Даля с современными поисковыми запросами. Аналитики компании сделали вывод, что 40 процентов слов из словаря уже полностью вышли из употребления, а еще 20 перешли в разряд устаревших. В активном запасе осталось лишь около 30 процентов собранных Далем слов.
Не все исследования Яндекса привязаны к поисковой системе — специалисты анализируют и данные других сервисов. Так, Яндес.Дзен позволил составить список региональных слов, а Яндекс.Услуги дал материал для анализа языка отзывов.
Еще больше интересных исследований по ссылке.