Приблизительно год назад на конференции компании NetPromoter “Кибермаркетинг. Стратегия и тактика продвижения ресурса” автор данной заметки дискутировал о перспективах Гугла в Рунете с представителем одной из ведущих российских поисковых систем, и когда речь зашла о перспективах введения Google’ом поддержки морфологии русского языка, мнения разошлись. Я настаивал на том, что это произойдет в ближайшее же время, мой оппонент – на том, что это вряд ли случится вообще, а если и случится, то вряд ли будет иметь какое-то значение. Как рассудило время, оба мы оказались не правы: это все же произошло, хотя и не так быстро, как я предполагал, и, конечно же, далеко не с тем качеством.
Новость о том, что Google начал распознавать морфологию русского языка, прошла как-то незаметно. Пока не существует ни официальной, ни полуофициальной, ни даже какой-либо достоверной информации об этом, безусловно, важном событии – только несколько заметок в блогах или даже просто в комментариях блогов. Оптимизаторские форумы в большинстве своем молчат или недоумевают, но можно предвидеть, что намечается что-то очень серьезное. При введении запроса на русском языке в Google.ru (не пытайтесь делать это на других серверах, например, Google.com – там это не работает) возвращаются результаты, в которых отчетливо наблюдается факт того, что Google распознает различные падежи, числа, формы глаголов и другие лингвистические прелести. Так, при запросе "уехать в канада" в результатах поиска выделяются различные словоформы как слова "канада"– "канаду", "канаде", "канады", так и слова "уехать" – "уехал", "уехали" и т. д.
Грешным делом у нас сперва зародилось подозрение, что это всего лишь приспособленный под русский язык стемминг – технология, используемая для анализа английского языка. Но давайте для начала остановимся на различии в подходах к анализу различных языков.
Читать далее »