Почему Телеграм такой неграмотный

Январь 26th, 2020

Первого января 2020 года я написал радостную реплику: «Телеграм обновил spell checker — теперь ссылки на природную неграмотность не принимаются!.. Правда качество словаря пока оставляет желать лучшего: даже слово Телеграм он предлагает заменить на Телеграмм!!! Видимо, Дуров не нашёл ничего лучше, чем использовать старый словарь, который делал ещё Ашманов %)»

Сообщение это я запостил и в нашем канале в Телеграме, и в ФСБуке, где на него спустя три недели откликнулся сам Игорь Ашманов. И со свойственной ему эмоциональностью поделился не только своими впечатлениями, но и небезынтересными фактами и соображениями.

Привожу здесь наш диалог полностью и без малейших изменений:

Игорь Ашманов:

— Случайно нашёл этот пост спустя три недели. Какая чудовищная бредятина, Виктор. В лучших традициях ЕЖЕ.

1. Я не “использовал” никакой словарь (кроме печатного “Грамматического словаря”), я его сделал своими руками.

1а. Спелчекер - это НЕ словарь.

2. Словарь и спелчекер этот не старый, он обновляется каждый день.

3. Дуров не может его “использовать”, кто ж ему даст.

4. Он специально вызывал меня в Питер лет пять назад, долго - 5 часов, по кругу - уговаривал отдать ему ОРФО, но только даром, без упоминания и в исходниках. Естественно, ничего не получил. Потому что непонятно, зачем мне-то это было нужно.

5. Поэтому он, возможно, взял какую-то опенсорсную дрянь. И не обновлял её, как видно из случая с “телеграмм”.

Виктор Корб:

— Игорь Станиславович, удивлён вашим внезапным появлением тут :-) Вы восхищаете своей стабильностью.

Легко видеть, что я в точности написал, что вы сделали тот самый старый и самый первый словарь для автоматической проверки грамотности в Интернете. И, да, из моей реплики никак не следует то, что я мог перепутать словарь и спелчекер. Так что в первом пункте вы привычно спорите с воображаемым оппонентом.

За уточнения по остальным пунктам — спасибо. Это важные уточнения.

P.S. В ваших актуальных словарях таки тоже проскакивают смешные анахронизмы, то бишь словечки, либо отстающие от актуального состояния живаго великорусскаго, либо несущие на себе след лингвистического волюнтаризма. Но это тема отдельной содержательной дискуссии.

Игорь Ашманов:

— Они проскакивают, скорее всего, в словаре Microsoft Office, который застыл в развитии в 2011 году, когда Информатик продал ему словарь ОРФО в исходнике. С тех пор пути ОРФО и Офиса разошлись.

Кроме того, в спеллинг-чекере собственно словарём генерируется меньше половины всех словоформ, остальное - довольно сложные правила и алгоритмы генерации словоизменения и словообразования на лету.

Эти правила сейчас в Микрософте делают индусы, не знающие русского (возможно, там и есть русские лингвисты типа на полставки, осторожно предположу я, но управляют процессом индусы).

Надо понимать, что ВСЕ спелчекеры для русского сделаны на основе Грамматического словаря А.А. Зализняка. Только некоторые сделаны хорошо, как оРФО, а некоторые на отвяжись (как опенсорсные помойки вроде Дуровской).

А Грамматический словарь - это по преимуществу лексика 1950 и начала 1960 годов. Мне в 1987-1994 годах пришлось его пополнить минимум на 30-40% в общеязыковой части и долить ещё специальных терминов.

Машинное обучение тут не помогает.

Лингвистический волюнтаризм - это уже претензия не к Зализняку, а ко мне. Да, в некоторых неясных случаях, не охваченных ни Зализняком, ни Академическим словарём, ни словарём “Слитно или раздельно”, мне пришлось принимать решение, руководствуясь своим чувством языка и революционным правосознанием.

Тут нужно сказать, что создание массового продукта - всегда продукт волюнтаризма.
Например, что должно быть состоянием некоей функции в приложении на смартфоне или ПО на ноутбуке по дефолту - “включено” или “выключено”? То, что удобно 80% аудитории или 20%?

Очевидно, удобством 20% жертвуют - они изменят настройку, если неудобно.

Увы, в прикладной лингвистике таких компромиссов много.

Виктор Корб:

— Игорь, ещё раз премного благодарен за столь обстоятельный комментарий. Он и ещё раз подтвердил моё исходное предположение, и добавил точек над i :-)

Не возражаете, если я оформлю этот наш диалог отдельной заметкой, аккуратно процитировав обоих участников?

Игорь Ашманов:

— Как угодно. По возможности не надо резать по цитатам и оформлять дополнительными комментариями, на которые цитируемому оппоненту уже нельзя возразить.

Виктор Корб:

— Вообще не планировал ничего резать — лишь предварить аннотацией, вводящей в контекст. Интересно было бы конечно получить ещё и комментарий от команды Телеграма, но пока не получилось :-(

Comments are closed.

Поблагодарите автора


Поделитесь с друзьями