Денис Филиппов, «Яндекс»: «В ближайшие три-пять лет вы начнете разговаривать со своим автомобилем»
Денис Филиппов, занимающийся в "Яндексе" речевыми технологиями, рассказал "Медузе" о технологиях распознавания речи, диалогах таксистов с навигатором и о том, почему клавиатуры будут жить вечно.
Самая сложная задача сейчас в распознавании речи — отделить основного спикера от фоновых. Эта задача называется «вечеринка с коктейлем»: когда много народу, все что-то говорят, слышны обрывки фраз, гремит музыка на фоне, и распознаванию речи надо догадаться, кто же здесь основной спикер, чью речь ей нужно распознать.
Самое важное в голосовой биометрии — решение задач идентификации (узнать человека из многих по голосу) и аутентификации (подтвердить с помощью голоса, что это именно тот человек, за которого он себя выдает). Для решения этих задач технология тренируется на так называемых голосовых слепках. Зная, что в этой записи говорил Денис Филиппов, мы создаем из нее некий уникальный слепок голоса, уникальную последовательность чисел, которые получены из характеристик моего голоса. И дальше, если есть какая-то запись речи человека, то мы голос в ней тоже представляем в виде последовательности чисел по тому же алгоритму, и если эта последовательность определенным образом совпадает с голосовым слепком, мы говорим, что с такой-то вероятностью в этой записи тоже был голос Дениса Филиппова.
На самом деле система уже сейчас умеет несколько больше, чем человек. Взять тех же таксистов. Иногда я не понимаю, что он говорит, а навигатор понимает. То есть я сижу и просто: «Что это? Почему он его понял? Даже я его не понял».
Почему клавиатуры не умрут? Из-за приватности. Вы не будете в лифте голосом диктовать приватную смску, даже я в это не верю. Это очевидно. В сценариях, где есть прайваси, всегда останется клавиатура или свайпы по экрану. Но не голос.
По-хорошему, в ближайшие три-пять лет вы начнете разговаривать со своим автомобилем: «Поехали на работу», «Почитай основные новости и потом поставь что-нибудь послушать поживее», «Сделай похолоднее». Не стандартные сейчас автомобильные интерфейсы — искать там джойстики, крутить, выбирать на дисплее из кучи пунктов меню, искать нужные кнопки на панели. Это все будет голосом, здесь даже сомневаться не нужно. «Завези меня на заправку». Или даже не так. Вам машина будет говорить: «Слушай, мы сейчас заедем на заправку, а то до дома уже не хватит топлива».
7 комментариев | Подписаться на комментарии | Комментировать
Источник: Roem.ru
Похожие новости
- А при чём тут законы о ПДн? (или «Как 152-ФЗ зацементировал новую реальность»)
- L×Box: диагностика per-app трафика, посмотрим кто куда ходит
- [Перевод] Как Mozilla нашли 271 уязвимость в Firefox с помощью Claude Mythos
- Как НЕ провалить аудит смарт-контрактов?
- [Перевод] Вирусы-вымогатели в 2026 году: DDoS в нагрузку, вербовка инсайдеров и подрядчики «вслепую»
- ПланФакт: НДС 5% или 22%: что выгоднее бизнесу с доходом от 20 млн ₽ в год
- Как я спас компьютеры миллионов юзеров Winget. История одного форка «Запрета»
- Прозрачный прокси-шлюз на роутере, часть 2: шаблонный конфиг, LuCI-страница и обход DPI для UDP-голоса
- Spark_news: В России женщины чаще попадают под сокращения из-за внедрения ИИ
- Убийца HTTP: Как HTTPS продали как «защиту», но на самом деле перекроили рекламный рынок