Вавилонские молчальники
Группе специалистов по системам компьютерного распознавания речи, которую возглавляет Таня Шульц (Tanja Schultz) из американского Университета Карнеги-Меллона (Carnegie Mellon University - CMU) в Питтсбурге (штат Пенсильвания), удалось создать устройство, которое любого человека может превратить в полиглота.
Вавилонская рыба
Устройство снабжено специальными электродами, которые прикладываются к лицу и шее человека, возжелавшего стать на время "медиумом", и способны выделять и интерпретировать особые последовательности электрических импульсов, посылаемых лицевым мускулам и языку во время произнесения слов. А дальше в дело вступает переводчик с синтезом речи. Эффект получается потрясающий - вроде дубляжа фильма на иностранный язык, только в жизни (в скобках позволим себе усомниться: ведь даже при том, что особым качеством текста современные электронные переводчики похвалиться не могут, а собственно распознавание речи находится еще в зачаточном состоянии, нужно помнить, что качественный дубляж подразумевает синхронизацию артикуляции героя на экране и произносимой за кадром иноязычной речи).
В принципе, уже существуют и кое-как работают системы трансляции (электронные переводчики-синхронисты), основанные на автоматическом программном распознавании речи, но они требуют, чтобы пользователь проговаривал всю фразу вслух. Это делает разговор двух разноязычных собеседников весьма некомфортным, поскольку говорящий должен сначала произнести фразу, а уж затем нажать на какую-нибудь кнопку, чтобы запустить процесс перевода. Новая же система обеспечивает более "естественный" режим обмена мыслями между двумя представителями разных стран.
В октябре 2005 года Шульц и ее коллега Алекс Вэйбель (Alex Waibel) уже демонстрировали первый автоматический переводчик, который мог улавливать электрические сигналы от лицевых мускулов и преобразовывать их в текст или синтетическую речь. Эта методика получила громкое название "распознавания мысленной речи" (sub-vocal speech recognition). Демонстрационная программа запускалась на ноутбуке, и таким образом удавалось перевести речь китайца на английский или испанский язык. Словарный запас электронного переводчика при этом ограничивался лишь сотней слов. И каждой из этих бесценных языковых единиц из поистине "людоедского" словаря компьютер должен был еще предварительно "обучаться" в индивидуальном порядке.
Теперь же группа разработала программу, способную без предварительного обучения работать с фактически неограниченным словарным запасом - ведь ее словарь состоит уже не из целых слов, а из отдельных фонем, из которых слова потом и складываются. Чтобы переводить с английского на другой язык, пользователь должен обучить систему различению всего 45 фонем, применяемых в реальном разговоре (на самом деле "фонемы", что используются в программах распознавания речи, отличаются от тех, что известны нам по курсу русского языка).
Программное обеспечение написано таким образом, что учитывает вероятность появления той или иной фонемы вслед за уже прозвучавшей - это помогает улучшить точность распознавания (при неясностях в произношении выбирается тот вариант, что в данном конкретном случае обладает наибольшим приоритетом). Конечно же, для реального повсеместного употребления такая система нуждается еще в долгом совершенствовании. Так, сталкиваясь с последовательностью слов, которая раньше еще не встречалась, компьютер делает правильный выбор лишь в 62 случаях из ста. Однако и это уже на современном этапе признается "очень существенным достижением". Как только удастся увеличить точность распознавания, разработчики планируют добавить в свою программу нормальную двухстороннюю поддержку испанского и немецкого языков.
Сама Таня Шульц считает, что в будущем сенсоры будут не приклеиваться к телу, а имплантироваться человеку под кожу. Тогда можно не только беспрепятственно общаться на иностранных языках, но и пользоваться "беззвучным телефоном", разговор по которому не слышен окружающим.
Babel Fish для устной речи
В настоящее время большинство пользователей весьма скептически относится к усилиям программистов, направленным на создание очередной "речевой игрушки", малоприспособленной для серьезных применений (об этом говорит "популярность" программ для распознавания речи), однако не нужно забывать, что в некоторых специфических случаях "распознавалки", как и электронные переводчики, все-таки незаменимы: это когда требуется хоть как-то понять смысл информации, поступающей на незнакомом языке, а обращаться к профессиональным переводчикам либо нет времени, либо просто нежелательно (допустим, это грозит нарушением конфиденциальности встречи). Возможно, новая система пригодится также и людям с какими-нибудь физическими недостатками...
В этом смысле новую разработку считают естественным продолжателем дела популярного сетевого сервиса Babel Fish. Эта служба была запущена в 1997 году компанией Alta Vista, а теперь она принадлежит поисковику Yahoo!, интегрировавшему переводчик в собственные продукты Search и Toolbar. Babel Fish работает с английским, испанским, французским, немецким, португальским, итальянским, русским, греческим, голландским, японским, а также упрощенным и традиционным китайским языками, позволяя переводить порции текста, насчитывающие 150 слов.
В России самыми популярными программами-переводчиками считаются ПРОМТ (соответствующий онлайновый сервис установлен на сайте www.translate.ru) и (похоже уже вымирающий) "Сократ".
Дела вавилонские
Первый серьезный прорыв в области речевых технологий удалось совершить в 1986 году в знаменитом американском Агентстве перспективных исследований Министерства обороны - DARPA (Defense Advanced Research Project Agency). В технологиях распознавания речи нашли применение так называемые "скрытые марковские модели" (Hidden Markov Model, HMM), основанные на свойствах вероятностной цепи Маркова. Андрей Андреевич Марков (старший, 1856-1922) - известный русский математик, специалист по теории чисел, теории вероятности и математическому анализу. В изученном им марковском процессе параметры системы зависят только от предыдущего состояния и "не помнят" остальной своей предыстории. Генерация последовательности определенных детерминированных символов происходит при переходах между некоторыми состояниями вероятностного характера. Имея последовательность символов, сгенерированную такой моделью, можно однозначно восстановить породившую ее последовательность состояний, поскольку системы, рассматриваемые в теории цепей Маркова, могут переходить из одного состояния в другое только во вполне определенные моменты времени.
В процессе цифровой обработки спектр речевого сигнала логарифмируется, подвергается обратному преобразованию Фурье, в результате чего отыскивается с десяток первых коэффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристике. Собственно, современные развитые коммерческие программы распознавания речи и различаются именно способом реализации механизма выбора из своей (или созданной пользователем) базы данных наиболее вероятного набора фонем (то есть минимально значимых элементов, из которых состоит слово), породивших конкретные измеренные векторы параметров.
Программы для диктовки текстов первоначально могли понимать только так называемую "раздельную" речь. То есть после каждого произнесенного слова требовалось сделать небольшую паузу. Такая манера говорить неестественна - в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограмму). Первые коммерческие программы, позволяющие в процессе диктовки текстов общей тематики - то есть при использовании обширного словаря - распознавать слитную речь, появились только в 1997 году. Разумеется, рабочий компьютерный словарь охватывает лишь небольшую часть всей лексики. В настоящее время практикуется подключение специализированных (медицинских, технических) словарей, вводимых в работу по желанию пользователя.
Впрочем, даже больше, чем обилие используемых лексем, на сложность распознавание влияет сама манера ведения разговора. Непринужденную беседу с относительно небольшим количеством используемых лексических единиц запротоколировать гораздо сложнее, чем размеренный диктант - проблема прежде всего в вариативности и наличии большого количества различных смысловых оттенков самых простейших конструкций. А короткие слова по сравнению с многосложными вообще распознаются с большим количеством ошибок. Серьезнейшая проблема - одно-двухбуквенные слова. Заставить компьютер различать английские 'a' и 'an' можно только обращаясь к контексту всей фразы. Расшифровка диктофонных записей, компьютерное стенографирование конференций, обсуждений - задача, к решению которой только приблизились создатели ПО для распознавания речи. По заявлениям разработчиков компаний Dragon Systems, IBM и Lernout & Hauspie, создавших свои варианты "распознавалок", компьютер (при непрерывной диктовке) способен правильно распознавать до 95% текста. А для комфортной работы требуется довести точность распознавания до 97%.
Разработка DARPA TransTac и ее предшественник под красноречивым названием Babylon ("Вавилон"), на которого ссылается на своей домашней странице Таня Шульц, своей целью, как нетрудно догадаться, ставит создание автоматического двухстороннего переводчика, пригодного для использования в боевых условиях. Перед "строителями Вавилона" стоит ряд проблем, связанных с распознаванием речи в шуме боя, грамматическим разбором и извлечением семантических конструкций, а также увеличением быстродействия автоматических переводчиков и повышением точности их срабатывания. Новая технология подразумевает перевод не каждого слова в отдельности, а смысла всей фразы. Для того, чтобы подобно человеку-слушателю в сомнительных случаях полностью восстановить фразу, необходимо понимать ее смысл, что доступно будет, возможно, только будущим системам, снабженным искусственным интеллектом. Различного рода ухищрениями, вроде ведения статистики словосочетаний или определения предпочтительной темы сообщения, удается повысить вероятность правильного распознавания, но вопрос о том, сколь далеко можно будет продвинуться в этом направлении, остается открытым. Чтобы осуществлять полноценный перевод, компьютер также должен понимать, а не просто распознавать речь, и в этом смысле решения проблем распознавания и перевода движутся параллельными курсами. Возможно очередной прорыв будет связан с ведением обширных баз данных и экспертных систем или все пойдет путем использовании искусственных нейронных сетей (применяемых в комбинации с моделями Маркова). Соответствующие исследования ведутся в разных странах, в том числе и в России.
Конечно же, все эти достижения компьютерной обработки речевых сигналов могут применяться не только для того, чтобы улучшить взаимопонимание между рядовыми представителями разных стран... Ряд европейских парламентариев до сих пор безуспешно добивается контроля над центром прослушивания Менвич-Хилл Агентства национальной безопасности (АНБ) США, что расположен в Англии, недалеко от Йоркшира. Первоначально центр, созданный при поддержке британской разведки MI 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Европарламента, осуществляет перехват всех европейских телефонных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим перенаправлением записи для проверки в американское отделение АНБ.
Источники:
It's the next best thing to a Babel fish - New Scientist
'Tower of Babel' translator made - BBC News
Language Translator Being Developed By U.S. Scientists - All Headline News
Device promises ability 'to speak in tongues' - InTheNews.co.uk
Ссылки:
Переводчик в кармане - Der Spiegel (перевод - "Профиль")
Языковой барьер скоро исчезнет - "Компьютерра"
Языковые барьеры разрушила наука - "Утро"
Наука поможет взять любой языковой барьер - Blotter
Длинные уши "старшего брата" - "Русская Германия"
Некоторые подробности о программах для распознавания речи есть в статье, опубликованной в журнале CTI #2-3 за 1999 год, перепечатка в сети - ПО для распознавания речи, какое-то обсуждение - здесь.
Статьи по теме
Ученые NASA начали компьютеризировать человека и создали первых телепатов
Специалисты NASA разработали компьютерную программу, которая может угадывать слова еще до того, как их произнесут, - по нервным импульсам в гортани и речевом аппарате. Результаты предварительных исследований показывают, что сенсорные датчики размером с пуговицу, подсоединенные по обеим сторонам кадыка, улавливая сигналы, исходящие от языка, горла и голосовых связок, действительно могут применяться как устройства для чтения мыслей. Ими снабдят астронавтов, отправляющихся к Марсу.
Мозговые волны управляют видеоигрой
Видеоигра, в которой управление осуществляется непосредственно человеческим мозгом, и при этом нет никакой потребности в проводах, мышках и клавиатурах, была продемонстрирована в лаборатории MIT Media Lab Europe в Дублине. "Геймплэй" этой игры, правда, пока весьма незамысловат, однако новинка может оказать неоценимую помощь при разработке интерфейсов, связывающих мозг человека прямо с компьютером. Возможно со временем геймеры так обленятся и ослабеют, что не смогут даже кнопки нажимать.
Клетки нашего мозга знают больше, чем мы сами
Мы часто делаем какой-нибудь совершенно неверный ход, хотя знание всех обстоятельств, позволяющее осуществить выбор правильного решения, уже, казалось бы, содержится в голове... Американские нейробиологи при взгляде на мозговую активность обезьян научились отгадывать, что в действительности знают животные.
Ученые подобрали ключи к скрытой памяти
Американские и голландские нейробиологи показали, что мозг способен хранить даже давно, казалось бы, забытые образы прошлого. Новая методика может быть положена в основу детекторов лжи нового поколения.
Компьютерные игры как рассадник садизма
Американские исследователи выявили механизмы работы головного мозга, которые могут отвечать за связь компьютерных игр в жанре "экшн" с проявлениями молодежной агрессии и раздражительности.
Ученые доказали, что бог есть любовь
В последних экспериментах в человеческом мозгу так и не удалось обнаружить какого-либо единого специализированного "места для бога", ответственного за мистические и религиозные переживания. Информацию о новом исследовании, противоречащем предыдущим экспериментам такого рода, комментирует директор петербургского Института мозга человека Святослав Медведев.
Электронный Брат или Брут?
Компьютер на вашем столе - это только помощник. Он позволяет посылать электронную почту, осуществлять "серфинг" по Сети и даже оплачивать счета. Но вскоре он может стать другом... очень близким другом. И даже Братом... Специалисты из Sandia Lab объединяют с помощью компьютера мозги отдельных людей в единую систему.
Нейробиологи показали, что мы живем среди галлюцинаций
Новые исследования британских ученых заставляют лишний раз усомниться в "абсолютно правдивых" показаниях каких-либо свидетелей преступлений и к тому же вообще способны серьезно пошатнуть веру в здравый смысл и психическое здоровье подавляющего большинства наших современников.
В Sandia Labs разработана "машина познания"
Новый тип "разумной" машины, которая может в самое ближайшее время существенно изменить процесс общения людей с компьютерами, разработан в национальной лаборатории Министерства энергетики США Sandia Labs. Речь идет ни много ни мало как о создании "синтетического человека", то есть пресловутого искусственного интеллекта.
Новые машины превратят наши дома в мини-фабрики
Суперпринтеры- репликаторы, которые способны "напечатать" самые разнообразные применяемые в повседневном быту вещи - от чашки до кларнета, - причем очень быстро и дешево, могут появиться едва ли не в каждом нашем доме в самые ближайшие годы. Изготовление многих нужных вещей в домашних условиях позволило бы уменьшить их стоимость до нескольких фунтов, при этом можно было бы забыть про огромные фабрики и многочисленные магазины.
И никакого распознавания речи
Технологии, довольно похрюкивая, топают вперед семимильными шагами (меня никогда не возьмут писать пресс-релизы - я думаю, это скорее хорошо), а мы - вприпрыжку за ними - за технологиями, я хочу сказать, и только головой лихорадочно вертим, потому что топают они в какую-то подозрительную сторону, мы тут еще не были, и вот эта тьма за углом мне, например, категорически не нравится.
Против террористов выступят зомбированные крысы
Американские ученые превратили обычных крыс в превосходных ищеек, способных находить людей в развалинах зданий и вынюхивать спрятанную взрывчатку. Они вживили в головной мозг подопытных животных десятки миниатюрных стальных электродов. Такие электроды были введены в три участка: обонятельную и двигательную области коры больших полушарий, а также центр удовольствия, который расположен под корой, в гипоталамусе.
Наномандала принесет в мир нанотехнологий буддистское счастье
Организованное взаимодействие отдельных атомов в нанотехнологии имеет некоторое сходство с картинами, возникающими под руками трудолюбивых буддистских монахов, создающих из цветного песка в ходе специальных таинств так называемые песочные мандалы. Цели и методы создания такой мандалы в восточных и западных культурах, конечно, довольно сильно различаются.
Порнографическая связь (фоторепортаж с выставки "Связь - Экспокомм - 2003")
Видимо, можно рассматривать "Связь" как своего рода типовую модель современной российской выставки, посвященной технологиям. Воздушные шарики, конкурсы, девушки с минимумом одежды, стриптиз, рисунки на щеках. Из оригинальной хохмы и желания как-то выделиться рождается уродливый неповоротливый монстр.
Мой сверхсерьезный хит-парад
Да, он субъективен. Да, число 13 - по меньшей мере странно, а некоторым и вовсе покажется зловещим (мне, например, нравится). Да, ни слова о чипах, ни слова о мониторах, и о нанотехнологиях вместе с Segway, простите, тоже ни слова.
Эльфийский плащ стал реальностью
Американские исследователи сумели продемонстрировать вполне работоспособный образец покрытия, делающего невидимым все, что под ним скрыто. Работает это пока, правда, только в микроволновом диапазоне, и невооруженным взглядом эффект невидимости наблюдать не удастся.
Обезьянам и младенцам знакомо понятие абстрактного числа
Даже семимесячные младенцы, которые еще не научились говорить, уже обладают понятием абстрактного числа. Эти "младенческие математические способности" удалось выявить благодаря установлению однозначного соответствия между числом человеческих голосов, услышанных маленькими испытуемыми, и количеством говорящих лиц, которые они ожидают вслед за этим увидеть.
Подтверждена реальность феномена отключения сознания
Израильские нейробиологи изучили картины работы головного мозга человека в тот момент, когда он "перестает быть человеком". Подобные случаи происходят тогда, когда мы с головой уходим в какую-нибудь необычайно интересную книгу, фильм, концентрируемся на важной проблеме, поглощены азартом игры или занимаемся любовью.
Счастье от ума
Удалось продемонстрировать, что у людей с более высоким показателем интеллекта симптомы шизофрении сказываются в меньшей степени, а у мозга таких счастливцев может даже сохраняться способность функционировать в обычном режиме.
Нагота ослепляет
В ходе не вполне приличных экспериментов установлено, что человеку труднее точно воспринимать окружающие объекты, если непосредственно перед этим ему показать голую женщину.
Наука поможет создавать поэмы
Нейрофизиологи выявили ту область человеческого мозга, которая позволяет нам описывать события и явления окружающего мира посредством образной речи. Возможно в будущем можно будет активировать способность к метафоризации и тем самым увеличить потенциал творческого мышления.
Ученые придумали, как глупышек превращать в интеллектуалок
Сотрудники Пенсильванского университета доказали, что даже небольшой сдвиг концентрации железа в плазме крови женщин за нижнюю границу физиологической нормы негативно сказывается на памяти и интеллектуальном потенциале. При этом они выяснили, что c подобным расстройством вполне можно справиться с помощью приема железосодержащих препаратов.
Скрытая красота в человеке выявлена экспериментально
"Зорко одно лишь сердце. Самого главного глазами не увидишь". Чтобы это положение превратилось в непререкаемый научный факт, было проведено сразу три исследования по изучению влияния "нефизических" черт на восприятие людьми физической привлекательности своих партнеров.
Изучены механизмы памяти, ограничивающие возможности человеческого интеллекта
Американские нейрофизиологи выяснили, что сведения о предметах и событиях, которые человек способен единомоментно удерживать в памяти, локализованы в очень небольшой области коры головного мозга. Больше всего исследователей поразила малость этого участка, который оказался не больше однокопеечной монеты.
Новое открытие позволит создать лекарства, улучшающие память и интеллектуальные способности
Сотрудники Юго-Западного университета в Техасе уверены, что им удалось выявить белок, играющий ключевую роль в процессах обучения и запоминания. Полученные с помощью методов генной инженерии мыши, нервная система которых не способна вырабатывать этот протеин, глупы до идиотизма (разумеется, по мышиным меркам).
Человеческий мозг воспринимает наши тени как физическое продолжение тел
Мозг человека, как показывает новое исследование, проведенное английскими, итальянскими и немецкими нейробиологами, инстинктивно рассматривает наши тени как продолжение наших тел.
Спящие коты с широко закрытыми глазами: сон разума рождает реальность
Склонность людей во всем окружающем видеть то, что они заранее ожидают увидеть, может быть вызвана характерной мозговой деятельностью, в результате которой постоянно генерируются некие виртуальные предощущения. Такой вывод был сделан израильскими учеными на основе изучения спящих котов.
Ученые раскрыли тайну "синдрома Пруста"
Связь запахов и вкусовых ощущений с прихотливой работой памяти была всегда очевидна для наиболее изощренных писателей прошлого и для наших современников. Эффект обретения воспоминаний через запахи получил название "феномен Пруста" и послужил источником бесконечных вариаций у самых разных авторов. Теперь возглавляемая британцами группа нейробиологов подобрала этому явлению соответствующее научное объяснение.
Найдена связь между умением рассказывать истории и математическими способностями
Строгое математическое мышление и завиральное сочинительство обычно воспринимаются нами как совершенно различные таланты, редко сочетающиеся в одном и том же человеке, присущие, скорее, каким-то личностям-антиподам. Однако новое исследование из области психологии дошкольников свидетельствует о том, что таланты хорошего рассказчика, проявившиеся в раннем детском возрасте, позволяют спрогнозировать появление у ребенка через пару лет и ярких математических способностей.
Мужчины и женщины действительно думают по-разному
Мужчины и женщины думают по-разному. По крайней мере, от того, какого человек пола, существенно зависит внутреннее устройство и функционирование головного мозга. В новом исследовании показано, что мужчины думают, больше полагаясь на серое вещество (как в свое время совершенно правильно заметил великий сыщик Эркюль Пуаро), а вот женщины мыслят в основном с помощью вещества белого.
Ученые узнали, почему месть сладостна
Многие из нас на себе ощущали справедливость выражения "сладкая месть". Месть издавна служила едва ли не главным действующим лицом многих литературных произведений - фактором, как побуждающим героя совершать нерациональные поступки, так и автора - писать свои новые романы и поэмы (стоит вспомнить только "Графа Монте-Кристо" Дюма или "Ад" Данте), однако только теперь ученые поняли, почему все так происходит.
"Перепутанные" слепцы раскрыли тайну синестезии
Типичный пример проявления синестезии - "цветной слух" и звуковые переживания при восприятии цвета. В той или иной форме все это встречаются достаточно часто, однако людей, по-настоящему убежденных в том, что "пятерка - именно зеленая", а "понедельник - серый", не так уж и много. Теперь результаты обследования шестерых слепых человек с "синестетическими" способностями готовы разрушить сложившуюся уже было теорию.
Вагон-читальня. MobiPocket, Starbuck и Haali Reader
Самые известные программы для чтения на MS PocketPC сторонних разработчиков - это MobiPocket и Starbuck. Недавно появился еще Haali Reader. Полторы сотни килобайт пожертвовать на него явно стоит.
РазWAPлощение
Если ни один из существующих WAP-сайтов не приглянулся, можно создать свой собственный, правильный такой WAP-сайтик.
Кусочек Интернета в кармане
Количество и масштабность собственно WAP-сайтов отнюдь не рождает восторгов даже в англоязычном секторе Сети, а уж имеющих отношение к российской действительности - вообще с гулькин нос.
А теперь мы починим то, что вам продали
Microsoft выступал главным спонсором International eBook Awards Foundation, и после его отказа продолжить финансирование к концу апреля IEBAF просто самораспускается, а из программы Франкфуртской книжной ярмарки вычеркнут один пункт.
Племя без названий для чисел не умеет считать
Изучение примитивного южноамериканского племени способно вновь разжечь жаркие дискуссии по поводу того, могут ли люди считать, если их язык не содержит названий для чисел. С помощью несложных тестов выяснилось, что математические способности взрослых членов этого племени уступают аналогичным способностям американских и европейских младенцев или даже некоторых животных.
Почему бесы и ангелы говорят с нами мужскими голосами
Британские ученые считают, что им удалось ответить на вопрос, почему большинство людей, слышащих потусторонние голоса во время слуховых галлюцинаций, твердо уверены в том, что с ними говорили мужским голосом.
Загадочная рукопись свидетельствует о том, что Архимед знал комбинаторику
Две тысячи двести лет назад великий древнегреческий математик Архимед написал трактат под названием "Стомахион". В отличие от других текстов, принадлежащих перу Архимеда, содержание этого трактата и даже смысл самого названия в течение столетий были покрыты мраком. Теперь историки математики из Стэнфорда, разбиравшие старинный палимпсест, заявили, что способны все-таки пролить некоторый свет на тайну того, о чем шла речь в этом трактате.