Нейроинженерия переводит мысли в речь
"Перевод мысли в речь - это прорыв, который использует мощь синтезаторов речи и искусственного интеллекта, изменяя связь компьютеров с мозгом"
Нейротехнологии на службе человечества
Впервые ученые-инженеры из Колумбии создали систему, которая переводит мысли в понятную, узнаваемую речь. Осуществляя мониторинг мозговой деятельностя, технология может реконструировать слова, которые человек слышит с беспрецедентной ясностью. Этот прорыв, который использует мощь синтезаторов речи и искусственного интеллекта, может привести к новым способам взаимодействия компьютеров с мозгом. Это также закладывает основу для того, чтобы помочь людям, которые не могут говорить, например, живущим с амиотрофическим латеральным склерозом (БАС) или выздоравливающим после инсульта, восстановить их способность общаться с внешним миром.
Эти результаты были опубликованы сегодня в Scientific Reports.
«Наши голоса помогают осуществлять связать нас с нашими друзьями, семьей и окружающим миром, поэтому потеря голоса из-за травмы или болезни настолько разрушительна», – сказала доктор наук Нима Месгарани – старший автор и главный исследователь в Columbia University’s Mortimer B. Zuckerman Mind Brain Behavior Institute (Институте психического поведения Мортимера Б. Цукермана при Колумбийском университете). «С сегодняшним исследованием у нас есть потенциальный способ восстановить эту силу. Мы показали, что при правильной технологии мысли этих людей могут быть расшифрованы и понятны любому слушателю».
Десятилетия исследований показали, что когда люди говорят или даже воображают, то в их мозгу появляются характерные шаблоны активности. Четкая (но узнаваемая) схема сигналов также возникает, когда мы слушаем, как кто-то говорит, или воображаем, что слушаем. Эксперты, пытаясь записать и расшифровать эти паттерны, видят недалекое будущее, в котором мысли не будут всегда оставаться скрытыми внутри мозга, а вместо этого могут быть переведены в устную речь по вашему желанию.
Но совершить этот прорыв оказалось непросто. Ранние попытки доктора Месгарани и других ученых расшифровать сигналы мозга были сосредоточены на простых компьютерных моделях, которые анализировали спектрограммы, являющиеся визуальным представлением звуковых частот.
Но из-за того, что этот подход не дал ничего похожего на понятную речь, команда доктора Месгарани обратилась к вокодеру – компьютерному алгоритму, который может синтезировать речь после обучения по записям разговоров людей.
«Это та же технология, которая используется Amazon Echo и Apple Siri для устного ответа на наши вопросы», – объясняет доктор Месгарани, которая также является профессором по электротехнике в Columbia’s Fu Foundation School of Engineering and Applied Science (Колумбийской школе инженерии и прикладной науки).
Чтобы научить вокодер интерпретировать мозговую деятельность, доктор Месгарани объединилась с Ашешем Динеш Мехта – доктором медицины, доктором наук и нейрохирургом в Институте нейробиологии Northwell Health Physician Partners и соавтором сегодняшней статьи. Доктор Мехта лечит пациентов с эпилепсией, некоторым из которых нужны регулярные операции.
«Работая с доктором Мехтой, мы попросили пациентов, страдающих эпилепсией, уже перенесших операцию на головном мозге, выслушивать предложения разных людей, в то время как мы измерили закономерности мозговой активности», – сказала доктор Месгарани. «Эти нейронные паттерны тренировали вокодер».
Затем исследователи попросили тех же пациентов прослушать цифры от 0 до 9 через динамики, во время записи сигналов мозга, которые затем можно было бы пропустить через вокодер. Звук, производимый вокодером в ответ на эти сигналы, анализировался и очищался с помощью нейронных сетей, типа искусственного интеллекта, который имитирует структуру нейронов в биологическом мозге.
Конечным результатом стал роботизированный голос, повторяющий последовательность чисел. Чтобы проверить точность записи, доктор Месгарани и его команда поручили людям прослушать запись и сообщить, что они услышали.
«Мы обнаружили, что люди могут понимать и повторять звуки примерно в 75% случаев, что значительно превосходит любые предыдущие попытки», – сказала доктор Месгарани. Улучшение разборчивости было особенно очевидным при сравнении новых записей с более ранними попытками, основанными на спектрограмме. «Чувствительный вокодер и мощные нейронные сети с удивительной точностью выдавали звуки, которые пациенты первоначально слушали».
Доктор Месгарани и его команда далее планируют протестировать более сложные слова и предложения, и они хотят выполнить те же тесты для сигналов мозга, излучаемых, когда человек говорит или воображает, что говорит. В конечном счете они надеются, что их система может быть частью имплантата, подобного тем, которые носят некоторые пациенты с эпилепсией, которые переводят мысли владельца непосредственно в слова.
«В этом сценарии, если владелец думает: «Мне нужен стакан воды», наша система может воспринимать сигналы мозга, генерируемые этой мыслью, и превращать их в синтезированную словесную речь», – сказала доктор Месгарани. «Это изменило бы правила игры. Это дало бы любому, кто потерял способность говорить, из-за травмы или болезни, новый шанс коммуникации с окружающим миром».
Источник:
Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani.
Towards reconstructing intelligible speech from the human auditory cortex.
Scientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z