Ученые из Колумбийского университета (США) считали сигналы мозговой активности человека, слушающего чтецов, а затем с помощью нейросети и вокодера перевели их в речь. Новая технология позволила воспроизвести «перевести» мозговую активность слушающего в речь, понятную на 75%.
В некоторых случаях, например, вследствие бокового амиотрофического склероза, от которого страдал Стивен Хокинг, человек теряет дар речи. Для того, чтобы помочь пациентам хотя бы отчасти восстановить способность общаться с окружающими, можно использовать сигналы его слуховой коры. Когда мы говорим, наши нейроны работают в определенном порядке, и между паттерном их активности и звуками, которые мы издаем, есть явная связь. Это значит, что по этим паттернам можно определить, что человек намерен сказать.
Ученые использовали вокодер — старую технологию, которая умеет переводить электрические сигналы в человеческую речь. Раньше ее использовали для того, чтобы экономнее передавать сигналы речи по радио, а теперь в синтезаторах речи, например в Siri и Google Assistant.
Авторы исследования объединили вокодер и нейросеть. Для эксперимента использовали пятерых подопытных, которые в то время проходили лечение от эпилепсии. Всем пятерым в слуховую кору головного мозга вживили электроды, которые считывали электроэнцефалограмму. Сигналы для обучения нейросети записывались в момент, когда четыре женщины читали пациентам рассказы в течение получаса. Затем пациенты прослушали двух других женщин, которые в течение 40 секунд произносили цифры от 0 до 9, а вокодер воспроизводил то, что слышали пациенты. Сигнал вокодер, чтобы повысить его четкость, также корректировала нейросеть, которая была обучена на речевом корпусе Wall Street Journal l, составленном в рамках программы DARPA и состоящем из 80 часов речи.
Результат проверили на 11 добровольцах с нормальным слухом. Они слушали цифры, произнесенные через вокодер и оценивали качество звука по пятибалльной шкале.
В среднем, оценка составила 75% — контролерам удалось различить цифры и даже определить пол говорящего.
Авторы статьи отмечают, что снимали данные не с речевой, а со слуховой коры, то есть, озвучивали не то, что хотел сказать, а то что слышал пациент. Тем не менее, как пишут они в заключении, подход делает шаг к следующему поколению систем взаимодействия человека с компьютером и более естественным каналам связи для пациентов, страдающих от паралича.