Menu

Створена камера, здатна записувати голос людини без мікрофона

Создана камера, способная записывать голос человека без микрофона


У світі існують різні програми, що широко використовуються всілякими спецслужбами та правоохоронними органами, які по руху губ, щелеп і м'язів обличчя людини можуть розпізнати ті слова, які вимовляє цей чоловік. Найбільш складні програми можуть розпізнати мова людини на різних мовах, але в будь-якому випадку, комп'ютер може з деякою часткою ймовірності правильно відтворити тільки слова, чистий текст, який не включає в себе ніяких інтонацій і емоційної складової.

Але, використовуючи високошвидкісну камеру, що робить тисячі кадрів в секунду, дослідникам з університету Васеда (Waseda University in Tokyo) в Токіо вдалося зробити запис навіть найдрібніших коливань поверхні шкіри особи і шиї людини, якими супроводжуються звуки, які виходять від голосових зв'язок людини. Після зйомки спеціалізована комп'ютерна програма, заснована на складних алгоритмах, перетворила зняті коливання шкіри у відповідні їм звукові коливання, голос людини.

"З допомогою нашої технології ми можемо отримати не тільки слова, вимовлені людиною, але і його голос з інтонаціями, що несуть емоційну складову мови" - розповів Ясухіро Оикоа (Yasuhiro Oikawa), керівник наукової групи, виступаючи на Міжнародному конгресі по акустиці (International Congress on Acoustics), що відбувся 3 червня в Токіо.

Використовуючи технологію високошвидкісної зйомки, дослідники зробили запис того, як два добровільних учасника вимовляли одне і те ж слово на японській мові. Камера знімала з частотою 10 тисяч кадрів в секунду, для порівняння, у звичайному відео використовується зйомка з частотою 24 кадру в секунду, а особливо якісне відео знімається з частотою 60-80 кадрів в секунду. Крім цього, голос добровольців записувався з допомогою звичайного мікрофона, а коливання їх шкіри обличчя та горла реєструвалися за допомогою датчиків-виброметров.

Після того, як комп'ютерна програми видала розраховану їй на основі візуальних даних послідовність звукових коливань, дослідники порівняли їх з реальними даними, записаними за допомогою мікрофона і виброметров. Виявилося, що розраховані звуки збігалися з реальними звуками, розходячись лише в незначних деталях. Програючи одержаний звуковий файл, дослідники змогли досить чітко розпізнати окремі вимовні слова і пізнати голосові інтонації.

Технологія реконструкції мови і голосу людини за допомогою високошвидкісної камери знаходиться ще в експериментальній стадії, тільки доводить працездатність самої ідеї. До кінця цього року дослідники планують довести цю технологію до рівня, коли вона зможе працювати в режимі реального часу, розпізнаючи і відтворюючи не тільки короткі слова, фрази, а й досить довгі речення. Для цього дослідники збираються серйозно переробити програмне забезпечення системи і реалізувати функцію аналізу коливань поверхні шкіри деяких інших частин обличчя людини, наприклад, щік, що надасть у їх розпорядження більшу кількість інформації, що дозволяє більш якісно реконструювати мова, голос і інтонації людини.

|