[identity profile] josefinebaker.livejournal.com posting in [community profile] useful_faq
Надеюсь, в сообществе найдутся специалисты по следующему вопросу:
Можно ли представить звук в графическом виде? Я имею в виду не тембр, высоту, длительность и громкость, а именно звуки языка: ы, с, р и так далее. Представьте себе: человек отрабатывает прозношение, у него есть звуковые образцы, он пытается к ним приблизиться. Он может оценить степень приближения своего произношения к образцу, но только субьективно. А если добавить графическое отображение образца и того, что произносит обучающийся? Графики совпадают - звук хорошо произнесен, не совпадают совсем - тренируйся.

Date: 2014-07-02 09:15 am (UTC)
From: [identity profile] blood-again.livejournal.com
Да, можно.
Но я не настоящий сварщик. Читал о компьютерных программах обучения для глухих и плохо слышащих. В их числе есть и описанные Вами, с двумя графиками.

Date: 2014-07-02 10:03 am (UTC)
From: [identity profile] dims12.livejournal.com
Пока что это получается плохо.

Image

Просто график звуковой волны не воспринимается на глаз (верхний график).

Лучше воспринимается спектрограмма (средний график).

Самое лучшее, что придумано, это MFCC, нижний график.

Почитать можно здесь: http://en.wikipedia.org/wiki/Mel-frequency_cepstrum

Date: 2014-07-02 11:16 am (UTC)
From: [identity profile] egor-13.livejournal.com
Еще есть такая разновидность спектограмм, как сонограммы... что-то непросто в сети найти именно такие, которые я имею в виду, но вот на рис. 4 здесь более-менее:
http://www.bnti.ru/showart.asp?aid=496&lvl=04.03.
По идее тоже должно быть неплохо даже в монохроме. Голоса птиц ими в целях сравнения аудиозаписей очень эффективно визуализуются.

Date: 2014-07-02 01:34 pm (UTC)
From: [identity profile] egor-13.livejournal.com
Мягкий Л от твердого или Т от Ф как раз отлично должны отличаться по частотно-временной характеристике при разгоне трека на хорошем сонографе. Но у птиц обычно тона более чистые, поэтому для разбора человеческой речи нужно более высокое разрешение по частоте (по оси Y).

Date: 2014-07-02 02:03 pm (UTC)
From: [identity profile] karpion.livejournal.com
Я думаю, для начала программа должна "понять", какине звуки человек произносит правильно. Это чтобы настроиться на его личные особенности. Потом программа должна прикинуть, как в исполнении такого человека должны звучать иностранные слова - и сравнивать реальность с вычисленнвым идеалом.

Date: 2014-07-02 08:29 pm (UTC)
From: [identity profile] ex-ergil.livejournal.com
Посмотрите как работает Rosetta Stone. По умолчанию она просто сравнивает ваше произношение с тем что у нее есть и заставляет повторять слово пока не признает, что говорите правильно, при желании можно сказать показать спектрограмму и будет видно как она у эталона и как у вас получается.

Date: 2014-07-02 09:24 pm (UTC)
From: [identity profile] ex-ergil.livejournal.com
Да не за что.
Просто там это реализовано, но не показывается по умолчанию.

Date: 2014-07-02 09:19 pm (UTC)
From: [identity profile] horen.livejournal.com
Кто-то проводил эксперимент с дымом: наполняли комнату, человек произносил звуки, камера фиксировала. Оказалось: в дыму возле рта человека образовывось начертание буквы, обозначающей этот звук.

Date: 2014-07-02 09:49 pm (UTC)
From: [identity profile] ex-ergil.livejournal.com
Буквы какого алфавита? :-D

Date: 2014-07-03 08:47 am (UTC)
From: [identity profile] horen.livejournal.com
Вроде русского.