Антон Оруш

Говорещи машини

Говорещи машини

Говорещи машини


Хората са се удивлявали винаги на уме­нието си да говорят, феноменът човешки език отличава Хомо сапиенс от всички останали живи същества. И затова съ­общенията за хора, които упорито се опитват да направят от кучетата си па­пагали, винаги предизвикват усмивка. Съ­всем други са постиженията на учените, влагащи своите усилия в създаването на говорещи машини, което е една от веков­ните мечти на човечеството.

През 1978 г. група японски специалисти заявяват, че 80-те го­дини ще предизвикат истинска революция в развитието на диалога „човек—машина„, като той постепенно ще премине към ес­тествения човешки говор. Специализира­ните издания по електроника и изчисли­телна техника, пък и не само те, помес­тват множество съобщения за нови и но­ви устройства за синтез на човешка реч с почти естествено звучене. Сензацията постепенно отстъпва място на все по-задълбочени и сериозни разработки. Сфера­та на приложение е огромна — от авто­матични електронни телефонни централи и големи информационни центрове до устройства за четене, предназначени за слепи хора, и говорещи джобни калкула­тори. Само няколко години преди това съз­даването на подобни устройства изглежда излишен лукс. На какво се дължат бързите промени в тази област? Синтезаторите на реч придобиват актуалност вследствие стремителното навлизане на електронноизчислителната техника във всички сфери на човешкия живот. Тяхното създаване става възможно благодарение на изключителните функционални възмож­ности и бързодействие на т.н. големи интегрални схеми. Усъвършенстването на машините обаче прибавя нови затруднения при диалога с тях. Необхо­дими са например огромен брой оператори със специална подготовка, способни да влизат в „интелектуален“ контакт с компютрите. Днес човешките ръце и очи се нуждаят и от помощта на речта при въвеждането и извеждането на данни от гладните за информация машини.

За да може да се осъществи подобен диалог, необходима е динамична адаптация на машината към човека. Той трябва да я научи да разпознава неговата естествена реч и сама да синтезира речеви сигнали на понятен език.. Засега от говорещата машина все още не се изисква да придава на своите съобщения интонационни отте­нъци, емоционална окраска, изменящ се ритъм. Дори на лаконично и сухо съобще­ние човекът реагира по-бързо и по-точно, отколкото при който и да е от остана­лите неречеви сигнали.

Малко лингвистика

Както е известно, езикът се описва с краен брой различими и взаимно изключ­ващи се звуци. Тези основни лингвистични елементи се наричат фонеми и са харак­терни за всеки език. Отделната фонема притежава специфични акустични харак­теристики: тонова област, формантно разпределение, амплитудни характерис­тики и др. Всеки произнася отделните фонеми по различен начин и ние все пак се разбираме. Например, фонемата „а“, про­изнесена от мъж, жена или дете звучи в различни честотни области, но при въз­приемане се разпознава точно. Това е така, защото при произнасянето фонемите за­пазват своите „акустични степени на сво­бода“. Тези отделни различими варианти на фонемите се наричат алофони. Те мо­гат да бъдат позиционни, индивидуални, интонационни и пр. Това твърде много затруднява машините, които трябва да помнят всички варианти на фонемите и да знаят къде да ги използуват.

Другото основно препятствие при син­теза е, че речта представлява почти непрекъснат поток и между отделните звуци няма точна граница. Средно човек про­изнася около 80 до 130 думи в минута или около 10 фонеми в секунда. Ако разглеж­даме само фонетичната транскрипция на речта, можем да приемем, че средната ин­формация, съдържаща се в една фонема, е от 1 до 4 бита. Но на спектрограма може да се види, че всеки звук има преходи и установени периоди. Например една три­буквена дума може да съдържа 50—60 гра­дации на звуците, всяка от които носи определен обем информация, Ако към тези амплитудно-временни параметри приба­вим и фазовите съотношения, ще се ока­же, че за да запишем пълния набор призна­ци, съдържащи се в една дума за една се­кунда, ще ни бъдат необходими над 200 000 бита. А това е доста тежка задача дори компютри от т.н. трето поколение.

Говорещи машини Govoreshti mashini

Говорещи машини Govoreshti mashini

Принципна схема на съвременен синтеза­тор, работещ по метода на линейното ко­диране с предсказване от нестационарния характер на сигналите.

Във всеки език съществуват две основ­на групи звуци — гласни (вокали) и съ­гласни (консонанти). Учленяването на гласните е съпроводено с промяна в обема на устната кухина и формата на нейния отвор. Получава се резонатор, през който преминава издишаната въздушна струя. Гласните нямат строго определено място на учлемяване и по своята формантна структура те много приличат на музикал­ни тонове (форманти се наричат мак­симумите на концентрация на енергията от спектъра на речевия звук). При учленяването на всяка гласна звучат два тона — основен и характеристичен. Основният тон определя индивидуалния тембър на гласа. Той се образува в гръкляна под дей­ствието на гласните струни и характери­зира единствено индивидуалните особе­ности на говорещия. Затова пък харак­теристичният тон, образуван в устната кухина, е различен за всяка гласна и по него тя се оформя като отделен самостоя­телен звук. Съставът му е доста сложен, тъй като включва редица тонове, групи­рани във форманти. Обикновено формантите са няколко, но най-голямо значение имат трите най-ниски.

Съгласните имат строго определено учленително място. При тяхното про­изнасяне говорните органи създават раз­лични препятствия, които издишваната струя преодолява чрез търкане или избух. При това се образуват шумове. Някои от съгласните се състоят от характерис­тичен шум и основен тон, други само от характеристичен шум, който е типичен за всяка съгласна. Тези фонеми най-често об­разуват двойки звуци, различаващи се са­мо по едно свое качество: мекост, звуч­ност, носовост и т. н.

Що се отнася до българската реч, може да се каже, че тя е твърде удобна за по­лучаването на изкуствена реч. Вокалната ни система се състои от 6 фонеми — И, Е, Ъ, А, О, У. При това те се различават само по едно качество — тембър, за раз­лика от вокалите в английския език напри­мер. Тяхната дължина, отвореност и за­твореност нямат смислоразделително значение. Консонантната система на бъл­гарския език се състои от 38 фонеми, кои­то се различават само по качеството си мекост.

Тайните на акустиката

Уникалните акустични свойства на чо­вешкия артикулационен апарат продъл­жават да бъдат обект на редица изслед­вания. Въпреки че е добре известно от кои органи се състои речевият тракт и как функционират те, около акустичните му свойства все още се спори. Всички гене­рирани звуци могат да се описват чрез свойствата на източника на възбуждане и предавателната функция на акустичната система. За тази цел се използва много сложен математически апарат, което се налага от факта, че речевият тракт не може да бъде разглеждан като система със съсредоточени параметри. Това следва от неговата дължина, която е около 17 сан­тиметра и е напълно съизмерима с дължи­ните на звуковите вълни в говорния спек­тър. Затова се прибягва към използуване на модели на системи с разпределени па­раметри, които трудно се поддават на описание. Няма да се спираме подробно на акустичните процеси, тъй като с част от тях ще се запознаем при описанието на няколко от първите синтезатори на реч.

През 1779 година в Русия е обявен конкурс за създаване на устройство, което да показва разликата при образуването на отделните гласни. За най-добър е отличен проектът на Кратцеинщайм, който съз­дава акустични резонатори, аналогични по форма на гласовия тракт. Малко по-късно унгарецът Кемпелен прави своята прочута говореща машина. В нея се подава въздух от кожени мехове към езиче, което на свой ред възбужда управляван с ръка единичен резонатор. Една от забележителните механични машини е създадена в началото на ХХ век от американеца Риш. Тя се управлява с кла­виши, а за моделиране на устата и зъбите има по един орган за управление, работещ с пара.

Многобройни са и експериментите с електрически синтезатори. Първите опи­ти има за цел да предадат цялото го­ворно колебание. За изобретателите е яс­но, че за да се постигне добра разбирае­мост, е от особена важност да се запази моментният спектър от амплитуди. Пъ­рви Хелмхолц, Милер и Къонинг стигат до идеята, че при синтезирането на говорни звуци не е задължително да се копира ре­чевия тракт на човека, а трябва да се намери начин за възпроизвеждане на тех­ните характеристики.

Първият електрически синтезатор на свързана реч е т. нар. „Вокодер“, създаден от американците Дадли, Риш и Уоткинс. Той синтезира сигнали с определен спек­тър под управлението на ръчна клавиа­тура. При него е отчетена важната фи­зиологична особеност на говорния меха­низъм — наличието на гласови и шумови възбуждания. Всички тези методи при­надлежат на историята. В голямата си част те са създадени за изследване на тай­ните на говора. И най-големите фантазь­ори сред техните създатели едва ли са си представяли това, което днес наричаме просто първи крачки в електронното син­тезиране на реч.

Говорещи машини Govoreshti mashini

Говорещи машини Govoreshti mashini

Говорещата машина на американеца Риш. Затъмнените участъци представляват меки гумени покрития, чрез които се осъществяват сгъстявания и затихвания, близки до реалните.

Говорещият кристал

През 80-те години светът вече  е пред прага да превърне ин­телигентните машини в свои полезни съ­беседници. Тогавашните електронно-из­числителни машини предоставят много нови възможности за говорен анализ и синтез. Създадени са няколко цифрови методи за изследване на речеви сигнали. Всеки от тях използва такива параметри на говора, които позволяват по резулта­тите от анализа речта да се възстановя­ва без съществени изменения. Най-често те са в честотната област. Основното математическо преобразование, което се прилага при тях, е бързата трансформация на Фурие. Тя отразява не само спек­тралните, а и временните особености на изследвания сигнал. При този метод труд­ностите произтичат от непрекъснатите промени на спектъра във времето, т. е. от нестационарния характер на сигналите.

През 1980 г. се заговорва за друг по-съвършен метод на анализ и синтез на говор, наречен линейно кодиране с предсказване. При него формата на говорната вълна се представя директно в зависимост от променящите се параметри на предавателната харак­теристика на вокалния тракт и характе­ристиката на източника. Много по-удобно е да се моделира формата на говорната вълна, отколкото нейния спектър. В това се състои предимството на метода. При него моделът на вокалния тракт пред­ставлява изменящ се във времето линеен филтър. Най-често се използуват рекур­сивни филтри, които отчитат едновре­менно влиянието на въздушния поток, во­калния тракт и излъчването. Всеки гово­рен сегмент се представя адекватно чрез определен брой коефициенти на филтъра. Твърде важно е, че те се определят за да­ден момент от говорните събития в пред­ходния момент.

Какво представляват създадените на базата на тези методи устройства за синтез на говор? Това са формантни синтеза­тори, синтезатори с линейно предиктивно кодиране. През 1981 г. научни списания съобщават за синтезатори, преобразуващи речевия сигнал в цифров вид със свиване на информацията. Речевите процесори и на трите устройства са изградени на ба­зата на една голяма интегрална схема, коя­то действува по съответния за всеки ме­тод алгоритъм. Според учените в наши дни икономически оправдани са синтезиpaщи системи, чийто речник надхвърля 200 думи.

Формантният синтез

Той моделира естествените резонансни характеристики на гласовия тракт. При това, за да се осигури разбираемост, всеки звук се синтезира най-малко от три форманта. Гласните звуци се генерират от импулсен източник, който може да се мо­дулира по амплитуда и вследствие на това се управлява интензивността на звука, влияеща върху интонацията. Сигналът преминава през две нива на филтрация. Първото ниво композира вокалните звуци. То представлява филтър с изменящи се във бремето параметри и е образуван от последователни резонатори, които се съ­гласувани със спектралните и гласовита характеристики на речевия сигнал. Глухи­те звуци се генерират при преминаване на бял шум през филтър с регулируеми по­люси. За получаването на преходните зву­ци {звънки съгласни и консонантизирани съгласни) се използуват и двата филтъра. Коефициентите на филтрите се пазят 6 постоянна памет, която представлява отделна интегрална схема. Ориентировъч­но обемът на паметта за синтезиране на една секунда реч по този метод е около 400 бита.

Говорещи компютри Govoreshti kompyutri

Говорещи компютри Govoreshti kompyutri

Първият електрически синтезатор на свързана реч е създаден от американските учени Дадли, Риш и Хопкинс. При него е била отчетена твърде важна физиологическа особеност – наличието на два вида възбуждания – гласови и шумови.


Синтезатори на линейно кодиране с предсказване

Тези синтезатори донякъде напомнят формантните и дори биха могли да се осъ­ществят с едни и същи апаратни сред­ства. Но докато формантният синтеза­тор има отделни филтри за всеки формант, при синтезаторите с предсказва­що кодиране всички форманти се образу­ват заедно в един активен рекурсивен филтър. Нещо повече, едновременно с то­ва се регулират и амплитудите на импул­сите на основния тон и белия шум, осигу­ряващо точност при възпроизвеждането.

Както споменахме вече, коефициентите, на филтъра се определят в зависимост от предходните му състояния. Качеството на синтезираната реч зависи право пропор­ционално от броя на коефициентите. При 10 коефициента за кодиране на речта е необходима памет от около 1200 бито за 1 секунда реч.

Реч в цифров вид

Синтезаторите, преобразуващи речевия сигнал в цифров вид със свиване на ин­формацията, осъществяват дискретиза­ция на сигнала с честота два пъти по-голяма от най-високата честота в спектъра, след което получената цифрова информация се свива. Този процес се осъ­ществява с по-прости апаратни средства, но за сметка на това обемът на необхо­димата памет значително нараства. Оси­гурява се добра разбираемост и дори се запазват индивидуалните особености на възпроизвежданите гласове. След подхо­дящо свиване на информацията паметта може да се сведе до 1000 бита на дума за мъжките гласове. Женските гласове изис­кват по-голяма памет, защото съдържат по-високочестотен спектър. Речевият процесор стеснява информацията, като се премахват излишните тонални периоди, фонеми и части от тях. Следва делта-мо­дулация на сигнала и накрая се изменят фазовите му съотношения така, че да мо­же да се разложи в ред на Фурие. При тези синтезатори е задължително първо да се запише и анализира естествена човешка реч в цифров вид, след което речевият процесор я обработва. Въвежда я в памет­та на компютъра и при нужда се възстановява.

Никой не може да отрече значител­ните успехи на специалистите от цял свят в областта на получаването на из­куствена реч. Първите стъпки са твърде недостатъчни, за да се осъществи на­истина пълноценен диалог с машините. Затрудненията идват главно от това, че те са лишени от слух, а всички знаем колко усилия са необходими да се разбереш дори с глух човек. Решението на този проблем зависи в изключителна степен от напре­дъка при създаването на изкуствен ин­телект. Днес практически всеки робот би могъл да се „научи да говори”, но да чува означава да разбира, което пък от своя страна е свързано с асимилиране на непре­късната реч. Все пак, чуващи-машини отдавна има на световния пазар, макар и с доста скромни възможности. Още през 80-те в Япония е създаден телевизор, който се подчинява само на гласа на собственика си. В Германия горе-долу по същото време съществува телефонна ин­формационна служба, която отговаря ав­томатично на запитвания за полетите на самолетите. Още в романа на Артър Хейли ,,Банкери“, писан през 1975 г., в САЩ борсови посредници предават по телефона информация, която автоматично се записва от компютър.

А повече за едно малко известно, но българско устройство за синтез на говор можете да научите от тази статия: ТУК


Вашият коментар

Your message*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Name*
Email*
Url