23.08.2017 10:02

Microsoft вече разпознава реч по-добре от човек

Видян 1524 пъти | Коментари 0
Гласували 0 рейтинг: 0.0000
много слаба слаба добра много добра страхотна

Технологията на Microsoft за разпознаване на устна човешка реч вече се справя с тази задача по-добре от хората, съобщават от компанията. В процеса на транскрибиране на телефонен разговор системата дава 5,1% грешки – колкото екип от специално обучени хора и по-малко от обикновените хора, при които делът на грешките е 5,9%.


През септември 2016 г. системата на Microsoft допускаше 6,3% грешки, което по онова време беше световен рекорд за точност при машинно транскрибиране. Но през октомври компанията намали дела на грешките до 5,9% – точно толкова грешки допуска и средностатистическият човек.


Под дял на грешките се разбира процентът на думите, които се транскрибират неправилно по време на прослушване на телефонен разговор. За проверка на системата Microsoft прилага стандартен тест за правилно разпознаване на реч Switchboard, който се използва широко в тази сфера, вкл. от компании като IBM и Google.


В момента технологията на Microsoft може само да разпознава устна реч и да я представя коректно в писмена форма. Системата все още не е способна да разбере смисъла на думите. Освен това разпознаването е добро само при отчетлив разговор, на качествен запис. При наличие на странични шумове, процентът на грешките нараства.


Преди 20 години делът на неправилно разпознаваните от компютрите думи надвишаваше 43%. Компании от рода на Microsoft и IBM успяха да напреднат в тази сфера, благодарение на дълбоките невронни мрежи, чиято работа наподобява биологичните процеси в главния мозък на човека.


Невронните мрежи се считат за ключова технология не само в разпознаването на реч, но и в разработките на компютърно зрение. Тези мрежи се състоят от няколко слоя, а наскоро Microsoft създаде нов тип връзки между слоевете, благодарение на което спечели конкурса за компютърно зрение ImageNet 2016.


Критично важен компонент в системата за разпознаване на реч е инструментариумът за невронни мрежи Microsoft Cognitive Toolkit 2.1 (CNTK), който задейства дълбоки обучаващи алгоритми. За подобряване на акустичното моделиране също се използва специална невронна мрежа в комбинация с двупосочна краткотрайна памет.


Тласък на разработките даде и паралелната работа на графичните процесори (GPU). Първоначално те бяха създадени за компютърна графика, но в последните години се използват все по-често за обработка на сложни алгоритми, вкл. за разпознаване на реч. В частност, за по-бързо обучение на системата и тестване на нови идеи Microsoft използва облачни Azure GPU решения.


Източник: Technews.bg



Добави в:
Svejo.net svejo.net
Facebook facebook.com

19min.bg си запазва правото да изтрива коментари, които не спазват добрия тон.

Толерира се използването на кирилица.

Няма коментари към тази новина !

RSS

Най-нови

реклама

към тв програма тв програма

бТВ Синема 31 март 21:00ч.

Ненормален

Режисьор: Дерик Борте
В ролите: Ръсел Кроу Tom Cooper Карън Писториус Rachel Hunter Гэбриел Бейтман Кайл Флин Джими Симпсън Анди

виц на деня


- Скъпа, ако умра, не ме жали дълго, омъжи се повторно, радвай се на живота, бъди щастлива. Само те моля да възпитаваш добре децата ни.
- Престани вече! Най-нормална супа е. Като не искаш, не яж!

към хороскоп хороскоп

лъв