A mesterséges intelligencia előretörésével fejlődnek a gondolatokkal vezérelt beszédgenerátorok

A mesterséges intelligencia előretörésével fejlődnek a gondolatokkal vezérelt beszédgenerátorok

A Stanford Egyetemen végzik a szófelismerő kísérletet (Fotó: Stanford Univ.)

Támogassa a Magyar Hangot!

Legyen Ön is előfizetőnk, rendelje házhoz a Magyar Hangot! Ha más módon támogatná a lapot ebben a nehéz helyzetben, azt is megteheti (PayPal és bankkártya is)! Köszönjük! ELŐFIZETEK

Ahogy egyre jobban megismerjük a nyelv és a beszéd agyi feldolgozását, legyen szó a hallott beszéd értelmezéséről, illetve az aktív beszédről, a legújabb mesterséges intelligencián (MI) alapuló algoritmusok segítségével lehetőség nyílik a gondolatok beszéddé való alakítására. Nemrégiben számoltunk be arról, hogy a kutatók az agyba ültetett elektródok közvetítésével azonosították azokat az agyhullámokat, amelyek az emberek agyában keletkeznek, amikor egy dalt (konkrétan a Pink Floyd Another Brick in the Wall számát) hallják, és ezekből rekonstruálták magát a hangot. A technológia nyilván a néma emberek életét változtathatná meg, ha kimondott szavakká tudná lefordítani a gondolataikat. És ehhez már nem is vagyunk olyan távol. Nemrégiben egyszerre két kísérlet eredményeit is közölték a Nature-ben, amelyek a gondolatokkal vezérelt beszédgenerátorok hallatlan fejlődéséről tanúskodnak. 

62 szót volt képes a Stanford Egyetem neurológusainak gépe percenként azonosítani és kimondani. A kísérletben részt vevő 67 éves beteg amyotrófiás laterális szklerózisban (ALS-ben) szenved – ez a betegség okozta Stephen Hawking bénultságát is. Jól ismert, hogy a tudós tenyere apró izommozdulataival és minimális szemmozgásaival irányította a beszédszintetizátorát, ami ennél sokkal lassabb volt. 

125 ezer szavas, illetve egy 50 szavas szótáron is tréningezték az MI-t, vagyis megkérték a beteget, hogy különböző szavakat próbáljon kimondani, és eközben az agyába ültetett elektródokkal rögzítették az agyhullámait. A számítógép megtanulta felismerni a hullámokból a szavakat. 

3,4-szer volt gyorsabb az 50 szavas szótáron dolgozó agy-számítógép interfész, mint a korábbiak, és 91 százalékos sikerességgel találta el az adott szót. A 125 ezer szavas szótár használatakor 76 százalékos volt a sikeresség. 

253 elektródból álló szenzort helyeztek egy 47 éves Ann nevű női beteg agyfelszínére a másik kísérlet kutatói a San Franciscó-i Kaliforniai Egyetemen. A beteg agytörzsi sztrók következtében veszítette el beszédképességét 18 évvel ezelőtt. 

249 mondatot próbált kimondani gondolatban Ann, és ehhez egy 1024 szavas szótárt használt. Tehát ebben a kísérletben már továbbléptek, és nem különálló szavakat, hanem mondatokat próbáltak felismertetni a géppel. 

78 szót volt képes felismerni percenként a San Franciscó-i agy-számítógép interfész, az átlagos sikeresség pedig 75 százalékos volt. 

160 szó percenként az átlagos természetes beszéd sebessége, szóval ezek az eszközök még mindig elég lassúak a gyakorlatban, viszont már sokkal gyorsabbak és pontosabbak, mint elődeik.

Ez a cikk eredetileg a Magyar Hang 2023/35. számában jelent meg szeptember 1-jén.