Új hangalapú AI modellek érkeztek az OpenAI kínálatába

Csütörtökön mutatta be az OpenAI legújabb audio modelljeit, amelyek a cég közlése szerint jelentősen javítják a hangfelismerés pontosságát és megbízhatóságát. Az AI óriás három új modellel bővítette programozói interfészét (API): két beszéd-szöveg átalakító és egy szöveg-beszéd technológiát bocsátott fejlesztők rendelkezésére.

A fejlesztések háttere

Az új megoldások a vállalat két legfrissebb technológiájára, a GPT-4o és GPT-4o mini modellekre épülnek. A közlemények szerint ezek a fejlesztések különösen fontosak az úgynevezett „agentic workflows” (önálló munkafolyamatok) építése szempontjából, ami azt jelenti, hogy az AI rendszerek önállóan, kevesebb emberi beavatkozással végezhetnek el összetett feladatokat.

Az AI cég évek óta fejleszt különböző intelligens rendszereket, mint az Operator, Deep Research vagy a Computer-Using Agents, azonban most először adják a fejlesztők kezébe olyan eszközök kombinációját, amelyekkel a szöveges kommunikáción túllépve, intuitív hangalapú interakciók is megvalósíthatók.

Három új modell a fejlesztői eszköztárban

A bemutatott modellek közül kettő (GPT-4o-transcribe és GPT-4o-mini-transcribe) a beszéd szöveggé alakítására szolgál, míg a harmadik (GPT-4o-mini-tts) szöveget konvertál beszéddé. A vállalat szerint ezek felülmúlják a 2022-ben kiadott Whisper technológiát, amely korábban a beszédfelismerés zászlóshajója volt. Fontos különbség ugyanakkor, hogy míg a Whisper nyílt forráskódú volt, az új modellek már zárt rendszerben működnek.

A beszédfelismerő modellek esetében az OpenAI kiemeli, hogy javult a „szóhiba-arány” (WER) teljesítmény a FLEURS teszteken, amelyek 100 különböző nyelven vizsgálják a beszédfelismerés pontosságát. A fejlesztést célzott tanítási technikáknak köszönhetik, beleértve a megerősítéses tanulást (RL) és a nagy mennyiségű minőségi audioanyaggal történő betanítást.

Különösen impozáns a modellek azon képessége, hogy olyan kihívást jelentő helyzetekben is pontos átiratot készítenek, mint az erős akcentusok, zajos környezet vagy változó beszédsebesség mellett elhangzó szövegek.

Érzelmes mesterséges hangok

A szöveg-beszéd modell talán még érdekesebb újdonságokat kínál. A technológia képes testreszabható hanglejtéssel, intonációval és érzelmi kifejezőképességgel rendelkező beszédet generálni. Ez lehetővé teszi olyan alkalmazások fejlesztését, amelyek az ügyfélszolgálattól kezdve a kreatív történetmesélésig számos területen bevethetők. A modell egyelőre csak mesterséges, előre beállított hangokkal működik.

Mennyibe kerül mindez?

Az API árképzése szerint a GPT-4o alapú audio modell használata millió bemeneti tokenenként 40 dollárba (kb. 3440 forint), millió kimeneti tokenenként pedig 80 dollárba (kb. 6880 forint) kerül. A GPT-4o mini alapú audio modellek olcsóbban, millió bemeneti tokenenként 10 dollárért (kb. 860 forint), kimeneti tokenenként pedig 20 dollárért (kb. 1720 forint) vehetők igénybe.

Az összes audio modell már elérhető a fejlesztők számára API-n keresztül. Az OpenAI emellett közzétette az Agents SDK-val való integrációt is, ami segíti a fejlesztőket hangalapú asszisztensek létrehozásában.

Véleményem szerint ez az új iránya a mesterséges intelligenciának kulcsfontosságú lehet a valóban emberszerű interakciók kialakításában. A pontosabb beszédfelismerés és természetesebb hangszintézis miatt olyan területeken is láthatunk majd áttörést, ahol eddig nehézkes volt az AI használata – például idősgondozásban, oktatásban vagy többnyelvű környezetben. Kérdés persze, hogy a zárt forráskódú modellek miatt mennyire lesz hozzáférhető ez a technológia a kisebb fejlesztők számára.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: Professional AI developer testing new speech recognition models with headphones in a modern tech office, surrounded by computer screens displaying audio waveforms.