Digitália

2024.02.20. 06:00

Csupán szóbeli utasításokból ultrarealisztikus videókat készít Sora, a mesterséges intelligencia

Az OpenAI fejlesztése még csak szakértőknek érhető el, de nem kétséges, hogy hamarosan mindenkihez eljut, miként a többi fejlesztés is.

MW

Sora demó

Forrás: OpenAI

Eddig is lehetett mesterséges intelligencia segítségével pusztán szóbeli utasításokkal videót készíteni, de nem ilyen részleteset, mint amilyet Sora néven bemutatott az OpenAI. Állítsuk a lejátszást a menüben a fogaskerékre kattintva legalább 1024 pixelesre, így még a YouTube optimalizáló eljárásai ellenére is meghökkentő minőséget láthatunk.

Ezt a videót úgy állították elő – minden utólagos javítás és szerkesztés nélkül! –, hogy a számítógép billentyűzetén leírták az alábbiakat:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

vagyis, magyar fordításban:

Egy stílusos nő sétál végig egy tokiói utcán, amelyen melegen izzó neonok és animált városi feliratok világítanak. Fekete bőrdzsekit, hosszú piros ruhát és fekete csizmát visel, valamint fekete táskát hord. Napszemüveget és piros rúzst visel. Magabiztosan és lazán sétál. Az utca nedves,  tükröződik a színes fényekből. Sok gyalogos sétál.

Az OpenAI által kiadott összes demó megtekinthető az alábbi videón. Ha nem akarjuk mindet végignézni, a „Tovább” gombra kattintva megnyílik a szokásos YouToube-menü, ami rögtön a kiválasztott részekhez ugrik. Minden videó elején ott áll angolul az a szöveg, amiből a mesterséges intelligencia videót gyártott:

A Sora névre keresztelt szöveg-videó modell jelenleg legfeljebb 1 perces videókat tud készíteni.

Ma a legnagyobb verseny a szöveg-videó a generatív mesterséges intelligencia területén a csupán szöveg alapján készülő videó terén zajlik, mivel az OpenAI, a Google, a Microsoft és mások a szövegből állókép-generáláson túlra tekintenek, és igyekeznek megerősíteni pozíciójukat a szektorban, amely az előrejelzések szerint 2032-re eléri az 1,3 billió dolláros bevételt.

Azokért a felhasználókért harcolnak, akiket a ChatGPT valamivel több mint egy évvel ezelőtti megjelenése óta érdekel a generatív mesterséges intelligencia.

Erősségei

Az egyik képessége, ami a versenytársaktól megkülönböztetheti a Sorát, hogy képes értelmezni a nagyon hosszú felszólításokat – láthatunk a videó-összeállításban még 135 szóból álló promptot is. Az OpenAI csütörtökön megosztott videói azt mutatják, hogy különféle karaktereket és jeleneteket tud létrehozni, az emberektől, állatoktól és pihe-puha szörnyecskéktől egészen a városképekig, tájakig, zen-kertekig.

„A Sora képes összetett jeleneteket generálni több karakterrel, meghatározott típusú mozgásokkal, valamint a téma és a háttér pontos részleteivel” – áll az OpenAI blogbejegyzésében. – „A modell nemcsak azt érti, hogy mit kért a felhasználó a promptban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban.”

Az OpenAI által megosztott mintavideók rendkívül valósághűnek tűnnek – gyakran nehéz megmondani, hogy mi a valódi és mi nem.

A modell képes videót generálni állóképekből és kiterjeszteni a már meglévő videókat.

Gyengeségei

Az OpenAI elismerte, hogy Sorának vannak gyengeségei, mint például, hogy miként ábrázolja egy összetett jelenet fizikáját, hogy megértsen okot és okozatot.

„Például előfordulhat, hogy valaki harap egy sütiből, de utána a sütin nem látszik harapásnyom” – írják.

Az OpenAI nem közölte, hogy a Sora mikor lesz széles körben elérhető, viszont leszögezte, hogy előbb „több fontos biztonsági lépést” szeretne tenni. Megerősítik az OpenAI meglévő biztonsági előírásainak betartását, amelyek tiltják a szélsőséges erőszakot, a szexuális tartalmat, a gyűlöletkeltő képeket, a hírességekhez való hasonlóság előállítását és védik mások szellemi tulajdonjogát.

„A kiterjedt kutatások és tesztelések ellenére nem tudjuk előre megjósolni, hogy az emberek milyen helyes célokra fogják használni technológiánkat, sem azt, hogy az emberek miként fognak visszaélni vele” – közölték. „Ezért is hisszük, hogy kizárólag a valós használatból lehet tanulni, hogy egyre biztonságosabb AI-rendszereket tehessünk közzé.”

Ezek is érdekelhetik

Hírlevél feliratkozás
Ne maradjon le a kemma.hu legfontosabb híreiről! Adja meg a nevét és az e-mail-címét, és mi naponta elküldjük Önnek a legfontosabb híreinket!