OpenAI lansează Sora pentru generarea de videoclipuri
OpenAI, urmând exemplul startup-urilor precum Runway și giganților tehnologici precum Google și Meta, se implică în generarea de video.
Saptamana aceasta, OpenAI a dezvăluit Sora, un model GenAI care creează video din text. Primită o descriere succintă sau detaliată sau o imagine statică, Sora poate genera scene similare filmelor în format 1080p, cu mai mulți caractere, diferite tipuri de mișcare și detalii de fundal, susține OpenAI.
Sora poate, de asemenea, „extinde” clipurile video existente — făcând tot posibilul să completeze detaliile lipsă.
„Sora are o înțelegere profundă a limbajului, permițându-i să interpreteze prompturile și să creeze personaje captivante care exprimă emoții vibrante”, scrie OpenAI într-o postare pe blog. „Modelul înțelege nu doar ceea ce utilizatorul a cerut în prompt, ci și cum acele lucruri există în lumea fizică.”
Acum, există multă bombastică în pagina de demonstrație a lui Sora de la OpenAI — declarația de mai sus fiind un exemplu. Dar exemplele selectate cu grijă din model par destul de impresionante, cel puțin în comparație cu alte tehnologii de conversie text-la-video pe care le-am văzut.
În primul rând, Sora poate genera videoclipuri într-o gamă de stiluri (de exemplu, fotorealiste, animate, alb-negru, etc.) de până la un minut — mult mai lung decât majoritatea modelelor de conversie text-la-video. Și aceste videoclipuri mențin o coerență rezonabilă în sensul că nu cad întotdeauna pradă ceea ce îmi place să numesc „bizare AI”, cum ar fi obiecte care se mișcă în direcții fizic imposibile.
Verificați această tură a unei galerii de artă, întregul conținut fiind generat de Sora (ignorați granulația — compresia din instrumentul meu de conversie video-GIF):
Merită spus că unele dintre videoclipurile lui Sora cu un subiect humanoid — un robot în picioare împotriva unei panorame urbane, de exemplu, sau o persoană mergând pe un drum împietrit de zăpadă — au o calitate ce amintește de jocurile video, poate pentru că nu se întâmplă prea multe în fundal. Ciudățenia AI reușește să se strecoare în multe clipuri în afară de acestea, cum ar fi mașini care conduc într-o direcție apoi brusc se întorc sau brațe care se topesc într-o pătură.
OpenAI — cu toate superlativele sale — recunoaște că modelul nu este perfect:
„[Sora] s-ar putea să întâmpine dificultăți în simularea precisă a fizicii unei scene complexe și s-ar putea să nu înțeleagă anumite instanțe specifice de cauză și efect. De exemplu, o persoană ar putea să muște dintr-o prăjitură, dar ulterior, prăjitura nu ar avea urme de mușcătură. Modelul s-ar putea să confunde, de asemenea, detaliile spațiale ale unui prompt, de exemplu, amestecând stânga și dreapta, și s-ar putea să întâmpine dificultăți în descrierile precise ale evenimentelor care au loc în timp, cum ar fi urmărirea unei traiectorii specifice de cameră.”
OpenAI poziționează foarte mult Sora ca o previzualizare a cercetării, dezvăluind puțin despre datele folosite pentru a antrena modelul (cu excepția aproximativ 10.000 de ore de video de „înaltă calitate”) și abținându-se să facă Sora disponibil în general. Raționamentul său este potențialul de abuz; OpenAI remarcă corect că actorii răi ar putea folosi greșit un model precum Sora într-o varietate de moduri.
OpenAI spune că lucrează cu experți pentru a investiga modelul în căutarea vulnerabilităților și construiește instrumente pentru a detecta dacă un videoclip a fost generat de Sora. Compania mai spune că, în cazul în care decide să transforme modelul într-un produs disponibil publicului, va asigura că metadatele provenienței sunt incluse în ieșirile generate.
„Vom colabora cu politicieni, educatori și artiști din întreaga lume pentru a înțelege preocupările lor și pentru a identifica cazuri de utilizare pozitive pentru această nouă tehnologie”, scrie OpenAI. „În ciuda cercetării și testării extinse, nu putem prezice toate modurile benefice în care oamenii vor folosi tehnologia noastră, nici toate modurile în care oamenii o vor abuza. De aceea credem că învățarea din utilizarea în lumea reală este o componentă critică a creării și lansării sistemelor AI tot mai sigure în timp.”