发布日期:2024-10-07 21:56 点击次数:155
情欲印象写真
这两天,视频生成模子领域因为 Meta Movie Gen 的发布,又炸开了锅。
行业表里惊羡最多的场所,无外乎两点,一是生成效果天然传神,还能同步生成与画面匹配的声息,很像其时 Sora 发布后引起的议论和震荡;二是 Meta AI 的新模子自界说性很强,无论是视频画面比例,如故视频元素与细节,都能笔据用户的需求进行调整。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQP1vMJJ3LCIfFzI3RV-_eHkSkSEVWdq6fuX90b37Gg2JWzlrsz0PmjT8HeeKUIgX8CtBz10MEaoREtg0i2WVzga.mp4
是以,可能会引颈视频生成新变革的 Meta Movie Gen 到底有哪些细节?这些在官网和演示视频里的惊艳效果是若何真金不怕火成的?Meta AI 的视频模子负责东说念主 Andrew Brown 挑升为 Meta Movie Gen 的表面本事作念了解读:
Movie Gen 在举座质地和一致性方面权贵优于 Sora。信得过性和好意思不雅性磨真金不怕火像片写实性,Movie Gen 全面到手。
Meta Movie Gen 是一组不错进行文本到视频生成、文本到图像生成、个性化、裁剪和视频到音频生成的模子。
膨大数据、蓄意和模子参数非凡垂死,将其与流匹配相连续,并转向神圣的常用 LLM 架构 ( Llama ) ,从而完结了 SOTA 视频生成质地。
咱们(Meta AI)是第一个使用 Llama arch 进行媒体生成的东说念主。
Movie Gen 是一个 30B 参数改革器,可生成不同宽高比和同步音频的 1080p 视频,最大络续时候为 16 秒(16fps)。
咱们(Meta)为 T2V 模子提供了多阶段检修决策。T2I + T2V 连合检修,导致不休速率慢得多且质地更差。
文本到视频的评估很鬈曲。自动化洽商非凡差,何况与东说念主类评估莫得很好的洽商性。
视频生成的「超等个体」
Meta Movie Gen 首发今日,APPSO 在第一时候报说念解读了这个最新的视频生成模子,总体来说,Movie Gen 具有四种功能:视频生成、个性化视频生成、精确裁剪和音频生成。
先看最基础的视频生成 Movie Gen Video,多模态的才气使得新模子不错胜任多种不同的输入花式,用户不仅不错通过神圣的文本、极少提醒词生成相应的视频,还能平直把需要处置的图片放到模子里,笔据翰墨条目,让静态的图片酿成动态的视频。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQOGoRNNttaiv6GurKZSTJInN2JKv-I_KDeLmKlP0ezuMNoFSnPj2w_UKfMrU7TJ6OuhC5bYmfjbOwcXXRMldykb.mp4
▲ 提醒文本:一个女孩正在海滩上驱驰,手里拿着一只风筝;她穿着牛仔短裤和一件黄色 T 恤;阳光照射着她。
你以致还能让 Movie Gen 襄理从头生成或者优化一段视频。不管选拔哪种输入花式,Movie Gen 当今在官网的演示视频,效果都非凡好,东说念主物心情天然,画面细节到位,也能比较准确地按照提醒词或文本的条目来生成相应罢了。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQPoimKxH0OjSM2nrwEMvGZ4p1MPTVxM86qgLLo3WWrQcs_3k7q2AFxNgDU7wQR9AiODYnzhAvNv66EYk5CL-JjC.mp4
Andrew Brown 先容到,在视频生成的历程中,膨大数据、蓄意和模子参数非凡垂死,将其与流匹配相连续,并转向神圣的常用 LLM 架构 ( Llama ) ,从而完结了 SOTA 视频生成质地。
而且,新模子中的 T2V、个性化和裁剪模子都来自交流的培训决策。在预检修时代,Meta 开头检修 T2I,然后检修 T2V。使用该模子动作运升沉,然后进行 T2V 后期检修,并检修个性化 T2V 和 V2V 裁剪的才气。
另外,模子的检修也按照分手率的上下进行,先是低分手率(256px)检修,然后是高分手率检修(768px)。Meta AI 尝试连合检修 T2I + T2V,但这导致不休速率慢得多且质地比之前的还要差劲。
Movie Gen Video 之是以不祥作念到传神的生成罢了,本质上如故因为高达 30B 参数改革器模子的超卓才气,这个模子不祥以每秒 16 帧的速率生成长达 16 秒的视频,而且最长不祥生成 45 秒的高质地和高保真音频。
Meta 官方还在论文中清醒:
这些模子不错推理物体融会、主体与物体之间的互相作用和相机融会,何况不错学习多样见解的合理融会。
这句话一共有三层兴味,开头是模子自身不错确凿收复出现实全国的物理融会,以及多样「符合常理」的物理法例,而关于用户而言,看上去「天然且传神」便是模子本事最奏效的场所。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQODlBNBPphoHO0OxyhgRUjxX2_ypK3-g7d8uLcSSfQKz-BWwxaw6O3ru8Hj8P4hsQvePxUXjMkQP1s6LZS0dP-B.mp4
Movie Gen Video 不祥准确相识物理全国的融会法例,Meta AI 是下了大功夫的。该团队在数亿个视频和数十亿张图像上,对全新的模子进行了多半的预检修。通过不停的相通、学习、归来、推理和应用,Movie Gen Video 才有了在官网里的优异施展。
接着,模子还能主动效法学习专科电影的运镜、画面、蒙太奇等。也便是说,通过 Movie Gen Video 生成的视频,还有了雷同电影拍摄的专科性和艺术性。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQNJgXGFWj-R5P_psMtiR6l5TLrDr8g45ckHVx0tERIlod4irfm29mLts61SShKHI7Gfnry7P6aWDk0FB8R9xZ3B.mp4
不外 Andrew Brown 提到,文本到视频的评估很鬈曲。因为自动化洽商非凡差,何况与东说念主类评估莫得很好的洽商性。也便是说,在视频生成模子研制的早期,生成罢了和东说念主们印象中庸不雅察中的信得过物理全国远隔太大,终末 Meta 如故决定这种信得过性的判断,富足依赖东说念主类的评估。
咱们破耗了多半元气心灵将视频评估阐发为多个正交质地和对皆轴。
罢了 Movie Gen 在和 1000 个提醒评估集上的模子进行比较时,在质地和一致性方面到手或全面处于同等水平。
终末,模子能在此基础上,推理和创作出接下来的内容,它就像一个专科的导演,辅导着画面里的一坐一说念;也像一个造就丰富的拟声师,笔据视频内高兴者文本提醒,及时生成和画面逐一双应的配乐。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQM2lzIy5kQwBQ7F0FEBzOwq2YGB-hFKnmoz5SZmOmGhZCMKRc1sqsG0tK7EOVl8133rQjPhHxfRlp_WFBurPqR4.mp4
▲ 烟花爆炸倏地的音效
同步生成音频的才气,依靠得是 Movie Gen Audio。这是一个 13B 参数改革器模子,不错汲取视频输入以及可选的文本提醒,以完结可控性生成与视频同步的高保真音频。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQOqaT9K5XXcswrfjz54HfHzFkGfKM815Wkif-RD-wo9OUIzwCUDqt7zVOWR9pgOCohjBFxpKaMIZd7uZDS3t6Al.mp4
和 Movie Gen Video 相同, Movie Gen Audio 也进行了「海量」进修,Meta AI 将数百万个小时的音频参考投喂到模子的检修里。经过多半的对比归来,当今模子也曾掌持了声息和画面之间的对应关系,以致还能了解不同的 bgm 会带给不雅众哪些不同的感受。
因此在际遇洽商情怀和环境的提醒词时,Movie Gen Audio 总能找到和画面齐全契合的音乐。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQNH70f1iPeyIzxUYOBL3qIYNRE-HKJl1P2VXipWwPwO-NkFeTPsBB5dyJCeezKQbqm8ANlae1-riMBHhS77F90Q.mp4
同期,它不错生成环境声息、乐器配景音乐和拟音声息,在音频质地、视频到音频对皆和文本到音频对皆方面提供起初进的罢了。
这使它们成为同类中起初进的模子。
天然咱们不敢就此和官方相同,下一个如斯自信的定论,但无论是从官方的视频长度、画面质地,如故配景音乐的贴合进程,Movie Gen Video 相较于以往的视频生成模子,有了非凡昭彰的突出。
而且,和先前的偶像实力派 Sora 比较,Movie Gen 在举座质地和一致性方面都有着比较昭彰的最初,Andrew Brown 绝不守秘地说到在这场与 Sora 的比赛中:
Movie Gen 全面到手。
近亲乱伦视频裁剪的「万能民众」
在 Movie Gen Video 和 Movie Gen Audio 的协同配合底下,Meta AI 全新的视频生成模子有了全新的才气,不外上述的突出还仅仅本事基础,同期具备音视频生成才气后,Meta 还赓续膨大了全新模子的适用范围,使它不祥因循个性化视频的生成。
个性化顾名想义,便是连续用户需求,笔据条目生成指定的视频内容。
虽说先前的视频模子也能作念到个性化生成罢了,但这个罢了老是不尽东说念主意,要么是不成改动细节,只可从头来过,要么是在贯穿改动细节时,画面里的其他元素无法保持一致性,老是会因为新视频的生成而些许受到点影响。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQN93-PQzwvk9hXxtg_CXRKF0iuS3vDfYDAd6o7L2PLo9s46t2mt3PfVgBJfLqyzKvmH3_avUhVuR5vlaFA3KEiY.mp4
Movie Gen Video 在官网的演示中,很好地展现了他们在这方面的上风。新模子不仅不错按照提醒词 / 参考图像的条目,生成个性化的视频,还能在该视频的基础上,赓续优化调整细节,何况保证其他的生成内容不受侵犯,也便是「精湛化修改」。
与需要专科技巧或短少精确度的生成器具的传统器具不同,Movie Gen 保留了原始内容,仅针对洽商像素。
在创建保留东说念主类身份和动作的个性化视频方面,咱们的模子赢得了起初进的效果。
这项功能,关于好多自媒体责任室,或有视频裁剪需求的东说念主,非凡有效,它不错对改动对象进行全局修改,或者细节修改。大到笔据文本从头生成整个画面,小到只改变东说念主物的发色、眼镜的面容等。比如不错通过模子来摒除配景当中的无关杂物。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQOlcQl6jghERiA76vaIS8d0NbfUpcoRGuHFWNH6-eyueaTqKtLemFcJEZhv90zsF4xwtPoRtIyN_tKlsKHGG4Jx.mp4
或者给原视频换上新的配景,不管是面容如故情态,都能随时改变,而且还不错把日间秒酿成暮夜。
另外 Movie Gen Video 还能针对好多细节作念出幽微的调整,在保证视频构图、画举座不变的同期,改变东说念主物的衣服情态、眼镜捎带面容,主体穿着和宠物毛色等。
比如去除视频里的无关杂物、更换画面配景面容,增多视频细节,改变主体一稔情态等方面,都是他的坚强。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQOgCjxW2-d5hyadozHguLaOWtBEbQbaGhvUFwsC94LlfL0kSDCRsE75H5mCtOBUJXON-J91a8-HeGuqKK9e6RC7.mp4
不外这还仅仅一种畅想,因为 Movie Gen Video 当今只因循 1080P、16 秒、每秒 16 帧的高清长视频,或者最长 45 秒的高质地和高保真音频。这么的画面分手率以及视频长度,关于一个有创作需求的个体或公司来说,好像都不太够用。
但这种本事的突破,使得 AI 领有了对视频文献无级调整的裁剪才气,个性化定制、精确调整,加上 Movie Gen Audio 绽放了视频配音的大门,Movie Gen Video 天然要比及来岁才会和公众认真碰面,但以当今官方的演示罢了来看,它真有可能为视频、影视和 AI 行业注入新的能源,以致带来一场新的变革。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQNqaqS1K8y127TjMDSqVQFKxytdhtS2LIigdvwG1m1B7PSQ9MVJzbHUsmJ2r6NlDo5676AovslXGGRsFDAJof5C.mp4
包括 Movie Gen Video 在内的最新、最前沿的器具,正在试图破裂这种 AI 在视频生成领域的刻板印象,天然当今以他们的才气,这一天的到来还有很久。
关于视频生成模子来说,一动手很难平直影响,以致波及到庸碌东说念主的昔时生计,直到有了某部由 AI 创作的电影,可能才会在簇新感上,引起民众的提防。当下用 AI 作念出的电影、番剧、动漫,些许都有些画面不信得过、动作很违和的瑕疵。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQOuOxod5gTk4x2RfQBdpu5EARkJdH_eqk-WC6V_5YLxIiD0Q8-9XD3dOjwIDskByjO4lIRgylv_LwkPkEb1vgX2.mp4
Meta AI 也在官网默示,跟着模子本事的改善与发展,他们将会与电影制作主说念主和创作家密切谐和,整合他们的反映。当下,无论是 Runway、Sora,如故最新的 Meta AI,都在马上发展,起码和一年前的生成效果比较起来,不错看到肉眼可见的突出。
AI 本事对东说念主们生计的影响,不一定会在第一时候显现出来,当公共还都在探讨 AI「有什么用」的时候,那它关于大多数东说念主的最通衢理,便是多了一个好用的器具、一个好玩儿的玩物:
无论一个东说念主是但愿在好莱坞大展本领的电影制作主说念主情欲印象写真,如故可爱为不雅众制作视频的创作家,咱们都战胜每个东说念主都应该有契机使用有助于晋升创造力的器具。