封面新闻记者 张峥 实习生 刘涵
大年初五到大年初九,OpenAI首个文生视频模型Sora用几段人工智能生成的视频,再度颠覆了人们对世界的认知。
行走东京的女郎:sora生成
如果没有人预先告诉你那位在东京街头漫步的女郎,她脚下的水渍、脖子上的颈纹,墨镜中映射的街景都是人工智能生成的,你敢相信人工智能已经“聪明”到了可以创造一个以假乱真的世界么?
一个视频团队花4-5天才能制作完成的视频,通过输入脚本内容,人工智能能够在数分钟内,把一段文字转化为一段有逻辑、有变化、高度还原世界的视频……试问,未来,短视频领域还需要多少人力?
面部细节 人工智能生成的60秒视频:行走在东京街头的女郎
“文生视频模型Sora的最大突破可能在于,其高度的真实感生成能力、实时渲染速度,以及对场景理解和生成的复杂度,对真实世界环境的高度模仿。它可能还包括对人物动作、面部表情和语言理解的高度自然模拟。”2月19日,四川大学中华文化传承与全球传播数字融合实验室研究员宋耀告诉封面新闻记者。
影响:广告视频、短视频领域首当其冲
当你看到一片白雪皑皑中猛犸象飞奔而来,不要惊呼是有人用“时光机器”把摄影机带到了冰河世纪;当你看到一只跳着迪斯科的卡通狐狸拥有细腻的毛发特效与精致的建模设计,也不要以为梦工厂又打造了什么新IP……它们可能就是AI的作品。
按照OpenAI官网上的描述,文生视频对部分风景类、空镜类的镜头已经做到了“以假乱真”的程度。的确,从事广告业多年的刘女士告诉记者,文生视频首先“对广告视频、短视频领域的影响最大”。
飞奔而来的猛犸象:文生视频
“Sora对视频生产行业的冲击主要体现在成本、效率和创作自由度上。传统的视频制作涉及昂贵的设备、演员、场地和后期制作等,而Sora可能大幅降低这些成本并简化制作流程。此外,它能够迅速生成和修改内容,从而加快创作速度,提供更大的创意空间。这可能导致视频制作的民主化,使得更多个人和小型企业能够创作高质量的视频内容。”宋耀表示,“它能够使内容创作更加高效和低成本,提升个性化和定制化内容的制作能力。然而,它也可能给行业带来冲击,比如减少对于传统影视制作流程中人工工作的需求。行业如影视、广告、游戏、虚拟现实和在线教育等都可能享受到AI带来的红利。”
“目前是只能生成1分钟的,但随着技术发展,2分钟、5分钟、10分钟在未来都有可能,而且可能一两年很快就能实现”,刘女士预测。
通用人工智能的实现从十年缩短至一年
与OpenAI分道扬镳的早期创始人、特斯拉CEO马斯克为此惊叹。他在推特上转发网友的帖子时评论称:“gg人类”。gg为网络用语good games的缩写,常常用于表达输家输得心服口服的感叹。
在Sora面世当天,360创始人周鸿祎便在社交媒体发布长文,认为这是AI产业升级的一次关键性事件,同时周鸿祎对通用人工智能的前景十分看好,认为Sora的问世可能使通用人工智能的实现从十年缩短至一年。他说道:“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”
在短视频与广告视频领域,他认为可能是一项正面的颠覆。“它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”
对影视行业而言,周鸿祎则认为Sora对影视行业的冲击没有想象中那么大。他认为,影视目前拥有成熟的工业,除了最后的视频产出,视频的主题,脚本,分镜,台词等都无法用AI提供支持。
跳舞的狐狸:文生视频
突破:集大成之作
“Sora所涉及的世界模型的数据底座和模型规模可能非常庞大,因为视频内容的生成和理解需要大量的数据来训练模型,以确保生成的内容既真实又多样。这个模型的具体大小取决于其设计和用途,可能达到数百GB甚至TB级别。”宋耀告诉记者。
根据官网介绍,Sora取得的最重要的突破便是“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题”。在OpenAI发布的一份关于Sora的详细技术报告中,人们可以发现,OpenAI引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。并且,Sora可以自我训练,通过学习与处理越来越多的视频,把视频中的内容与元素分割为视觉块,收到人工指令时则再将视觉块提取制作新的视频。
除此,Sora对语言的深刻理解,也使它准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。而这要得益于该公司此前研发的DALL•E 3所使用的扩散模型,以及GPT-4的Transformer引擎模型。可以说,Sora视频生成工具是OpenAI公司研发至今的“集大成之作”。
区分:现实与虚拟的界限
Sora目前还没有进入公测阶段,人们只是在其公布的几个视频片段中对其惊鸿一瞥。
翻车的sora:倒着跑的健身者
不过,Sora也有翻车的时候。在OpenAI发布的几段有“缺陷”的视频中,我们可以看见在马路上凭空冒出的小狗,四只小狗跑着跑着就变成了五只;反方向奔跑的跑步机上,不仅人跑错了方向,跑步机也多了两个轮子与人一同运动;考古学家在沙漠里挖出的塑料椅子,突然发生了扭曲……
翻车的sora:考古学家沙漠中挖出了塑料椅子
然而,回到最初,当沉浸在东京街头女郎的视频画面中,沉浸在人工智能所“复刻”的世界中时,你还能自信地区分现实与虚拟的界限么?
相对于技术性问题,OpenAI则更担忧未来有可能出现的伦理性安全问题。由于对现实的高度仿真,误导性与欺骗性内容更有可能不被识破,而侮辱性与仇视性内容也将对人造成更大的伤害。OpenAI 称,他们正在与“red teamers”合作,他们是错误信息、仇恨内容和偏见等领域的专家,他们将对模型进行对抗性测试,以排除通过Sora创造出相关内容的可能。
那么,在真假难辨的世界里,人如何寻觅真相?
“在伦理方面,区分现实与虚拟的边界可能需要法律、技术和社会共同努力。可能包括制定相关的法规和标准来规范虚拟内容的使用和标识,开发技术工具来检测和标记AI生成的视频,以及进行公众教育来提高对虚拟内容识别的意识。”宋耀指出,在传播领域,如何鉴别虚假视频新闻也成为了一项课题。
“需要综合运用多种工具和方法,包括事实核查、数据分析、源头追踪、深度学习等。对于高校传媒专业而言,新的挑战包括培养学生识别和应对虚假信息的能力,教授他们使用新技术工具来生产和分析媒体内容,以及理解和应对AI技术对新闻业的影响。”
【如果您有新闻线索,欢迎向我们报料,一经采纳有费用酬谢。报料微信关注:ihxdsb,报料QQ:3386405712】
本财经资讯由VIP财经发布,版权来源于原作者,不代表VIP财经立场和观点,如有标注错误或侵犯利益请联系我们。