最近几天,OpenAI 发布的视频生成模型Sora成了全世界关注的焦点。它究竟会给我们的生活带来怎样的影响?连日来,记者专访了几位人工智能领域的科学家。专家表示,Sora站在ChatGPT的肩膀上,一山又比一山高,但它远未达到理解自然规律的地步,仍有很长的路要走。
人工智能研究专家、创新工场人工智能工程院执行院长王咏刚表示,OpenAI公布的样例视频连贯、流畅、稳定,与提示文本的符合程度极高,无论是时长还是质量,都远超此前的视频生成技术。初步看,Sora是人工智能发展史上的又一个里程碑,是文生视频领域的“GPT-3时刻”。AI大模型从文本信息处理进化到多模态信息处理,Sora可能是其中至关重要的一环。AI从处理文本,一跃提升到能高质量处理或生成视频,这意味着AI对世界的理解达到了一个全新的高度。通俗说,ChatGPT时AI学会了读书写字,Sora的发布则代表AI初步学会了“拍摄”视频或电影短片——这中间的技术飞跃可见一斑。2024年,很有可能掀起AI视频技术与应用发展的巨大浪潮。
从ChatGPT到Sora,两种技术之间有明确的继承与发展关系。Sora的技术突破主要得益于两个方面:,融合了两大生成式AI技术:Sora虽然在整体算法框架上沿用了图像生成领域常用的Diffusion模型,但在框架内部巧妙融入ChatGPT使用的Transformer来编码和表达视频中的时空信息,得到了名为Diffusion Transformer的组合模型。根据技术报告,Sora在视频生成时涌现的精准、连贯的表达能力,以及对物理世界的正确理解,就源自这种“组合拳”式的科技创新。第二,发挥GPT的特长,改进标注质量:Sora使用类似GPT-4的技术对训练用的样本视频做了重新标注,这从根本上解决了目前视频训练数据缺乏高质量标注的问题。例如,以前AI训练时看到一个训练视频,可能只知道其中有一个人在跳舞;现在经过GPT重新标注,AI可以知道该训练视频中,人长什么样子,穿什么衣服,跳舞时手从哪里运动到哪里,身体呈现什么姿势等等。显然,AI可以据此学到有关这个世界运动规律的更多知识。
“OpenAI首先研发出ChatGPT和GPT-4,获得了质量更高的语言理解和生成技术。现在又把ChatGPT的核心技术与视频生成的流行技术框架结合起来,并使用类似GPT-4的技术来标注视频数据——可以说Sora站在ChatGPT的肩膀上,一山又比一山高。”
原云天励飞联合创始人、首席科学家王孝宇博士是人工智能领域的科学家,2023年王孝宇当选亚太人工智能学会AAIA Fellow,早在2022年,王孝宇就入选IEEE Fellow。连日来,王孝宇也密切留意着文本生成视频Sora带来的影响。
在王孝宇看来,正如业内人士所说,Sora结合了扩散模型与变压器网络,前者擅长将随机像素变为图像,后者则长于处理文字等长序列数据,将这两项技术结合,使得Sora能如语言模型处理文本一般,轻松应对视频制作。在具体功能上,它能掌握一部分人类世界的物理规律,能部分模拟人或事物在现实世界中的存在方式,并由此产生一定水准的情感表达。在生成视频质量上,Sora较之以往文本生成视频的模型,有了质的飞跃。其高清画质,丰富的细节,尤其是在处理遮挡和场景连贯性上跟之前的文本生成视频模型都有了很大提升。
王孝宇表示,OpenAI这些年一直在进行多模态同步推进,比如说将视频转化成文字,利用AI给视频精准配音。此次推出的Sora也用到了ChatGPT的一些能力,打个比方,生成视频先需要文本,但先输入的这句话机器不一定能理解,他会拿去用ChatGPT重新写一遍,将 prompt(提示词)转化成Sora能够理解的文字,然后再进行视频创作。同时,也会把训练视频转化成Sora可以理解的文字。这些技术是相互夯实,相互帮忙,相互搭台,而不是相互替代。所以,Sora的技术架构并不复杂,只不过它跳脱出以前大家做文生视频的思路,因为海量高质量数据和很强的算力目前是比较稀缺的,而它正是在多模态演进和高质量数据学习的基础上,实现了视频涌现机制,生成的视频连贯性比较高,并且能大概理解真实世界的一些物理规律。比如人在汽车里面,而不是汽车被装在人的口袋里面,这还是非常让人振奋的。“AI技术方面更大的进步不一定是基础技术的进步,工程学、呈现效果的进步也是进步,Sora的更大意义正是在于,它让学界认识到了,通过文字和视频的桥接,来提升AI的AGI水平是有可能的。未来Sora和ChatGPT结合,将极大提高AI的AGI水平。”
王咏刚表示,尽管Sora在文本生成视频方面有了质的提升,但并不能将其功能过分夸大。”它还远远没有达到掌握物理规律的地步。“王咏刚说,不能把以前的文生图、文生视频与今天的Sora割裂看待,他们之间的技术是在同一个体系内延续发展的。也不要把Sora表现出来的可以比较好地模拟物理世界这件事,看成是Sora的一种差异化技术。其实,更好地理解物理世界,这是Sora技术涌现出来的“结果”,而非Sora主动在算法中设计出来的“原因”。之前的文生图、文生视频也存在不少“理解”或“符合”物理世界规律的例子,但失败的例子更多。Sora之所以能在这件事上有数量级的提升主要得益于更好的模型结构;更强大的GPU集群算力;比以前多得多的训练数据;更准确、细致的训练数据自动标注。
在王咏刚看来,“机器学习完全理解自然界规律”还是一个遥远的命题。Sora在技术上并没有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范畴,不大可能在“智力水平”上跃升到另一个完全不同的“境界”。”我们在使用ChatGPT时,仍会经常遇到AI胡言乱语或无法处理、复杂逻辑的问题;在使用Stable Diffusion或DALL-E等技术生成图片时,也经常会遇到图片局部或细节不符合人类指令的情况。Sora刚刚把文生视频提升到接近之前文生图的质量,怎可轻易断言,Sora离达到人类智慧(AGI)更近一些呢?“
对此,王孝宇也表示认同。他表示,Sora在文生视频技术还不是完美的,还有很多不连贯性阿克苏集装箱问答,比如说,人的手指有时会多一个或者少一个,它还不能准确地理解现实世界。一个模型能生成逼真视频并不能代表一个模型理解了物理世界,从目前来看,并没有完全掌握现实世界的物理规律。因为也是看着视频学习,它可供学习的样本相当有限。模型的预测能力依赖于其训练数据的多少和质量,对于那些超出训练数据分布的新情况,模型可能无法预测。要知道,现实世界的复杂性远超过任何模型能够通过有限数据学习到的经验。这就像天气预报一样,即便我们现在掌握了足够多的卫星云图和气象资料,也还是不能预报每一次台风的最终走向。
所以,它只能部分模拟现实世界,掌握人或者其他物体在现实世界中的存在方式。“我同意现在有些学者的观点,只让 AI 看视频是学不成世界模型的,它还不能用作现实世界的可靠模拟,它在逻辑推理上还有很大的进步空间。”他说。
文本生成视频模型未来将向哪个方向发展?王咏刚说,大语言模型的评估是一个复杂的课题。但即便如此,对AI大模型能力的评估数据,仍然是改进AI大模型的关键一环。目前大模型体现出的写作水平、绘画水平比较强,在某些方面可以接近人类的专业水平。但在逻辑推理上,AI的“智力水平”大概还处在人类孩童的阶段,无法处理过于复杂的逻辑问题,也无法完全依照人类指令完成所有任务。缺乏复杂逻辑推理能力,对世界的认知不够准确,难以完全按人类要求工作,这是阻碍AI应用落地的最核心问题。今天,更流行的AI应用还停留在知识问答、陪伴式聊天、办公文案生成、辅助编程、辅助设计等领域。只有更进一步提高AI的逻辑推理能力及可控性,AI相关应用才能更进一步普及。
3月20日下午,2024年广州市体育工作会议在市政府礼堂召开。会议紧紧围绕全国、广东省体育局长会议精神和广州市委、市政府部署要求,总结回顾2023年工作,研究部署2024年工作。
3月20日13时,“铭珠湖”号客轮缓缓靠泊南沙客运港,标志着时隔4年后,南沙客运港至香港机场航线
近日,《荔湾区西塱村村镇工业集聚区城市更新单元详细规划》经第四届广州市规划委员会地区规划专业委员会第十八次会议审议通过。
近日,广州市海珠区晓港公园内的游乐园经营方发布公告,2024年7月31日到期后由政府收回,不再继续经营。
天气不是转晴了吗,怎么今天早上那么冷,比昨天冷多了?这其实是晴空辐射导致的。这两天冷空气影响广州,日间相对和暖,早晚时分略显寒凉,昼夜温差较大,大家更好适时添衣保暖。
19日,记者从广州市从化区市场监督管理局获悉,去年,该局共受理处置各类投诉举报案件14439宗,按时办结和核查率,为消费者挽回经济损失570.19万元。
3月19日,为进一步规范番禺区学前教育办学秩序,保障幼儿安全和健康,促进学前教育事业健康有序发展,广州市番禺区教育局特向3-6岁适龄幼儿家长发出入园温馨提示:根据《中华人民共和国教育法》《中华人民共和国民办教育促进法》《幼儿园工作规程》等相关规定,幼儿园是对3周岁以上学龄前幼儿实施保育和教育的机构。
“雨霁风光,春分天气,千花百卉争明媚。”春分日,连日阴雨的广州迎来了灿烂的阳光。这在常年平均雨量差不多是上一个节气2倍的春分节气,显得格外珍贵。今年的春分节气依然多雨,除了今明两天,未来10天广州都有可能下雨。
在广东深汕西高速改扩建的各个施工现场,处处可见种类繁多的高新设备在有条不紊地生产与运行。
3月20日,记者从珠海边检总站青茂边检站获悉,青茂边检站自2021年9月8日开通以来,累计查验出入境人员突破5000万人次大关。
3月19日,有信制造(中山)有限公司一票自日本进口货物经拱北海关所属中山港海关验放后顺利通关,凭借日本签发的《区域全面经济伙伴关系协定》(RCEP)原产地证书,企业减免税款3167.6元。
近日,地处佛山南部的顺德区容桂街道公布了1-2月辖区累计工业用电量及用电更高负荷,双双创下历史新高,展现千亿工业大镇满满的干劲和活力。
记者从统计局中山调查队获悉,2024年2月,中山居民消费价格(CPI)同比上涨0.6%,环比上涨1.0%。
3月20日上午10点55分,保利长大中山西环高速(含小榄支线)与中江高速相接的两个枢纽互通——横栏北、镇南互通顺利通车。
3月20日,韶关市乳源瑶族自治县与广东外语外贸大学合作办学签约揭牌仪式在乳源举行。
眼下,茂名信宜市七彩椒丰收,正陆续上市。这一丰收不仅为广大村民带来了实实在在的收益,更为信宜的乡村振兴注入了“”活力。
3月19日,记者从“12·18”积石山6.2级地震青海海东灾区灾后恢复重建工作指挥部了解到,截至3月15日18时,海东市249项灾后重建项目已发布招标公告153项,完成招投标59项,开工建设48项,累计完成投资3713万元。
下载一部2小时长的8K电影,文件大小在90GB左右,用千兆宽带下载需要大概12分钟,而用万兆云宽带下载仅需72秒。
日前,教育部印发《关于做好2024年普通高校招生工作的通知》,对2024年普通高校招生工作作出部署。
据民航局网站消息,2022年3月21日,东方航空云南有限公司波音737-800型客机(注册号B-1791),执行MU5735昆明长水机场至广州白云机场定期客运航班。
日前,教育部印发《关于做好2024年普通高校招生工作的通知》,对2024年普通高校招生工作作出部署。
3月20日,天都一号、二号通导技术试验星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空,卫星作为深空探测实验室的星,将为月球通导技术提供先期验证。
国务院公布《节约用水条例》,自2024年5月1日起施行。这是我国首部节约用水行政法规。
2024“相约春天赏樱花”暨湖北最美赏花季20日在武汉启动,通过一封封“相约春天赏樱花”定制明信片的投放,湖北向海内外游客发起赏花邀约。
20日,邮政局发布前2月邮政行业运行情况显示,1-2月,邮政行业寄递业务量完成262.6亿件,同比增长25.1%。其中,快递业务量完成232.6亿件,同比增长28.5%。
国谈药,是近年来医保局通过价格谈判(也就是大家在电视、网络上看到的“灵魂谈判”)纳入医保目录的几百种企业生产、价格较为昂贵的药品。其中涵盖了70余种肿瘤靶向药、80余种罕见病用药。
中国民航局官网20日发布《2023年全国民用运输机场生产统计公报》,《公报》显示,各运输机场中,年旅客吞吐量1000万人次以上的运输机场有38个,较上年净增加20个。
当地时间3月18日,在美国圣何塞举行的英伟达GTC人工智能大会上,英伟达发布人形机器人通用基础模型Project GR00T,希望能进一步推动其在机器人和具身智能方面的突破。
日前,国务院公布《中华人民共和国消费者权益保护法实施条例》,自2024年7月1日起施行。
据邮政局网站消息,1-2月,邮政行业寄递业务量完成262.6亿件,同比增长25.1%。其中,快递业务量完成232.6亿件,同比增长28.5%。
近一段时间以来,国际金价屡创新高,黄金消费市场也是一片热火朝天,随之而来的,是有关黄金消费的投诉与日俱增。多位消费者表示,多个网络平台销售的“999足金”产品存在“以假充真”“掺杂掺假”等情况。消费者在网上买到的所谓足金商品究竟有什么猫腻?
美经济学家杰弗里·萨克斯称TikTok法案很荒谬:谁最有可能监视我?美国政府
美经济学家杰弗里·萨克斯称TikTok法案很荒谬:谁最有可能监视我?美国政府。
当地时间3月20日,爱尔兰总理利奥·瓦拉德卡召开新闻发布会,宣布辞去统一党党首职务。
当地时间3月20日,危地马拉减灾协调机构通过其官方网络账户公布了自2023年11月初进入旱季以来该国发生火灾的情况。
巴勒斯坦抵抗运动(哈马斯)媒体办公室当地时间20日发表声明称,以军在过去一周针对人道主义救援工作人员共发起8次袭击,导致上百人死亡。
当地时间20日,世界卫生组织驻巴勒斯坦被占领土办事处发表声明称,自去年10月7日本轮巴以冲突爆发以来,世界卫生组织已经记录到共410次针对加沙地带医疗机构的袭击,共造成685人死亡、902人受伤。
围绕边境安全与移民潮,美国得克萨斯州与联邦政府缠斗不休。一项被美国联邦政府指责为“僭越、违宪”的得州法律19日先是在美国联邦更高法院获“放行”,随后又在联邦第五巡回上诉法院被暂时“叫停”。
当地时间20日,欧盟外交和安全政策代表博雷利与乌克兰总理什梅加尔共同主持了欧盟-乌克兰协会理事会。
俄罗斯国防部3月19日称,俄军摧毁了靠近库尔斯克州俄方边境的一个乌军侦查破坏小组集结点,挫败了乌军人员在俄罗斯别尔哥罗德州边境地区的破坏行动,并在顿涅茨克地区控制了阿夫杰耶夫卡方向上的一个居民定居点。
3月20日,第十五届全国运动会和全国第十二届残疾人运动会暨第九届特殊奥林匹克运动会广州赛区筹备工作新闻发布会召开。
今天上午,广州市人民政府新闻办公室在广州市新闻发布厅召开2025十五运会和残特奥会广州赛区筹备工作新闻发布会,邀请有关负责同志介绍广州赛区整体筹备情况,包括大型活动、场馆、人才、志愿者等内容。
今天上午,广州市人民政府新闻办公室在广州市新闻发布厅召开2025十五运会和残特奥会广州赛区筹备工作新闻发布会,邀请有关负责同志介绍广州赛区整体筹备情况。
施普林格·自然旗下学术期刊《自然-通讯》最新发表一篇人工智能(AI)研究论文称,研究人员开发出一个名为TacticAI的AI系统,能在足球比赛中预测角球结果并提供实际且准确的战术建议。
3月19日晚,2024全国女子五人制足球锦标赛在宁夏平罗县文体健身中心收官,经过6轮34场的激烈角逐,最终,宁夏平罗恒利在主场获得。
第十五届春兰杯世界职业围棋锦标赛19日在福建省武夷山拉开帷幕,中国队五位选手悉数获胜晋级。
步、手枪射击队巴黎奥运会最终队伍选拔赛第三场19日进行了男子25米手枪速射项目争夺,山东队老将李越宏获得亚军,最终以选拔积分的成绩与上海队的王鑫杰一同入选射击队奥运阵容。
“林书豪使用违禁药物”一事近日引发热议,他目前效力于台湾职业篮球联赛Plus League(PLG)联盟的新北国王队。
在巴西桑托斯足球俱乐部的青训基地,下午的训练课刚刚开始,U17梯队的守门员球衣上就已经全是泥了,因为守门员要同时注意左右两边和正中三个方向飞来的皮球并尽力扑出,之后还要练习在有遮挡情况下判断球的方向,不停高推低挡、不停高高跃起再摔到地上。
据世界乒乓球职业大联盟官方微博消息,WTT仁川赛2024单打前五号种子名单今日公布,樊振东、孙颖莎将分别作为男单和女单的头号种子出战。
短剧成了“金钱收割机”?“解锁一集只需0.9元”“多次付费仍无法解锁全集”“观看广告解锁剧集”……短剧收费乱象频频发生,尤当引起重视。
近日,人力资源社会保障部办公厅印发了《新就业形态劳动者休息和劳动报酬权益保障指引》《新就业形态劳动者劳动规则公示指引》《新就业形态劳动者权益维护服务指南》等系列指引指南,引导企业进一步依法合规用工,更好维护新就业形态劳动者权益,引导劳动者依法合理维权,进一步畅通劳动者权益维护渠道。
近日,“3名初中生杀害同学并掩埋”案件引起轩然。根据官方通报,“初步认定这是一起有预谋的犯罪案件”。施暴者年龄之小、手段之残忍,深深刺痛了公众神经。
更高人民法院联合更高人民检察院、公安部、税务总局共同举办新闻发布会,发布“两高”《关于办理危害税收征管刑事案件适用法律若干问题的解释》。
“如果您在桐庐没有收入,吃饭遇到困难,您可以进入本店告诉工作人员‘来份单人餐’,吃好直接走,不必客气!”在浙江省杭州市桐庐县一家烧饼小店门上,贴着这样一张海报。
近期,一项调查显示,78.4%的受访青年支持举办极简婚礼,64.2%的受访青年觉得极简婚礼的流行是年轻人追求个性化和自由的体现,63.4%的受访青年认为极简婚礼应取消婚闹等不良习俗。
近日,凉山州昭觉县人民法院对“凉山孟阳”“凉山阿泽”案一审宣判,共有8人因虚假广告罪被判刑。
近日,多名社交平台博主对某汽车品牌的新品车型进行恶意P图,将“奠”和“新能源殡仪车”等字样贴于车身,吐槽其“像棺材”,相关图片在网络上热传并引发争议。
今年是实现“十四五”规划目标任务的关键一年,中国经济运行态势备受瞩目。
正在老去的房子如何“善后”?这个问题也曾经困扰着花都区集群街2号楼的街坊业主们。
近日,《荔湾区西塱村村镇工业集聚区城市更新单元详细规划》经第四届广州市规划委员会地区规划专业委员会第十八次会议审议通过。[详细]
天气不是转晴了吗,怎么今天早上那么冷,比昨天冷多了?这其实是晴空辐射导致的。这两天冷空气影响广州,日间相对和暖,早晚时分略显寒凉,昼夜温差较大,大家更好适时添衣保暖。[详细]
19日,记者从广州市从化区市场监督管理局获悉,去年,该局共受理处置各类投诉举报案件14439宗,按时办结和核查率,为消费者挽回经济损失570.19万元。[详细]
“雨霁风光,春分天气,千花百卉争明媚。”春分日,连日阴雨的广州迎来了灿烂的阳光。这在常年平均雨量差不多是上一个节气2倍的春分节气,显得格外珍贵。今年的春分节气依然多雨,除了今明两天,未来10天广州都有可能下雨。[详细]
今天上午,广州市人民政府新闻办公室在广州市新闻发布厅召开2025十五运会和残特奥会广州赛区筹备工作新闻发布会,邀请有关负责同志介绍广州赛区整体筹备情况。[详细]Sora带来巨大冲击波 但还需“学好物理”