《科学四十人》系列座谈第八期(左起,薛澜、李航、张宏江、周忠和)
大家好,我是知识分子总编辑周忠和,自2022年11月30日ChatGPT发布以来,全球范围内掀起了有史以来规模最大的人工智能浪潮。
在过去短短的一年多时间里,ChatGPT4.0和文生视频的大模型SORA相继发布,就在不久前,Openai的竞争对手Anthropic发布的新一代大模型Claude 3甚至被认为全面超越了GPT-4。
全球都在热烈讨论AGI——也就是我们所说的通用人工智能——何时能实现?突飞猛进的人工智能究竟会给我们人类生活带来什么样的影响?比如说会不会迎来大规模的失业或者就业的重组?会不会从根本上改变我们人类文明的形态?甚至于AI觉醒以后,硅基生命会不会超越以人类为代表的碳基生命?
我们请到了源码资本投资合伙人、北京智源研究院创始理事长张宏江,清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜,字节跳动研究部门负责人李航,来探讨我们离通用人工智能究竟还有多远,OpenAI开源的可能性和开源生态,中国人工智能的发展机遇和挑战。
Sora开始理解物理规律、懂得常识
周忠和:我们今天的第一个问题是关于Sora的,Open AI推出的Sora,究竟有哪些地方让你感到真正的兴奋,或者说Sora的最值得关注的地方是什么?Sora给你最大的触动是什么?
薛澜: 我看到Sora的时候感觉很震惊。因为它不仅仅是文字交流,而且有了一定的想象力。Sora能够根据一段简短的文字描述,生成一系列连贯的动态画面,这不仅仅是对文本的理解,更是对物理世界运作规律的一种把握。
过去我们讨论AI的时候,总认为想象力是人类的专利,但现在,Sora显示出AI也能具备这样的能力。这可能是Sora一个与众不同的地方。
张宏江: 首先,我想谈谈Sora这个大模型给我带来的震撼。Sora的发布实际上是演示性的,它发布演示视频,并没发布模型本身,但从40个演示视频中,我们可以看到AI技术的巨大进步,非常令人振奋。
我注意到几个亮点:第一,它生成的是高分辨率视频,过去的视频生成没有做到过这么高的分辨率;第二,视频时长达到60秒,而过去在生成视频方面表现比较好的Runway做了两年,也只能做到几秒钟;第三,也是最让人震撼的是其中一个场景,一辆越野吉普车在崎岖的山路上狂奔。这种镜头以往需要有一台设备在后面跟拍,因为路面颠簸难度很高,但生成的视频效果非常逼真。包括车辆行驶的逻辑也很优秀,一直是靠右行驶,转弯表现也很自然。
智源研究院创始理事长张宏江
周忠和: 我有个外行的问题。我们普通人看这些视频,可能会觉得它们不过就是一些高质量的影像。它的想象力和逻辑不也是人灌输进去的吗?
张宏江: 不,人并没有明确地告知它要这么做。
在传统图形学模式下,制作视频通常需要构建详细的物理模型。例如,我们想制作一个车辆行驶的视频,需要先创建一个三维的车辆模型,以及一个包含道路和其他环境元素的场景模型。场景环境模型相当于虚拟世界,车辆模型则是在这个世界中运动的物体。这些模型需要精确地定义动态行为和环境的交互方式,对各种物理规律、运动规则进行明确编码,确保车辆在转弯或行驶时的表现符合现实世界的情况。
在使用Sora这样的大模型时,我们并没有直接告诉AI这些具体的物理规则。相反,是AI通过分析大量的视频数据,自己学到的。我们没有告诉它,世界上大部分地方车是靠右走的。也没有告诉它,如果不跟随路线转弯,车会撞到山上。这种明确的规则我们都没有告诉它。
这是让我觉得非常震撼的。GPT 3.5、GPT 4.0以及Claude这些模型,它们主要擅长理解语言,也就是文字描述。但Sora所展示的不仅仅是理解语言,还能够理解物理世界。
周忠和:你可以说它已经理解物理规律、懂得常识了,但我总觉得这只是模仿。
张宏江: 是模仿,但记得费曼曾说过一句名言,“我无法理解我不能创造的东西”。现在我们能生成出来了,难道不就是理解了吗?
薛澜: 说到智能,我们得先定义一下什么是人的智能。我们有认知能力、推理能力、创造力,可能还有其他方面,比如情商。如果我们从这些方面看,有些方面,比如认知和推理能力,AI可能已经超过了常人,甚至可能超过最厉害的人。但在另一些维度上,人类可能还会保持优势。
另外,您虽然觉得人工智能只是模仿。但人类获得这些能力的过程,本质上不也是如此吗?都是在不断接收外部信息,逐步形成认知和思维模式,二者在方法上没有根本区别。
周忠和:李航老师,您是否也有同样的感受?
李航:有些地方一样,有些地方不一样。我们自己开发的PixelDance系统,效果上超越了当时最好的Runway等系统,但今年2月Sora发布,PixelDance又被Sora超越。我的一个感受是做事要快,因为现在的竞争非常激烈。
另外从Sora的技术报告和相关论文看,虽然它技术上有所创新,但并不是革命性的。主要的创新是将扩散模型的Unet架构改成了Transformer架构,这让模型能够处理更多的数据,更好地学习物理现象。从科学的角度上看,我认为AI大模型目前具有一个共同特点,就是它们都基于Transformer架构,最基础的东西是都一样的。
周忠和: 近几年在基础科学原理上并没有太大突破?
李航: 是的,虽然有所进步,但自从2017年Transformer架构出现以来,我们看到了不断的收敛。Transformer最初是为自然语言处理开发的,现在,即使是计算机视觉领域也开始转向使用Transformer架构。
周忠和: 那么,你有没有张老师那样的感觉,也认为AI模型现在开始理解常识和物理规律了?
李航: 是的,我同意张老师的观点。但我认为未来的空间仍然非常大。Sora还不是3D的。3D生成技术,能够让我们从不同角度看到物体的样子。比如,从正面看到一个人,我们是有能力想象他的后脑勺是什么样子的。3D生成能帮助我们看到人的后脑勺。
目前,3D生成技术还处于初级阶段。去年的计算机视觉国际会议ICCV,是领域内最顶级的会议之一,在会议上展示的论文,大家可以去看目前技术生成的效果,其实都是比较简单的。比如一个物体,桌子或椅子,把它换一个角度是什么样子。
再有,现在的生成模型并没有物体的语义。我们看视频时,能认出这是汽车、那是道路,但在Sora的模型中,它并不准确地理解这些,它只是对像素和数据进行处理。未来如果我们能够进一步发展这项技术,让它不仅能处理3D空间关系,还能理解物体的语义信息,那么我们就更接近于创造出类似人类的智能。在这方面,我们还有很多工作可以做。
Transformer是最佳路径吗?
我们会不会过于路径依赖了?
张宏江:李老师刚才提到的Transformer架构确实非常关键。自2017年起,Transformer这条路径给我们做AI的人或者做大模型的人指出了一条路。过去七年,行业内已经认可它是大模型发展通向AGI的一条正道。
技术发展是有路径依赖的。意味着一旦我们确定了正确的方向,所有的关注和资源都会随之集中。回到七年前,Google的研究人员发明了Transformer架构,但OpenAI才是真正认识到其潜力并全力投入的一方。尽管Google也推出了许多模型,但很长一段时间没有一个能够超越GPT3.5的成就。
现在所有做大模型的人,都把重点放在Transformer架构上,包括Sora也是这样,过去生成视频用Unet框架无法达到的,换成Transformer架构就实现了突破。未来,无论是GPT4.5、GPT5、Claude还是Gemini,Transformer这条道路都会持续。
薛澜: 既然说到这儿,我插一个问题。我们是否会因为路径依赖的原因,而忽视了其他可能更好的路径?2017年的Transformer架构确实很重要,但当时也有其他路径。我们现在是否确定这是最好的路径?我们是否可能错过了其他潜在的优秀路径?
清华大学苏世民书院院长薛澜
张宏江: 您的问题正好给了我一个机会,我想说的是,这就像当初电的发明,当交流电成为主流后,直流电最终只用于电池。这种路径依赖是非常关键的。
李航:我想补充的是,作为科学家,我们总是寻求更好的、颠覆性的技术来改变现有的Transformer。但目前大家做了很多努力,我也知道一些研究。尽管在小规模上有些模型看起来还不错,可一旦扩大规模,它们都无法超越Transformer。目前的结论是Transformer确实非常强大,其他模型,但到目前为止,还没有能成功颠覆Transformer。
张宏江:这引出了另一个话题,也就是大模型的Scaling Law。Transformer架构成为主流,我们验证了它的强大。接下来,是把它的规模越做越大,给它喂越来越多的数据。这个领域从业者们大多认为,这个架构的潜力还没有达到极限。
所以,你可以看到为什么现在大家都在急切地投资购买芯片、增强算力。当我们在追求算力的时候,实际上也是在竞争数据中心(IDC)的资源。而在抢占IDC的过程中,我们又不得不去争取电力供应。这一连串的动作,实际上都是因为大家认同一个观点:Scaling Law——相信随着模型规模的增长,性能和能力也会相应提升。
周忠和: 刚才张老师认为Sora生成的视频是符合物理规律的,Sora能够理解常识。不过也有不同的声音,比如图灵奖得主杨立昆(Yann Lecun),他说仅靠大量文本数据训练是达不到人类智能水平的。还有的人觉得这是个死胡同,认为快到极限了。您刚才好像不太同意这种看法?
张宏江: 我可能要得罪人了。我觉得那些说这种路线快到极限的人,其实并不是真正的从业人员,没有参与其中。如果在做这件事,你会我们这些在一线的人一样,非常相信Scaling Law。
如果大家对这个感兴趣的话,可以看看清华大学清华大学交叉信息研究院的助理教授,也是月之暗面公司CEO杨植麟最近的采访,他谈到了Scaling Law,我觉得讲得很好。他作为一个年轻学者,对Transformer和未来的看法,我觉得很有见地。我们离Transformer的极限还早着呢,现在的问题可能是数据不够,我们应该想办法继续扩大数据规模。
周忠和: 还有人提到电力和其他资源。
张宏江: Scaling Law会带动很多相关的东西。比如芯片行业,英伟达的股票疯涨,IDC公司也是,数据现在变得非常值钱。这些都是推动整个产业发展的生态因素。所以,我觉得极限还远着呢。像杨立昆这样的学者,我非常尊重他,但在这个观点上我不太认同他。他认为数据驱动的系统没有真正的推理和学习能力,走不到AGI。这是他的定义,但按照我的定义,我们正在朝那个方向前进。
周忠和: 李航老师,你的观点和张老师一样吗?
李航: 我部分同意张老师的看法。我相信Scaling Law的潜力,也认为我们还没看到极限。不过,我的观点也不完全一样,我去年在香港开会时和杨立昆老师当面聊过,他觉得现在的大模型缺乏世界模型。我理解的是,如果能够将视觉、语言等多模态信息结合,就会更接近世界模型。就像我刚才说的,视频生成的时候,也能生成语义信息和3D信息,那就更接近人类了。我觉得这方面还有很大的空间,我们会沿着Scaling Law的路走下去。
未来可能97%的人不工作,
只有3%的人在工作
周忠和:人工智能发展如此迅猛,对我们生活和工作的影响,也是大家非常关注的。例如,自动驾驶、互联网产业,甚至有人说它对白领工作的影响更大。薛老师,您认为短期内哪个领域会受到最大的冲击,白领还是蓝领?
薛澜:我认为所有涉及信息或数据获取、处理和传播的行业都将受到巨大冲击。这不仅包括了传播业,如电影和电视,还涵盖了教育、艺术,甚至医疗服务。还包括文秘工作和法律行业的助理工作,所有与信息处理相关的领域,包括信息获取、处理和传播,都可能逐渐受到影响。
周忠和:这些变化会多快发生呢?5年还是10年?
薛澜:影响的速度取决于两个方面。首先是人工智能本身的效率提升有多快。其次是社会制度的变革,这些制度对传统行业的保护非常强。所以这一方面是技术进步的过程,一方面也是制度变迁,这两个方面需要协调起来往前走。
周忠和:您提到教育也会受到影响,如果预计在未来5到10年内,某些行业将不复存在,那我们现在为什么还要在大学里学习它们呢?这是一个紧迫的问题,因为变化来得太快,可能我们还没有足够的讨论。
李航:很难预测,但有两个明显的趋势。首先,会出现新的工作,比如数据标注。数据非常重要,现在数学家陶哲轩等开始标注数学定理证明的数据,使用新的编程语言Lean来描述这个过程。他就是利用他的经验,把证明的过程写出来,让AI学习。我估计未来数学定理的证明,AI也能做。
其次,各行各业,包括编程和AI领域,都会出现两极分化,最优秀和有创造力的人才将发挥更重要的作用。
薛澜(左)和字节跳动研究部门负责人李航(右)
周忠和:那么对于普通人来说,哪些行业的影响最大?
李航:硬件领域的变化可能会慢一些,因为硬件迭代需要时间。至于软件,发展会更快。但我认为长期来看,软件开发的形态也会发生变化。一些简单的程序AI是能够写的。
周忠和:机器完全可以替代人的创造性吗?
李航:就像薛老师刚才说过的,我认为有三个方面人工智能目前难以取代人类:情感、创造力和自由意志。情感是人的本能,要在机器上实现情感就等同于造一个拥有生命的人了。创造力和自由意志同理,这三者不是单纯的智能,而是生命现象。
如果一个事情是任务,能去评价完成它的好坏,AI基本都能完成。冯诺依曼说过这样一句话,意思就是告诉我一个任务,不管是多复杂,把它定义清楚,我都能给你造一个机器,专门去完成你这个任务。
现在大家经常谈AGI,谈通用人工智能,“通用”确实是有很大的革命性的,这个工具不像冯诺依曼说的,专门做某一样事情。它变成很通用,完成很多很多的任务。但另一方面,只要这些任务能够定义、能够标数据、能有评价标准,看样子AI基本都能做。前面说到人类的几个特点属于生命现象,不是任务,AI做不了。但是AI做很多任务,能超过人,可能未来AI做大部分工作都超过人。
张宏江:我同意薛老师的观点。人的智能有多个维度,在许多维度上,机器可能会超越人类。对于普通人来说,最担心的可能是自己的工作。
我倒觉得白领工作可能会受到较快的冲击。我上周和崔健谈AI,谈到未来可能是97%的人不工作,只有3%有职业。这不是我的观点,而是《世界简史》作者的观点:平均技能水平的工作者可能会被替代,但顶尖艺术家不用担心,因为他们是少数。
至于助理类工作,比如法务助理,或者分析师很大程度会被替代。现在一些AI工具已经能帮助我们更高效地工作,比如许多人还要通过微软的Outlook手工安排会议,以后可能是AI来做这个工作,效率会提高很多。
另外我们不能停留在提高效率的阶段,30年前国际象棋大师卡斯帕罗夫被深蓝击败。当时卡斯帕洛夫曾说,未来机器将在象棋领域给予我们巨大的帮助。然而,30年后的今天,我们看到的情况是,机器在象棋上已经不需要人类的帮助。
周忠和:那么,蓝领工作呢?
张宏江:我为什么对Sora如此激动,就在于它对物理世界的初步理解。当一个系统能够理解物理世界时,就能指挥机器人执行任务。硬件的AI化进展可能比软件慢,但随着机器人技术的进步,比如灵巧手和机械能力的提升,AI对蓝领工作的影响只是一个时间问题。
周忠和:人工智能对程序员有什么影响?
张宏江:软件设计师的工作可能会被自动化工具,比如微软的GitHub Copilot和Google的对应产品所替代。这些工具已经能够做很多事情,通过大模型驱动,能完成很多常用程序的编写,至少可以提高开发者的效率。其他重复性的工作也很容易被替代。
周忠和:那研究人工智能的行业,未来也还会需要那么多人吗?
李航:需要更多的人,但也会两级分化。比如数据标注这项工作,从简单的常识性的标注,到我刚才说的专业性的标注,差别是很大的。
周忠和:薛老师,针对我们国家的自然科学科研人员,尤其是那些在技术开发和基础研究领域处于领先地位的研究人员,人工智能的发展会对他们的工作产生怎样的影响?
薛澜:我认为肯定会有显著的冲击,科学研究也会出现两极分化。但我们需要区分常规科研和科学革命这两种情况,如果我们按照托马斯·库恩的科学革命理论来看,科学研究可以分为常态科研和科学革命。在常态科研中,我们已经对某个领域的基本范式有了清晰的理解,并且正在解决一些尚未解决的问题,这就像是在解谜。例如,当前的蛋白结构研究就是这样的领域。
在这些领域,人工智能可能会替代很多工作,在现有范式下工作的科研人员,他们的工作可能会被人工智能所替代。但是对于那些能够发现新问题,制造危机,挑战现有范式的研究者,这些人的工作是人工智能难以替代的。这样的研究者永远有需求。
我们距离真正的通用人工智能还有多远?
周忠和:当下一个非常热门的话题是,我们距离真正的通用人工智能(AGI)有多远,AGI的定义或者实现的标志是什么?另外,目前Open AI引领的人工智能革命是比较公认的,但是否有其他竞争者?比如Claude,有人说它超越了ChatGPT和Open AI,但这种说法是否夸张?
李航:目前还没有一个严格的定义来界定什么是AGI。
大模型的通用性是一个显著的特点,它们能做很多事情,发展空间非常大。但是,它和人在创造力、情感和自由意志等方面仍有区别,模型在这些方面的表现也只能近似人类智能,而不是完全实现人类智能。
像黄仁勋说的AGI可能在5年内实现,也是基于特定的定义。我认为,一旦我们能够清楚地定义一个任务并评价它的完成情况,人工智能通常能够完成得很好。但是,人类能理解世界,能够遐想和想象,要想在这些方面追上人,我觉得十年二十年之内人工智能还做不到。
张宏江: 我想就李航老师提到的三点进行争论。我同意其中的两点,但对于情感这一点,我认为情感可以被视为人类的奖励函数(rewarding function)。如果我们能够学习人类的奖励函数,提供足够的数据,那么人工智能就有可能模拟情感。
这是一种高维度的复杂函数,在计算上会很复杂,而这正是大型模型的优势所在。例如,鄂维南老师做的AI for Science,在材料设计,简单的材料结构可以通过微分方程算出来,复杂的分子材料几乎不可能算出来,利用大模型进行模拟是更好的办法。在材料设计、天气预测和生命科学等领域,当问题复杂到无法用数学方程来描述时,恰恰是大模型发挥作用的地方。
周忠和:有人说大模型只是AGI的一块孤立的拼图,还有很多拼图没找到,几位老师认同这个观点吗?
张宏江:这一定是哲学家说的。
周忠和:这是你所不认同的,对吧。李老师,你觉得现在的大模型方向,就是通向AGI的充分条件吗?
李航: 在大部分情况下,我认为现有的大模型方向是正确的,是通向AGI的重要途径。但也可能存在一些人类智能无法用大模型实现。
周忠和:李老师,你曾经提到过,深度学习在未来一段时间是主流,但长远来看,我们还是应该从人脑计算中获取启发。
李航:我的观点和现在的大模型路线其实不矛盾,只是希望将来能够在更好地模仿人脑,实现更接近人的AGI。
计算存在功能、算法和物理实现三个层面。现有的以Transformer为基础的大模型主要是在功能层面上模仿人类,但在算法层面,AI和人的大脑的结构还是完全不一样的,所以我们可以在功能层面上更多借鉴人脑的机制。
薛澜:我跟他们俩唱一个反调。路径依赖确实存在,但错过的道路,可能我们在很多年后会重新走回来。比如过去我们的技术和资金都投资在燃油动力汽车上,其实电动汽车上个世纪初就已经被发现了,曾经有一段时间也还是可以跟汽油车相竞争的,只是后来因为多种原因就被忽略掉了。多年以后的现在,电车又发展的很好,所以不排除错过的道路在未来能有很好的发展。
周忠和:薛老师,考虑到人工智能目前的发展趋势,您认为我们最需要哪类人才?是更倾向于计算机专业的技术人才,还是需要更多跨学科的专家,比如脑科学、生命科学等领域的?
薛澜:我认为我们需要的人才首先要具备创造力,创造力在今后仍然至关重要。另外,传统的、那种很强调专业细分的教育模式可能需要改变。我们需要从新的维度重新思考教育问题。
我们过去学习的知识和技能可以分为两类:一类是为了在社会中生存所必需的,另一类则是提升我们认知能力的学习。我估计,随着人工智能的发展,第一类能力可能会被系统替代,这些东西也就没有多大必要去学习。
相反,我们需要思考的是如何通过教育,提升受教育者的认知能力和创造力。可能需要一种全新的教育方式,与现有的教育体系完全不同。实际上,人工智能对教育系统的冲击应该是最大的,但我们恰恰是动的最慢的。
周忠和:李老师和张老师两位都在公司里工作,你们希望招聘什么样的人才?期待未来的教育系统能够给你们输出什么样的人才?
李航: 在人工智能领域,本科的教育是非常重要的。在美国,顶尖大学机器学习本科学生的作业难度非常高,甚至要熬夜来完成。计算机领域的一些基本技能培养,美国本科教育都已经能做得很好,而国内在这方面需要加强。就纯计算机和人工智能的人才培养的角度来说,我是看到、感到有一定的差距的。
周忠和: 人工智能变成热门之后,很多人提议从中学开始学习人工智能。
张宏江: 作为两个孩子的父亲,我可能对教育稍微多一点认识。我认为重要的是培养孩子们的思考能力,而不只是具体知识。
美国的学校,对14岁的学生就开设逻辑和批判性思维课程。这个课程是教孩子们怎么思考,而不是一门具体的专业知识。站在任何一个专业角度讲,如果你想从事研究的话,逻辑和批判性思考能力是非常重要的。
未来的人才,最需要逻辑和批判性思考的能力。灌输知识这样的教育,实际上是培养就业能力,而且是过去的就业能力,未来是行不通的。 从科研人才的角度讲。回过头看,在科学职业化之前、文艺复兴之后的几百年,也是没有职业科学家的,需要的是他们思考的能力和观察的能力。
薛澜:我觉得越是在这种形势下,人文素养也会变得非常重要。
开源和闭源,哪一种模式对人类更安全?
周忠和: 最近有消息说马斯克因OpenAI违背了其非盈利的宗旨,打算将其告上法庭。我们知道非盈利模式有其优势,但资金的缺乏也可能影响技术的发展。
薛澜:现代科学和科技的发展,是希望在开放科学的道路上前进的,尤其是人工智能这个领域。开源可以促进技术的交流和发展。反对开源的人担心安全隐患,但也有人认为不开源可能更危险,这些方面的争论一直存在。我觉得可以请其他两位人工智能领域的专家,讲下到底应该怎么权衡这个问题?
李航: 去年一个AI会议上沈向洋博士表达过一个观点,我非常同意,是否开源取决于公司的商业地位和策略。行业的领导者可能不会选择开源,第一名肯定不会开源,第二名想要和第一名竞争也不会开源,第三、第四名的公司可能会选择开源以取得一些竞争优势。
我觉得至少从历史的经验上看,这个观点是有道理的。AI公司里,现在没有开源的是OpenAI、Anthropic。开源的是Meta和Amazon。
周忠和:商业性之外,我们可能更关心开源争论对技术发展的影响,以及安全问题。这方面您怎么看?
李航:实际上,从商业角度来看,Meta和其他公司选择开源,并不是出于其他考虑,而是因为这样做能在商业上带来一定的利益。我同意沈向洋的观点,他认为这些公司开源是为了在商业利益上获得优势。这涉及到一个更根本的问题:人工智能技术的研究和开发是否应该以市场经济为导向。
字节跳动研究部门负责人李航
周忠和:薛老师您赞成AI公司以盈利为导向吗?
薛澜:我们现在进行的关于人工智能的研究,实际上相当于在从事科学技术的基础研究。在科学技术领域里,基础研究通常是开源的。不过,人工智能研究的回报机制与之略有不同。在学术领域,最先发表论文被认可拥有优先权,这就是所谓的回报制度,已经被大家所公认。而人工智能大公司之间,真正的竞争在于最终的应用和产品层面。
从这个角度讲,我认为应当鼓励开源。对于大公司来说,它们可以在商业应用和产品层面寻找盈利模式,在那个领域开展竞争。从各个研究领域的实践来看,这种在基础研究阶段开源、在产品化阶段闭源并寻求商业化的模式,目前看来对于推动人类社会进步是一种非常有效的做法。
张宏江: 我非常赞同薛老师的观点。开源是探索阶段的重要工具,它鼓励大家一起讨论、交流和评估,这样的话才能够真正地推动一个领域的进步。从这一点上来说,我非常赞同开源。开源能够把真正地做研究的人带到一块。今天的AI领域,从方法论、架构还有很多问题需要解决,开源是一个非常好的交流载体。
周忠和: 您刚才提到了安全问题,那么我们应该如何解决开源可能带来的安全隐患?
张宏江: 无论是开源还是闭源,安全问题都是不可避免的。但对于开源模型,我们更容易进行验证和审查。未来,任何发布的AI模型都应该通过安全认证。此外,如果AI是一个可以改变人类的技术,我们需要在AI安全研究上投入更多的资源。
我曾在一个AI安全闭门会上听到一个观点,让我很吃惊,但我相信其中的数据是对的:核电站设备的研发费用中有95%用于安全,这对我们AI领域来说是一个启示。我们是否也应该在AI安全上投入更多的资源?如果核电投入95%,AI是不是应该在安全上投入10%或者15%,因为这个技术也是可能导致人类灭绝的。
周忠和: 薛老师,您在经常在中国和国际舞台上积极讨论人工智能治理的问题。安全性显然是大家非常关注的焦点。 鉴于人工智能已经达到了相当高的智能水平,我们是否可以认为开源在某种程度上也是一种保障措施呢?
薛澜: 是的,开源与闭源的讨论实际上涉及到利弊的权衡。正如刚才所提到的,有人可能会担心开源会让极端组织或个人有机会滥用技术。不论开源还是闭源,只要有心作恶,总会找到途径。现有的各种技术,如果被滥用,都可能对人类社会造成破坏,生物技术就是个例子,它同样存在被滥用的风险。因此,更重要的是如何建立一套体系,来防范和制止任何个人或组织滥用技术危害社会。我们需要更多地考虑如何通过监管机制来控制这些风险。
假设从企业的商业角度出发,需要采取闭源等策略。在这种情况下,我们就需要建立一套监管机制。这个监管体系将对企业的闭源研究进行规范和约束,以确保其合法合规。所以我认为,企业的需求和监管制度是相互促进、相辅相成的。
中国在这一波人工智能浪潮中处于什么位置?
周忠和:中国在人工智能研究方面发表了大量的文章,并且在国际上也处于较为领先的位置。但具体来说,中国在人工智能方面有哪些优势和不足呢?比如有观点认为,中国缺乏高质量、大规模的中文数据集,这可能会影响我们的人工智能发展?
李航: 中国在人工智能的应用和商业化方面确实还有很多机会。我们可以看到,在互联网和移动互联网时代,中国企业的表现非常出色,尤其是在过去的十年里。我们在互联网商业化的应用层面上很有特色。比如在大模型的实用场景中,不一定要追求像GPT-4那样的大规模模型,即使是相对较小的模型,在特定的实用场景中也能发挥重要作用。
就我个人的观点而言,未来人工智能的发展机遇主要集中在四大领域。首先是张老师之前提到的助理领域,也就是广义上的助理和白领工作,这里有很大的应用空间。其次,机器人的发展也非常关键,它们能够帮助工人和普通人完成一般工作任务。再者,AI for Science,即利用人工智能推动科学研究,这在数学、物理、化学等科学领域都有潜力。最后,娱乐行业,无论是视频制作、电影、游戏还是虚拟现实,人工智能的发展都有很多机会。
比如在硬件方面,当大模型与硬件结合时,机器人技术就是一个应用的典型例子。实际上,不仅限于机器人,自动驾驶等众多领域也有着广泛的发展机会。在应用层面,我认为中国整体上还有比较大的优势。
至于数据问题,目前高质量的英文数据资源相对较多,而高质量的中文数据资源则相对较少,尤其是在互联网上。但通过机器翻译或未来的一些新技术手段,我们是可以实现两种语言数据之间互通的。所以,我不认为语言数据的差距会是一个特别大的障碍。
不过,如果我们将人工智能的发展比作一场军备竞赛,那么可以说,Open AI在AGI方面确实领先一步,其他所有人都在努力追赶。对于中国而言,无论是企业界还是学术界,我们各个方面都需要加大努力,以缩小与领先者之间的差距。
我们刚才也讨论到,中国的一些创业公司有很多做得不错的。可以说,中国公司已经掌握了AI大模型的科学原理,因为这些科学原理基本上是公开的,大家都能学会。但现在的问题更多的是工程和产品开发。如果这些能够叫技术的话,我们其实是没有完全掌握这些技术的,中国的企业也好,研究机构也好,还需要努力,把这些技术能够尽快掌握,才能做出GPT4、Sora这样水平的东西。
张宏江:我要补充一点。目前这一波深度学习驱动的人工智能浪潮,并不是一个新现象,今天的情况只是进一步强化了这种观点。这波浪潮是算法、算力和数据三者的结合。在很大程度上,算法反映了人才的实力,也就是我们所说的人才。所以也可以说,是人才、硬件和数据的组合。通过这三个点,我们可以清晰地知道自己在什么定位。
数据我们有很多方式弥补,接下来就是人才。斯坦福大学每年发布的AI指数报告。这份报告统计了全球AI领域的论文发表情况,你猜在前十名的机构中,麻省理工学院(MIT)排名第几?
周忠和:难道没有排到第一?
张宏江:如果MIT排第一,我就不提这个问题了。实际上,MIT排在第十,而前九名全是中国的机构。这说明我们从业的人才一定不少,无非就是我们需要把发表文章的数量变成质量,把跟进变成突破、引领。还有很多思路,我们使可以继续沿着这三点思考的。
关于李航老师说的,中国在应用方面有优势这一点,我也有不同观点:这一次跟以前可能真是不太一样。现在AI领域的目标是AGI,强调通用。以前是单点上的技能,现在是一个通用的智能。
这就跟以前不太一样了,每一次OpenAI发一个新的版本或者加一个新的特性(feature),就是一片公司倒下。原来你认为一个公司才可以做的事情,大模型加一个特性就覆盖了。Sora出来后,Runway和其它做视频生成的公司就很紧张,因为你就是一个工具,Sora是多模态大模型的一个部分。
如果大模型继续沿着这个方向发展,它们的功能将变得越来越全面。当几句话就能在GPT 商店里产生一个新应用,当大模型的功能无所不包,是不是像上世纪90年代微软的操作系统,给当时其他软件公司带来的恐惧。而你还不能够用反垄断的方式来对抗它,因为大模型本身就这么强。
指望靠一个性能稍差的、70分专用小模型,去完成特定应用,就怕人家做出90分的大模型,顺手把这些功能都覆盖,横扫这些小模型。
那为什么自从ChatGPT问世以来,虽然已经过去了一年多的时间,但在我们所说的AI原生应用领域,并没有看到太多新兴公司的身影?一方面是大家都没摸清楚,另一方面是大模型性能还没好到那个地步,用在哪个领域,立刻让用户满意。
因为用户对于应用的期望值非常高。比如,当30年前语音识别技术不成熟的时候,苹果做了一个手写和语音识别产品叫Newton,但问题是语音识别的技术不过关,甚至手写识别那时候也不过关,因为那时候神经网络还是三层的。最后用户不认可,这个产品行情大跌。当一个技术撑不起一个产品,或者只能撑到60分,而用户的实际期望值是90分时,这个产品就相当于0分。
我们千万不要有这种心态,说之前我们成功过,我们在应用角度赶上了,就觉得新技术也就这样。这一次可能真不一样,这是我想要说的。
李航:我想再补充一点,我大部分同意张老师的观点,但就像我们讨论的互联网搜索引擎,有Google这样的巨头,当然还有其他的搜索引擎存在。即使Google占据了市场的主导地位,其他公司仍然有机会。
张宏江:但Google占据了90%的市场份额,而微软努力了20多年也只获得了3%的份额,这就是差别。
李航: 我理解您的观点,但我认为在实际应用中,大模型并不总是能够完全取代小模型在一个具体的垂类上做的事情,GTP4也是90分,可能一个小模型也是90分。在特定领域,定制化的小型模型可能更有优势。因为它的性价比更高,商业上站得住脚。
张宏江: 我不同意。我可以马上举个例子,ChatGPT出来之后,各种翻译软件都死掉了。
李航:但我了解到,GPT4在美国一些公司的实际场景里面,因为领域上的适配问题,其实成本很高,或者不很成功的例子也挺多。
张宏江:那是GPT4的问题,它还没有达到90分的地步。
李航: 无论是从经济角度还是工程实现的角度来看,尽管大模型可能在通用领域表现出色,但市场的需求并不总是集中在通用领域。总会有一些特定的细分领域,特定的小型模型或技术可能整体更有优势。我不太相信大模型一个东西能把什么事都做到。
但我也同意,Google占据了市场的主导地位,拥有高达90%的市场份额。在这种情况下,我们可以看到,尽管其他公司也在努力,但目前还没有哪家能够撼动Google的地位。我们现在使用的GPT-4,它的市场地位也非常稳固,一旦用户对其产生了依赖,就很难转向其他服务。这种粘性使得通用技术领先的公司很难被取代。因此,在这个意义上,我同意超大模型有着广泛的覆盖能力和强大的市场影响力。但是其他企业也还是有机会的。
周忠和:这个问题看来还是值得讨论。最后我们问一下薛老师,从政府的角度,如何更好地推进我国人工智能事业?
薛澜:人工智能政府的政策,一方面是推动,推动它的发展,另外一方面是规制它的风险,所以这其实是两个轮子同时转。政府投入我觉得其实现在大家都想到了。但另外一点也非常重要,就是怎么样去营造一种生态,能够让中国的企业跟研究机构,包括跟高校等等,它能够去形成一种很自然地融在一起,这个始终是中国要解决的问题。
这在中国人工智能领域尤其重要。就像刚才张老师讲的,论文我们发得很多,专利也不少。我们最缺的还是生态,这是研究不出来的,需要领导们创造有利的条件,让各种机构和人才能够在这样的环境下发挥作用。像智源这样的组织,正是在这样支持性的环境中得以建立和发展的。
政府在推动人工智能发展的同时,也需要规制其风险。此外,建立一个良好的生态系统,让企业、研究机构和高校能够自然地融合在一起,这对于中国来说是一个需要解决的问题。在全球层面上,我们需要建立一个全球性的风险防控机制,这需要政府、企业和研究机构的共同努力。同时,我们也需要认识到,人工智能的发展不仅仅是技术问题,更是社会问题。它涉及到伦理、法律、就业等多个方面,我们需要在这些方面进行深入的研究和讨论,以确保人工智能的健康发展。
关于风险管理和规制,我想补充一点。这是一个多层次的问题。首先,我们需要在全球层面上尽快建立共识,制定一个全球性的风险防控机制。这不仅仅是政府的责任,也需要全球的企业和研究机构共同参与。虽然大家都在朝这个方向努力,但要真正让这些措施落地也不容易。这是需要大家共同努力的。
观众提问
观众1:我是清华大学苏世民书院2021级的毕业生,现在在智谱华章做产业生态方面的工作,非常谢谢各位老师,刚刚将近两个小时的分享,非常有启发。我有两个问题,第一个问题,近来不少中国人工智能初创企业,尤其做C端应用的企业,选择出海开展业务。可能出于两个考虑:一是希望借助海外最先进的模型,二是海外付费市场相对更加成熟。与此同时,国内大部分公司则专注B端,就是帮助本土企业降本增效。您怎么看待这种发展分野和趋势?对中国人工智能的科研和产业化进程会产生何种影响?
第二个问题,OpenAI的Sam Altman最近发布了一个计划,他打算斥资7万亿美元来推动半导体行业的革新和变革。各位老师如何看待这样作为私营企业去做这样大规模的融资,对于整个产业界或者学术研究的影响?以及可能中国的生态如何受到它的启发,或者我们怎么能够另寻一条路径,来跟这样的生态匹配?
现场观众
张宏江:回答第一个问题。出海这件事儿,你们注意到的是面向消费者的企业(to C)在进行海外扩张,但实际上,面向企业的企业(to B)的出海活动更为频繁,而且其实也非常有道理。
如果我们对比一下中美两国的软件市场和互联网应用市场,尤其是在软件工具和云服务(SaaS)领域,我们会发现美国的企业市场(to B)远比中国成熟。因此,中国的企业级软件出海战略不仅合理,而且非常必要。经过几十年的发展,中国的软件产业在toB领域相较于toC领域仍有较大的差距。如果我是企业决策者,特别是做toB业务,我会更倾向于出海,因为那里的市场对付费服务的接受度更高。
我还想多强调一下,toB软件、工具类软件或SaaS普及的重要性。toB软件的核心在于为企业提供提高效率的工具,比如Office、SAP或飞书等都是提升生产力的工具。当公司广泛使用这些工具时,意味着它们在追求效率的提升。而我们很多公司还没有充分利用这些生产力工具,这反映出我们的生产效率还不够高,可能还在依赖人力来完成任务。所以,我希望大家不仅仅将这看作是一种商业模式,而是关乎我们是否能够提升生产效率的关键问题。生产效率低,显然对于产业是非常大的一个问题。
回到国内这25年,我始终非常羡慕海外的toB的软件市场,我希望这块未来能够有所突破,这样我们才能真正提高人均生产力,因为人均收入的提升本质上依赖于人均生产力的增长。否则,我们的人均效率将持续面临问题。这就是我对第一个问题的看法。
李航:我来回答第二个问题。人工智能的发展确实需要大量的投资。我们刚才讨论到基础研究应该是开源和公开的,这是AI技术发展的源泉。目前AI技术,特别是大型模型,更偏向于工程实现。我们观察到,至少在某些领域,工业界的创新能力已经超越了基础研究机构的创新能力。这是一个新现象,在人类科学研究史上前所未遇。
我相信开源的努力会继续,因为许多学者都在这样做,尽管他们的工作可能在某些方面落后于像Open AI这样的领先企业。例如,Lambda等项目是开源的,但我们也要认识到,即使是商业公司的开源,也有其特殊性质,背后可能有其他考虑。从技术推进的角度来看,开源可能仍然面临挑战,因为它需要大量的开发工作,更重要的是技术创新。
我也同意,如果是闭源的模型,政府应该进行一定程度的监管,企业也应该承担起责任,做正确的事,这非常重要。AI研究一般是在大规模的环境下进行的,AI的发展需要大量的投资,这是我们目前所面临的现实。就像我们之前讨论的,为了推动技术向前发展,我们需要大量的资金来扩大模型的规模。
张宏江:我觉得7万亿这个数字跟闭源和开源不一定有直接关系。如果你认同Scaling Law,并且考虑过我们距离实现AGI还有多远,还需要多少资源,那么你可能会得出这样的数字。我们可能需要投入这么多资金,甚至更多,不仅是一家企业,可能还有其他企业也需要投入相似的资金量。这不是拍脑袋,而是基于Scaling Law的合理预测。随着模型参数的增加,我们需要更强大的算力进行训练和推理,更多的机房、更多的IDC设施和电力供应。如果现在的模型扩大1000倍,那么这样的投资规模可能就是必需的。为了搭建这个系统、实现这个目标,就需要相应的投资。我觉得这是他的思考,而且从Sam的角度来说,这家伙想问题常常都是往10年以后想。
观众2:我博士毕业于清华大学精密仪器系,目前是在中国信息通信研究院做人工智能方面的技术产业研究。我的问题是,首先,我们提到人工智能的发展依赖于三个核心要素:算法、计算能力和数据。目前,算法研究可能面临研究力量分散的问题,算力方面受到美国对高端AI芯片出口禁令的影响,而数据方面,高质量的中文数据集可能还不够充足。面对这些挑战,我们应该如何权衡这三者的优先级,有限发展哪一种。
其次,如果计算能力是目前制约我国发展像Sora这样的先进大型AI模型的主要因素,那么是否可以通过国家力量,整合国内现有的高端计算资源,比如英伟达的芯片,来支持国内科研人员的研发工作,从而实现我国在这一领域的突破?
李航: 第一个问题,正如我之前提到的,从长远来看,人才培养是最关键的。虽然算力目前遇到了瓶颈,但这相对是一个短期问题。长期来看,人工智能的发展离不开人才的培养。
个人认为,本科教育非常重要。大学的研究工作,如何与产业界结合,推动人工智能领域的研究,这也是重要的。对于长期发展,最核心的还是人才。短期问题,比如数据问题,相对容易解决,但人才培养需要全社会的共同努力。
周忠和: 说到人才,我想到了一个问题。我们通常关注人数和发表论文的数量,就像张老师之前提到的排名一样。但在中国科技领域,我们现在需要的是真正的创新的拔尖的人才,这不仅仅是数量上的问题,对吧?
张宏江: 没错。特别是在未来,那些凑数的很可能会被AI取代。我们需要的是那种能够进行真正创新的人才。
薛澜:我谈谈第二个问题。我觉得这是一个假设,这种假设是很难实现的。如果我们回到几十年前,在举国体制、计划经济下,说不定还有点可能。今天的这种情况我觉得是非常难的,所以这个前提不存在,我们就没有必要探讨到后面的部分了。
观众3:我是理论物理专业的学生,从原理上来说,AI是否可能具备提出全新基础理论的能力?比如像相对论或标准模型这样的理论。如果AI真的可以做到这一点,那么我们是否可以得出结论,比如像现代的Transformer架构,它是否能自我产生出比自己更先进的架构?如果是这样,那是否意味着AI具有一种自我进化的能力?
张宏江:如果你问的是AI能否设计出比自己更有效的工具,我认为这是有可能的。 关于AI是否能够自我进化,目前我还看不到这样的能力,但我不认为这在未来是不可能的。随着我们构建越来越大的模型,它们本质上会变得更智能。设计更大的模型需要更高的效率,如果AI能够设计出更好的编程模块,使工程实施比人类更高效,那么在这一点上,我认为AI是有可能实现自我超越的。
至于AI能否发现新的物理突破,我认为这和问一个物理学家未来十年是否会有重大物理发现一样,都是开放性的问题。不过有一个例子值得一提,那就是核聚变。核聚变本质上是创造一个小型太阳,而要实现这一点,我们需要能够包裹住核反应的等离子体。核聚变主要的一种结构,托卡马克(Tokamak)内部的等离子体,只能通过大型AI模型来完成设计。也就是说在核聚变这个领域,AI已经帮上忙了,因为它能够设计出之前人类无法设计的等离子体模型。所以,当我们谈论到7万亿美元的投资时,可以说AI也在帮助解决自己的能源问题。
现场观众提问正在提问
周忠和:那AI能够提出原创性的科学问题吗?
张宏江:如果它能做数学推理和证明,我觉得就不远了。
李航: 我是这样看待这个问题。AI目前还难以展现出真正的创造力,比如说那种颠覆性的创新,像相对论那样我们从未想过的理论。虽然现在AI能够发现新的定理、新的证明方法、新药物和新材料,但它更像是在广阔的搜索空间中寻找最佳答案。它能够处理的规模是人类无法比拟的。
周忠和: 也就是说,AI的发现是基于现有知识框架的,对吗?
李航: 可以这么说。AI实际上是在一个巨大的搜索空间中寻找正确的解答,人是做不到那么大规模的搜索的。从这个角度看,AI在未来的科学发现方面潜力巨大,我对AI for Science的未来发展非常乐观,这个意义上的科学发现会非常多。
尽管我们还没有完全解决AI for Science的数据问题,这不像互联网数据相对丰富,但我认为这个挑战最终可以被克服。如果我们按照Scaling Law的思路来看,未来的发展空间是巨大的。但是,对于那些完全颠覆性的创新,比如相对论,我认为AI目前还做不到。因为AI的发现是基于我们设定的数据和搜索空间,它在这个范围内进行组合和搜索,而不是创造出我们从未想过的新概念。所以,至少在目前,我没有看到AI能够突破这一点。
观众4:我是来自天气预报领域的,首先,当AI模型能够提供比传统数理模型更准确的预测时,我们是否应该放弃那些我们熟悉且建立起来的数理模型,停止尝试用它们去理解物理机制的过程?还是说,我们会依赖AI来告诉我们这个世界是如何运作的?
其次,随着AI逐渐取代了许多传统的白领工作,我们可能会面临一个社会现象,大量的人可能不再需要工作。如果按照97比3的比例,那么那97%的人将如何度过他们的生活?他们是否能够发挥人类独有的创造力?如果他们只是普通人,他们应该如何适应这样的生活?社会又将如何看待这些不再从事传统工作的人?我们对于“人应该如何生活”的哲学是否会发生根本性的变化?
张宏江:我的回答是,人类将持续探索新的领域和方法,因为模型需要人来提供数据。这种数据包括新的方法。所以我觉得,人和模型会共存,而且互帮互助。但与此同时,模型的发展也会对人类提出越来越高的要求。想象一下,如果大部分事情模型都做得比人好,那对人类的能力和素质就会有更高的期望和标准。
薛澜:您刚才提出的问题非常重要。实际上,我认为这里涉及到两个方面的问题。首先,正如我们之前讨论的,随着人工智能的广泛应用,特别是那些能力出众的人可能会变得更加高效,而其他人可能就不再被需要。在这种情况下,我们首先需要面对的是社会分配问题。现行的社会分配制度可能需要进行重大的调整。否则,没有工作的人可能会采取极端行动。因此,这个问题必须首先得到解决。现在,人们正在讨论普遍基本收入(UGI)和其他各种新的分配方式,这些都是我们社会需要探索的。
当然,您提到的另一个问题也确实存在。在未来,我们目前所说的工作,可能不再需要如此大量的就业人口。这种情况下,未来人类生活的意义是什么?我们应该如何创造新的方式,让每个人都能在社会上生存并继续过上有意义的生活?这也是我们整个现代社会需要积极探讨的问题。不过,我相信技术进步虽然迅速,但社会的演变和适应能力也同样强大。我们的认知和社会的容忍度将会随着技术的发展而调整。
所以我认为不至于在短期内,比如五年后,所有人都失业。但另一方面,我们需要有紧迫感。在适应这些变化的同时,探讨未来人类社会的形态,以及我们如何维持有意义的生活是很重要的问题。这是需要我们大家共同努力的方向。
观众5:各位老师好,我是北航生物医学工程专业的博士研究生,我现在的这个研究方向是人工智能在蛋白质设计中的应用。刚才几位老师讲得很清楚,现在人工智能已经非常的强大了,在未来,我们相信AI是专家的时候,我们怎么去研判我们问它的问题,它反馈给我们的是正确的?
李航:这是一个开放性的问题。Open AI也在研究,当超人类智能出现时会发生什么。这涉及到很多未知的问题。我个人观点,我们现在不要过多地讨论这些问题。
我们现在使用GPT-4,它有时会有机器幻觉,我们需要判断它所说的是否正确。如果你了解它容易犯哪些错误,你就会更懂得如何使用它。我们需要掌握这种技巧。
周忠和:有人说有10%的错误率,真有这么高吗?
李航:不止10%。比如你问北京五塔寺的地址是什么?GPT-4会回答错误。我试过,它会给出错误的答案。
周忠和:Sora也会犯错吧?那个视频看起来很吸引人,但里面似乎也有一些问题……
李航:Sora现在甚至还没有公开,据说实际上犯的错误也很多。我们需要逐渐适应这种工具的特性,了解什么问题可以问,什么时候问完后需要去核实。
未来还有很多这样的开放性问题,比如刚才提到的科学发现,我们需要去验证。我们需要确认它是否正确,数学证明也是如此,如果它声称证明了一个新的定理,我们仍然需要去验证。这其中还有很多需要探索和研究的课题。我认为这是一个新时代,科学研究也进入了一个新的时代。
暂无评论内容