中国工程院院士邬贺铨:大模型纯粹对话聊天绝对不是刚需,很难形成商业模式

2023-12-21 16:47新浪科技 - -

12 月 21 日下午消息,由新浪财经客户端、新浪科技联合主办的“2023 科技风云榜”年度盛典今日开幕,今年活动主题为“智涌・进跃”。中国工程院院士邬贺铨发表题为《大模型上手,数智化进阶》的演讲。

邬贺铨表示,人工智能的发展使得互联网迅速地进入了智能化的时代。一年前 ChatGPT 给大家眼睛一亮,当然 ChatGPT 还是一个基础大模型,仍然还是第二代人工智能,我们希望将来是通用的,希望至少在三个方面:第一,一个模型不能仅仅对一个任务,能够适应多任务。第二,不能只限于一种模态输入,希望多模态输入。第三,在将来推理能够非常精准。

他认为,大模型的出现会给我们工业上的数字化转型和高质量发展带来很好的技术支撑。现在难题还是,我们做基础大模型,怎么能够跟我们行业更紧密地结合。“我已经注意到,国内做大模型的几个有名的单位,他们虽然有一些提供语料的对话,聊天,实际上纯粹对话聊天绝对不是刚需,也很难形成一个商业模式。”

除了在工业上的应用场景,邬贺铨还举例,现在把大模型做到了手机上,手机已经可以训练超过 100 亿参数的,作为推理运用,目前已经有人做到 130 亿参数了。估计到明年 150 亿也可能做进手机里。这种大模型落地会催生新一轮创新,会降低用户生成三维视频门槛。我们很多年前手机一般一年半就换代了,这几年换代没有这个需求。将来起来了,更多的实际推广是靠用户产生内容,大模型落到手机上,可以为用户产生内容提高一个档次。我们不但是消费,还有健康、养老、监护、教育,最有价值的还是工业应用,你可以落在手机上,也可以落在机器人,工业模组上面,这些可以带来新的飞跃。

他援引 IDC 预测数据称,到 2026 年中国市场超过 50% 终端设备处理器会有 AI 引擎,会让中国互联网产业走出低谷,会迎来一次激动人心的井喷式发展。

以下为演讲实录:

各位专家、各位领导,大家下午好,我的发言题目是大模型上手,数智化进阶。明年 4 月份中国要迎来成功进入互联网 30 周年,我们可以回顾一下 30 年来发生了非常大的变化,中国互联网进入而立之年。

一个发现,我们整个互联网移动化发展很快,特别是 4G 带动了移动互联网的迅速普及,现在 5G 带动工业互联网的发展。

互联网从最初的面向一般消费客户的点到点的连接,现在变成了一个平台,从点上平台,云平台,社交平台,直播平台,产业平台,尤其是近几年,我们人工智能的发展使得互联网迅速地进入了智能化的时代。

刚才谈到了大模型,实际上 60 多年前就有人工智能的研究,1956 年的时候,那时候是学界里面的,没有多少人知道。为大家所知道的是 1997 年 IBM 深蓝计算机战胜了国际象棋大师,过了一段大家也没有什么感觉了,2016 年阿尔法战胜围棋高手,发现人类下棋下不过计算机了。

下棋这些还不是刚需,对社会生活也没有太多影响。去年年底,一年前 ChatGPT 给大家眼睛一亮,当然 ChatGPT 还是一个基础大模型,仍然还是第二代人工智能,我们希望将来是通用的,希望至少在三个方面:

  • 第一,一个模型不能仅仅对一个任务,能够适应多任务。

  • 第二,不能只限于一种模态输入,希望多模态输入。

  • 第三,在将来推理能够非常精准。

大模型也有很多层,也有很多节点,我们开始在对应某一个任务,并不知道应该走哪个路径是最准确的,但是可以通过大规模的训练,反复迭代,试错来可以知道哪一个节点,应该经过的全值概率是多少,这些就是参数。显然参数越多,分解得越精细。我现在来看,从 2018 年 ChatGPT1 到今年年初的 ChatGPT4,参数已经增加了一万倍,当然对应的训练数据和调用 GPU 卡数也相应地增加。

现在讲大模型,刚才对话嘉宾也讲到了,我们中国有 188 个大模型,这些大模型基本上都是互联网公司,还有 IT 企业来研发的,这种基础大模型门槛还是比较高的,现在垂直行业的企业还很少,大企业自己做大模型,做基础大模型,刚才林院长说的,它没有办法用到工业上,基本的语料不是工业预料,工业上数据也没有那么多,想找这么大量数据训练也不容易。在节点上基础大模型还落不了地,要落地怎么办呢?必须跟行业合作,行业合作有两种办法,一种是把企业的数据送到基础大模型提供方,然后让他们帮助把行业数据加进去进行微调,这种企业会担心,我的数据送出去会不会泄密。技术上要完全依赖于基础大模型。

还有一种办法把基础大模型训练好的模型给企业,企业自己加上自己的数据微调,这里面对企业技术水平要求比较高,另外基础训练的时候是一个老师教的,到企业训练的时候是另外一个老师,这两个老师会不会教起来有不一致的地方,那可能最后没有办法收了。

要跟行业合作还是有难题的,对于大多数中小企业更是了,本身就更很难接入大模型,我们希望能不能把大模型变成一个简约的模块,放在云平台 PAAS 和 SAAS 之间,这样一来我们就可以通过一个简单的接口,企业可以接入到这个模型模块里面。我们还要相应的配置一些低代码的开发软件,可以通过鼠标拖拉,为企业基础场景接入和微调提供机会。真做到了这一点,我们将来就可以做到企业会上云,就会用这个模型了。我把中小企业,通过这种方法来做模型,我称之为场景的大模型,他还是针对特定应用的。

大模型的出现会给我们工业上的数字化转型和高质量发展带来很好的技术支撑。现在难题还是,我们做基础大模型方,怎么能够跟我们行业更紧密地结合,我已经注意到,国内做大模型的几个有名的单位,他们虽然有一些提供语料的对话,聊天,实际上纯粹对话聊天绝对不是刚需,也很难形成一个商业模式。国内做一些大模型的单位,都瞄准了做工业,比如说百度要跟吉利合作做智能客服,跟国家电网合作,做分布式电网调度。百度还做 MLA 疫苗序列有效分析,在新冠疫情期间,中国大量使用的是灭活疫苗,美国是使用 MLA,这有很多序列,其中也不是所有序列都对新冠有效,要找出最好的序列,这还是有难度的。据说超算一秒钟算一条要算一百亿年,现在利用大模型可以优选出比较好的疫苗,当然不见得是最佳了,这个百度曾经发表在杂志上,也得到了认可。我认为从这些方面介入,这些方面都还没有直接进入到制造业生产线上。

华为盘古大模型主要针对制造业,他瞄准制造业里面需求的理解,文档的生成,工业软件的编程,读图,以及我们供应链管理,也可以看到这些也是在生产线的外围,真正在产业的核心部分还是没有进去。

腾讯有一个微搭低代码平台,着重面向中小网站,做网站的开发等等。

阿里有一个通义千问,训练参数也不少,可以支持 8K 向上文窗口,他可以做聊天对话,你输入的长度也反映了大模型能力。阿里可以输入 8K 左右。

针对制造业领域做大模型的是海尔,他本身是制造业,通过海尔本身家用电器的生产,他基本上掌握了家用电器里面的生产流程。海尔大模型在家用电器行业里面没有推广,为什么呢?其他都是他竞争对手,海尔大模型反而推广到服装行业,汽车行业,推广到这些地方去了。

有了大模型,有初级人工智能发展,也给社会上更多的中小企业机会。这时候出来了一批面向更多中小企业的平台企业。比如说广州有一个企业做服装设计的建模,服装工厂的管理。大量的服装厂只有一大批缝纫女工,没有什么技术的,引入了广州致景软件,使生产管理上了一个很好的台阶。

山东的橙色云,这本来是一个设计工具软件出租公司,很多企业用工具软件,自己买太贵了,用时候也不多,用租,以租的办法可以省钱。后来城市运营发展成为设计承接和转包平台,很多企业在那里发布一些需求,他把设计需求分解了,之后招标,最后把完成的结果通过它集成,现在已经面向五万多家中小企业了。

深圳有一个云工科技,有一些企业需要订货,需要一些产品,不知道在哪订,在哪里发布。还有很多企业就在这上面应标,半年能够撮合 100 亿的交易。

广州有一个公司,主要是做女装出口,他利用珠三角的服装加工的能力,国际快速的物流能力,从品牌,设计,面料、采购、销售、金融、保险等等一条龙,现在是世界上 54 个国家手机购物里面最重要一个环节,他即将上市,估值要超千亿美元。江苏有一个智云天工,这是一个虚拟工厂,三一重工是供应链管理平台,三一重工作为龙头,把供应链 200 多家上下游企业关联起来,最重要做到零库存或者说少库存,大大提升了效率。

现在谈大模型大部分在大智算中心,超算上面做。现在一个新的出来了,把大模型做到手机上,现在手机已经可以训练超过 100 亿参数的,作为推理运用,目前已经有人做到 130 亿参数了。估计到明年 150 亿也可能做进手机里。

有人说只有超过 130 亿的参数,在手机上做有什么好处,将来大模型训练可以离线,这样成本低,不需要上智算,超算中心,时延也低。现在美国有一个公司,Aizip,要把大模型做到手机上需要做一些模型压缩工作,手机芯片还要提档。做模型压缩工作要量化压缩,要重新做一下。这个公司说从大模型可以复制出小模型,可以落到手机上。

同声传译,我们打电话对方是老外,他讲英文我这边听是中文,如果是视频,还可以帮助你对口型。我们可以跟聋哑人,手语对话,盲文翻译。歌曲创作,你哼几段话,后来给你续谱。

搜索,过去要很精准,现在用不着精准,一个模糊的话也能够把你希望想搜什么搞出来。当然你将来可以手机、平板、PC、电视互通。

给出一句话,一个 32 岁年轻女性自然保护者在丛林中探险,面带亲切的微笑,给你生出这个照片。中间的照片只拍了一点点,现在延伸了,可能你只有半身照,现在可能变成全身照。

我们现在手机有前拍有后拍,现在可以同时用上,把你前拍的照片嵌入到后面去,当然还要光线调整,这是自拍的合成。

这种大模型落地会催生新一轮创新,会降低用户生成三维视频门槛。我们很多年前手机一般一年半就换代了,这几年换代没有这个需求。将来起来了,更多的实际推广是靠用户产生内容,大模型落到手机上,可以为用户产生内容提高一个档次。我们不但是消费,还有健康、养老、监护、教育,最有价值的还是工业应用,你可以落在手机上,也可以落在机器人,工业模组上面,这些可以带来新的飞跃。

IDC 预测到 2026 年中国市场超过 50% 终端设备处理器会有 AI 引擎,我们认为会让中国互联网产业走出低谷,会迎来一次激动人心的井喷式发展。

数智经济讲了很多,实际上未来我们大模型为数字经济增添了新的能力,我这里回顾了 90 年代全球市值最高的前十名,主要是日本的银行,2000 年主要都是红色的是美国的 IT 企业,2010 年是能源,金融,2020 年又回到互联网主导了,中国的阿里、腾讯也在上面,到今年 12 月份,现在可以看到,除了有食药公司以外,基本上还是 IT 和 IC 企业,我们说现在位居前列的是以数智化企业为主,是数据成为主要的生产要素。

谢谢大家。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享