业务上云后,基于海量、弹性的算力支撑和大量改进调优,MiniMax的大模型研发得以加速。
蚂蚁集团受邀参展,首次公布以关键基础软件为核心的开源完整版图,9大核心技术全部开源,同时宣布进一步开源生僻字解决方案,助力实现更加包容平等的数字服务。开源开放作为全球数字科技创新的关键,2021年底被正式写入《十四五规划》,已成为国家重要技术战略。
当前,新一轮科技革命和产业变革深入发展,创新正在进入深水区。2023中关村论坛主题为开放合作·共享未来,开源是当前全球科技界实现技术开放合作的主要途径之一,开源不仅可以最大限度地利用智力资源,促进技术创新,同时也是把大型企业与机构的研发成果转换成全社会共同价值的重要方式。2021年底,国务院印发《十四五数字经济发展规划》,提出支持具有自主核心技术的开源社区、开源平台、开源项目发展,推动创新资源共建共享,促进创新模式开放化演进。蚂蚁集团开源技术委员会主席、蚂蚁基础设施技术委员会主席何征宇表示,中国正在迎来新一轮数字化浪潮,安全可信、协作共识、大规模复杂数据分析、海量存储计算、算力能耗是数字化升级必须解决的关键技术问题。目前,全球97%的软件开发者和99%的企业已使用开源软件。
5月26日,2023中关村论坛展览(科博会)开幕。此外,蚂蚁集团也在26日举行的世界开源创新发展论坛上正式宣布启动汉字拾光计划,向全社会免费开放生僻字解决方案,帮助机构与服务商以更低成本进行相关改造,从而让更多人平等地享受数字生活。网版权文章,未经授权禁止转载
网版权文章,未经授权禁止转载网版权文章,未经授权禁止转载BERT出来后对学术界、产业界影响都很大,因为它的通用性比较好。随着大模型重构企业组织架构、重塑企业生产关系,从短期来看,一些不产生价值的、中间的职能岗位,可能会很快将被机器取代掉。
从有经验积累的行业出发,找契机深入其他领域AI科技评论:中关村科金为什么选择从金融行业尝试大模型应用?张杰:与其他行业相比,金融行业对于数字化转型项目的接受度更高、场景需求更明确、智能化手段带来的商业价值更明显。未来大模型带来的启示是,它可以独立承担一些任务,不单单是体力劳动的替代,还能替代一些简单的脑力劳动。
AI科技评论:客户愿意把自己的数据拿出来训练吗?张杰:像银行自有的数据是需要我们去银行驻场训练的。我们的领域模型现在已经可以做到单周迭代、单卡推理了。现在,大模型本身的通用性好,不再需要很多算法工程师标数据,可以直接拿过来用,有时稍微标几条数据就够了。除了原始数据,还有一些更抽象的、价值更高的场景话术模板,这些知识结合了AI心理学、自主代理等技术。
大模型不是ChatGPT出来之后才有的,2017年就已经有了transformer的架构,2018年谷歌基于Transformer推出了BERT模型,只是当时参数规模比较小,叫预训练语言模型。AI科技评论:也就是说大模型还是有一定泡沫存在的?张杰:大潮之下泡沫肯定是有的,但从长远来看,它确实能给行业带来巨大的增值和机遇。大模型方面,中关村科金也在沿着之前的路径走:一是自研领域大模型,二是做上层应用。简单介绍一个代表性的应用案例,以前在一个新场景构建外呼机器人,大概需要2~3周时间,且需要非常熟练的话术师才行。
AI科技评论:之后会做哪些应用?会主动选择一些场景突破吗?张杰:还是要看契机,很多时候技术是共通的,但具体做什么场景要看机缘。从而使得我们的产品可复用程度高、定制化的交付成本降低。
AI科技评论了解到,目前中关村科金已有的产品如智能外呼、智能客服、智能质检、智能陪练等产品通过自研的对话引擎已全面拥抱大模型。比如你经历过大学四年的专业教育后,会掌握一些领域内的通识能力,知道一件事应该怎么做,但每个步骤可能还要去查一些资料,书本上的知识点你并不需要全部都死记硬背下来。
服务商提供的工具或服务,如果本身的价值或特殊性不够,那会被大模型的能力升级淹没。这些都需要结合不同的业务场景需求,很耗时间和人力。人是不太适合背百科全书的,大脑之外还应该有一个知识库,实现能力互补。很多序列标注、分类任务都可以转成生成式的任务。我们相信,未来一定是人机协同的。此外,中关村科金还结合企业的痛点问题和客户共创了多个有场景代表性的试点项目,例如:推出了虚拟员工助手,帮助企业打造超级员工,在营销文案生成、客服问答、坐席助手等场景,助力企业营销服价值提升,已经在业内有了很好的落地。
再通过对话文本挖掘出用户的意图。我们积累了一套工具,能快速的跑出一些指标,指标体系包括模型本身的内在属性、通用语言能力、领域特定任务。
领域大模型一定会是大模型技术商用化的未来。AI科技评论:贵司具备哪些研发领域模型的优势呢?张杰:中关村科金过去8年积累了很多数据,并且这些数据每天都在不断增加。
把这些高质量的领域常识数据灌到大模型里训练,就可以让模型具备更多的领域知识,学到领域的语言特色,对领域数据的理解能力和生成能力也会提升。这些指标需要提前构建大量测试集,就像学生考试一样,可以在考试系统进行随机抽题。
这些企业的共同点就是关注投入产出比、合规性、安全性,如果这项新技术不能带来显著的经营效益,那么在企业内部也很难立项通过。这些数据如何筛选、如何让模型即学到领域知识又不至于忘记通用常识、如何将领域知识与场景具体问题关联起来等等,这些问题都需要做探索和积累。AI科技评论:这是不是意味着通用大模型还很难解决某个细分领域的问题?张杰:只能说现在的通用大模型在知识复杂度高的行业里,还不能直接应用。目前C端还是非常火爆的,C端可能更多的是围绕创意和生成,尤其是图片、语音、视频等多媒体生成,各类工具和创意层出不穷。
除了将通用大模型这个文科生变成领域专家外,我们还通过领域prompt工程组件让它能有效的处理特定场景下的任务,具备场景技能。至于备受业界关注的模型参数规模问题,张杰表示,主要结合实际场景的应用情况,比如财富管理领域的大模型只需要50 亿参数规模就能很好的用于营销、客服等场景,那就没必要做成1000亿参数 ,避免用大炮打蚊子,节省算力消耗的资源。
并且像头部金融企业对于服务品质、响应速度各方面要求都很高,需要合作伙伴能够迅速和他一起共创,这时候腰部企业看到成功案例后,再去复制就很快了。AI能力不是唯一的关键,它是必要非充分条件。
我们也一直在不断寻找各行各业的客户和我们一起共创的机会。AI科技评论:率先做了哪些场景的应用?张杰:我们已有的产品主要是围绕企业服务赛道的对话场景,比如说外呼营销机器人、客服机器人、智能质检、智能陪练、办公助手等。
如果产品里包含了很多需要人工配置领域知识的模块,比如关键词、相似问、问答对等,那就需要重构。AI科技评论:产品需要重构吗?张杰:这要看产品里包含哪些功能。其实领域大模型从一定意义上来说也是通用模型,它即需要保持通用的常识和推理,又需要具备领域内的专业知识和技能。原有30个话术师的工作量,现在2人即可完成,而且语义理解准确度从85%提升至94%。
当然张杰也坦言,通用大模型已经火到了一定程度,目前C端应用火爆,但在B端企业服务赛道,很少有人意识到大模型未来会对企业的生产关系带来很大影响。有些客户是排在行业头部但不是龙头,想弯道超车。
如果厂商在数据敏感度高、流程逻辑性强、可解释性要求高的行业内,既有行业经验积累、又有大模型技术能力和产品化能力,那肯定是利好的。随着GPT能力的不断提升,很多学术研究的子方向的特殊性都没了,研究范式开始趋向于统一。
再依托专业的产品设计,不断和人类专家进行闭环反馈。AI科技评论:所以去年您就预见了大模型会是下一个风口?张杰:大模型带来的研究范式的巨变是必然现象。