首页 > 科技 > 智源研究院林咏华:综合能力与应用落地成为大模型厂商关注的重点

【环球网科技综合报道 记者 秦耳】近日,智源研究院正式发布了国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型的综合及专项评测结果。此次评测不仅扩展、丰富、细化了任务解决能力的内涵,还新增了多项关键能力与任务,全面丈量了大模型技术的最新进展和生态变局。

本次评测中,智源研究院针对大模型的多种模态进行了综合评测。评测结果显示,2024年下半年大模型发展更聚焦综合能力提升与实际应用,多模态模型发展迅速,涌现了不少新的厂商与新模型,而语言模型发展则相对放缓。

评测结果发布期间,智源研究院副院长兼总工程师林咏华接受了记者采访就大模型发展的趋势以及大模型评测标准与方式进行了深入解读。

“从整体趋势来看,国内更多的厂商在过去一年里,其训练的模型能力已经到达了一定应用的可能性。尽快实现应用落地,完成商业化这已经成为大多数厂商的想法。”林咏华讲到。

在她看来,随着AI模型基础能力的不断提升,当前AI应用的发展呈现出两个明显的趋势:一是基于语言模型的复杂应用能力不断提升;二是文生图、文生视频等应用将不断涌现。这些多模态大模型能力的提升,为下一步的AI应用提供了基础条件。结合我国当前大模型整体能力,以及目前多样化AI应用场景,这为AI应用商业化落地提供了条件,有助于整个大模型市场发展出良性循环。

不过,林咏华也表示,虽然厂商正在努力寻求应用落地,不过当前的投资依然主要在大模型的基础能力方面,这也为AI应用的相关投资提供了明显的技术路径以供观察,尽量避免出现因大模型基础能力迭代升级,而造成的AI应用滞后效应。

针对近期业内流传出“AI大模型预训练效果停滞”的小作文,林咏华表示并不认同。她认为,造成这样的结果是因为当前互联网数据呈现孤岛化趋势,大量数据未被充分利用,特别是视频数据,如何更好地利用这些数据来促进AI模型对世界认知的学习,是当前面临的挑战之一。同时,她也提到了合成数据在AI模型训练中的应用,指出合成数据是一种高效产生数据的方式,对于某些难以获取的数据,如自动驾驶中的风雨、黑暗环境驾驶数据,合成数据具有重要作用。

“此次大模型评测中,为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。”林咏华在谈到此次大模型评测结果时讲到。她表示,智源评测在评测过程中始终坚守科学、权威、公平、开放的原则。所有闭源大模型的评测题目都在智源进行,通过调用公开的API,以普通用户的角度使用大模型进行评测。

在具体的评测过程中,除了多种模态的综合评测外,智源研究院还推出了四大专项评测榜单,多维度探索模型能力边界与应用潜能。其中,K12全学段、多学科试卷的评测结果显示,大模型在本次测验中的综合得分相较于半年前提升了12.86%,但仍与海淀学生平均水平存在差距。同时,模型辩论平台FlagEval Debate的评测结果表明,大模型在逻辑推理、观点理解和语言表达等核心能力方面仍有待提升。

值得一提的是,本次评测还探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码,头部模型能力已接近初级量化交易员的水平。

林咏华表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新

科技
返回顶部