聚焦产业级多模态大模型研发,清华团队「生数科技」完成近亿元天使轮融资|36氪首发
2023-06-19 09:00:03 来源:36氪

文 | 周鑫雨


(相关资料图)

编辑 | 邓咏仪

36氪获悉,近日AI创企“生数科技”完成了近亿元的天使轮融资。此轮融资由蚂蚁集团领投,BV百度风投、卓源资本跟投,目前企业估值已达1亿美金。资金主要将用于核心研发团队的建设,加速多模态大模型和应用产品的研发。

成立于2023年3月,生数科技由安全可控人工智能方案提供商瑞莱智慧RealAI、蚂蚁集团和BV百度风投联合孵化,聚焦于多模态生成式大模型与应用产品开发。团队成员主要来自清华大学人工智能研究院,前瑞莱智慧副总裁唐家渝出任首席执行官。

热潮席卷半年以来,大模型赛道的竞争壁垒变与不变共存。唐家渝认为,不变的是底层算法能力依然是企业的核心壁垒所在,“文本、图像应用虽然火热,但不可控性仍然很大,对用户意图、精确细节的把控有很大的欠缺,3D、视频等多模态的生成效果距离真正可商用也还有较大的距离,这意味着底层算法的迭代仍有较大的空间”。

但渐渐产生变化的是算法和工程相结合的能力,即训练大模型的全栈能力的重要性越发凸显。“不少人都可以用现成的开源模型做finetune,但目前开源模型的能力天花板仍不高。”唐家渝表示,“而拥有从0到1构建大模型能力的话,能在吸纳开源社区精华的同时,从底层更快更有效地优化模型表现。而且训练过程中存在很多的坑,只有真的懂底层原理,才能尽可能地避坑,既拥有对模型底层的深刻理解又拥有实际从0到1训练大模型经验的团队目前是很稀缺的。”

另外多模态作为发展趋势已成为行业共识,与大语言模型(LLM)不同,多模态大模型的研究仍然处于初步阶段,国内外的研究进度并没有形成代际差。唐家渝表示,这对国内团队而言是抢占大模型赛道的重要机会。

现阶段发展多模态的核心难点之一在于构建一套通用架构对图像、视频、语音等不同模态进行统一的建模。唐家渝告诉36氪,市面上不少的大模型宣称拥有多模态能力,但实际上是多个单模态或跨模态模型的“排列组合”,简单集成不同模型能力,而非在底层上将多模态进行真正的打通和融合。

“这不是真正的智能”,他打了个比方,“人类在与世界的交互过程中,能同时对不同模态间的信息进行理解和学习,虽然通过眼睛、耳朵、嘴巴、四肢等不同器官来获取和表达信息,但只用一个大脑来进行中转思考。声音、视觉、动作等多模态信息同时输入和输出,人类才能够将一个事物或者概念认识和表达得足够准确。”另外,在“排列组合”的模式下,通常需要训练承载不同跨模态任务的多个模型,从成本经济的角度也不是最优解。

生数科技团队于2023年初开源了基于Transformer的多模态扩散大模型Unidiffuser,使用U-ViT的Transformer架构首次在Diffusion Model(扩散模型)上实现多模态,实现基于一个底层模型高质量地完成文生图、图生文、图文联合生成、图文改写等多种生成任务。唐家渝介绍,Unidiffuser前期训练所用数据量达到了20多亿,目前公司自研中的全新大模型所用训练数据量达到了百亿级别。

再往前追溯,生数团队对多模态生成式模型的探索最早开始于2013年,在清华实验室阶段,团队早期成员就开始了生成式模型理论基础、高效学习和推理算法,以及音乐生成、人脸合成等多方面的研究工作。

自2020年扩散模型应用于图像生成领域以来,生数团队也是业内首批开展扩散概率模型基础理论和算法研究的队伍,于ICML、NeurIPS、ICLR等顶会发表扩散概率模型领域相关论文20余篇。团队先后推出自研的无训练推理框架Analytic-DPM、全球最快采样算法DPM-Solver,被DALL-E 2、Stable Diffusion等国际项目所采用。

目前,生数科技正在研发的产业级多模态大模型仍处于快速迭代阶段,但在图像生成、3D内容生成、视频生成等任务中已经实现高水平的生成效果。

例如,团队研发了业内首个实现基于三视图自动生成3D内容的技术,以及无需任何3D训练数据的文生3D内容技术。目前该模型的3D生成效果已接近产业级应用水平,并领先Shap-E(OpenAI)、DreamFusion(Google)、Magic3D(NVIDIA)等主流模型。其次,唐家渝表示,图像生成已超过Stable Diffusion最新版基础模型水平,预计将于年内赶超Midjourney最新版本。

在商业模式的探索上,生数科技坚持模型层与应用层两条腿同时走路。唐家渝表示,基于开源模型开发应用类产品能够让非专业领域的普通公众快速上手创作,偏向娱乐性的玩法能带来一定的用户基础,快速验证技术价值,但同时也要兼顾高价值的关键场景,例如产品设计、游戏制作、影视制作等专业领域,专业化、细节精确程度越高,对效果质量和可控性也提出更高要求,这需要与行业机构在场景、数据方面开展合作,结合底层模型的架构优化,进一步提升模型的专有能力。

因此,基于自研产业级多模态大模型,生数科技目前正面向图像创作、3D资产创建等细分场景打造垂类应用,服务范围覆盖C、B两端。面向C端用户,生数科技将为普通用户和专业创作者打造供图像创作助理,提供个性化的服务。面向B端用户,将为机构企业、垂直领域的技术服务商提供通用服务。目前,生数科技已与多家游戏厂商、设计平台建立初步合作,应用级产品也将于近期推出。

AIGC时代已经全面开启。唐家渝表示,生数科技希望通过打造领先的具备丰富模态感知与生成能力的AI产品,使每个人都能够从简单枯燥的任务和专业化工具的使用束缚中解放出来,不论是专业还是非专业人士都能将心中所想快速、自动化地实现,通过解放想象力进而提升创造力和生产力。

以下是投资方投资人观点:

欢迎交流

关键词: