摘要:经过3个月的“隐蔽模式”研发,虎博科技很自豪的发布并开源自研的大模型TigerBot,在经典公开NLP语料测试中,表现逼近OpenAI同等大小模型的96%,并在推理式问答等个别领域超越。这只是第一版MVP。

引言:2022年年底,ChatGPT的发布震撼了整个人工智能领域。这种震撼在虎博公司创始人陈烨心中,也是他在人工智能领域从业20年以来从未有过的。“此等一生难遇一次的大机遇,是吾辈之幸事!”

认知:与其说认知,陈烨更相信内心深处的那种年少时的冲动;他认为,推进人类文明的技术变革往往源于本能,直觉和偶然性,基于自由的创新精神。这次大模型的突破,将会是颠覆式的长周期的;过早和过于理性的探讨产品、应用、场景和商业化或许是没有必要的。大模型技术正如一门新兴学科,未来的可能性超过我们每个人的想象,我们正处在汹涌创新的初期。而这种原创的突破,正是令陈烨和团队最兴奋的。

技术路径:TigerBot 是一个多语言多任务的大规模语言模型(LLM)。根据 OpenAI InstructGPT 论文在公开 NLP 数据集上的自动评测,TigerBot-7B 达到 OpenAI 同样大小模型的综合表现的 96%,并且这只是我们的 MVP。我们在 GPT和BLOOM 基础上,在模型架构和算法上做了如下优化:

1. 指令完成监督微调的创新算法以获得更好的可学习型(learnability);

2. 运用 ensemble 和 probabilistic modeling 的方法实现更可控的事实性(factuality)和创造性(generativeness);

3. 在并行训练上,我们突破了 deep-speed 等主流框架中若干内存和通信问题,使得在千卡环境下数月无间断;

4. 对中文语言的更不规则的分布,从 tokenizer 到训练算法上做了更适合的算法优化。

执行:虎博团队在大模型研发上致敬了硅谷90年代经典的“车库创业”模式,团队开始只有5个人,coding & coke, day & night;而创始人本人正是 chief coder & chief scientist。我们拥抱开源,在公开文献和全世界最优秀的开源模型和代码基础上,用一个月时间实现了自研的全栈代码,当时模型表现达到OpenAI可比模型的八成。这给了陈烨和团队很大的信心,并开始在事实性、创造性和思维链这些底层研究上不断突破,形成了算法,工程,数据的高效率迭代节奏;粗略统计,陈烨带领团队在过去3个月时间内实验次数超过3000次,也就是每天至少三次实验。据悉,虎博内部已经迭代出同等大小表现优于OpenAI的模型。

开源:我们拥抱开源,因为相信科学创新无国界无阶层。虽然这次发布产品依然只是我们的MVP,我们很自豪将我们阶段性成果开源给大模型社区:

1. 模型:TigerBot-7B-sft, TigerBot-7B-base (表现优于同等可比的OpenAI和BLOOM),TigerBot-180B-research (或是迄今大的Chat LLM);

2. 代码:基本训练和推理代码,包括双卡推理 180B 模型的量化和推理代码;

3. 数据:预训练 100G(或是业内大质量最优之一的开源预训练数据), 监督微调 1G 或 100 万条数据。

想要使用Tigerbot开源模型的开发者可以登录https://github.com/TigerResearch/TigerBot

生态:陈烨认为大模型是人工智能时代的基础设施,而生态的发展能反哺大模型的能力。因此,虎博也发布开源大模型应用开发的全套API :

1. (chat, plugin, finetune) API’s, 让用户能在半小时内无代码的训练和使用专属于自己的大模型和数据;

2. 领域数据:涵盖金融,法律,百科,广邀大模型应用开发者,一起打造中国的世界级的应用。

 

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党