对话虎博科技陈烨|全力以赴做最好的基础大模型

添加书签

“我创业最主要的原因是,希望做一件自己真正热爱,真正会被打动,并且真正享受的事情。”

近日,虎博科技发布TigerBot-13B大模型,接受AIGC开放社区与科技慢半拍播客栏目专访时,虎博科技创始人兼CEO陈烨谈及创业初衷时表示。

陈烨曾获美国威斯康星大学信息系统和计算机科学博士学位,拥有人工智能和机器学习领域20余篇论文和10余项专利,早前在微软、eBay和Yahoo担任主任科学家和研发总监等职位。2014年回国,曾在美团点评的广告平台担任SVP(高级副总裁)。

2017年,陈烨创立虎博科技,见证了AI1.0的高潮与跌落。面对大模型的爆发,陈烨兴奋地表示,“现在已经到了第四浪,目前为止仍然没有找到Killer app,但是已经表现出极大的潜力。”

面对普遍关心的算力问题,他则表示,hardware是必须的,但是并没有大家认为的那么重要。通过分片技术,原创代码和算法以及积累的训练经验,“我们用大几百张卡,做到和LLaMA2一个计算经济水平。”

针对大模型在领域的落地,他建议企业“不要过早地去做领域模型”,“大模型落地到领域里,需要学习领域里面的知识,而不是学习通用的模板。过早地在领域里面做大模型,会导致通用能力的缺失。”

面对百模大战,他认为未来 “胜出可能有多种方式,最终能跑出来的一定是找到了自给自足的根据地。所谓根据地就是我给客户创造价值,客户愿意买单,然后公司能够进入良性循环,持续打下去的生态模式。”

01

这个行业才刚开始


从大公司到创业公司,从您的个人感受来讲,主要的区别是什么?

在大公司任职是独当一面,但是创业需要面面俱到。具体来看,大公司工作是在个人岗位上把成绩做出色,考虑好产品、运营和业绩三个维度就够了。创业更像是养Baby,维持一个生命体活下来要综合考虑很多因素,文化、市场等任何一个因素出错都会导致失败。活下来的底线是现金流,有足够的现金流才能养活团队,给社会创造价值。

您在创业过程中经历了哪些困难,可以跟大家分享一下吗?

首先,我认为促使创业公司成功的最重要因素是Market Fit,即对整个市场有价值,并且能够带来增量价值。AI1.0时代最大的痛苦就是寻找Market Fit。其次,我觉得99.9%的创业都是非常狗血的,特别是最近两三年,创业大概率会失败。在大概率会失败的宿命下,要成为打不死的小强,就需要有非常长远的认知和运营的底线规划能力,不仅要看的远,还要做好苟活10年,甚至20年的准备。

看虎博科技的官网,我发现有很多产品线,而且跳跃性也比较大。虎博科技最主要的定位是什么,或者基于当前考虑,哪些产品将是重点?

产品线多正是因为公司在很痛苦地寻找Market Fit,我相信每一家AI公司现在还面临着这个痛苦和困难。AI1.0时期没有产生Killer app(杀手级应用),没有Killer app也就意味着产品的能力边界不明确,很难一两句话讲清楚我们是什么产品,提供了什么价值,最终导致与客户沟通的成本很高,打单周期很长,需要整合的需求也多。

虎博科技2022年及之前的产品线,包括智能搜索问答中台、企业知识库,舆情系统等,看起来关联不大,其实整个技术栈只有搜索,从数据采集、索引到语义理解,再到最后的推荐、检索,只是为了满足B端客户不同层面的需求才呈现不同的形态。

2022年年底,大模型横空出世,我认为AI的能力边界问题得到了有效解决。大模型能做什么,整个市场都非常清楚,比如文本生成、总结、摘要、问答、阅读理解、代码、抽取等,并且对比AI1.0,能力至少提升了80%。我们将产品线调整到大模型,是为了借势将产品化程度提高,对于创业公司来说,抢先一步就获得了更好活下来的机会。

AI技术的发展经过3次浪潮,大模型有没有可能也是这样的情况,有起也有落?

这个问题很难回答。我个人观点是,现在已经到了第四浪,并且目前为止仍然没有找到Killer app。有超过一半的可能这次仍然是hype,不过是不是hype不重要,重要的是投身其中,参与过程,通过创业、实干,积极寻找Killer app和原创理论的突破口。

共识还是有的,大模型确实解决了一些通用任务,并且能力得到显著提升。在这个技术范式下或者整个生态中能不能找到Killer app,我认为有很大潜力。互联网最早是基于TCP/IP协议的WWW,没有人认为WWW是一个多么厉害的商业模式,直到此后Email、门户网站、视频网站等应用生态爆发,第一代互联网才逐渐被认知。从这个角度来讲,大模型也需要时间来完善整个应用生态。

再举个例子,Machine Learning或者Computer Science一开始也不被人看好,但是经历几十年的发展,现在已经如日中天。所以,技术的发展是一个漫长的过程,但是从早期的知识库到今天的Agent,我从来没有经历过大模型这种速度的迭代。需要强调的是,我们现在看到的优秀成果,其实很早就已经开始研究了,我们如果等到时机成熟再参与,其实就已经落后了。

02

算力没有那么重要


最新发布了Tigerbot-13B,可以介绍一下具体的情况?

最新的Tigerbot-13B是基于LLaMA2,经过我们专有的数据和训练方法,在主流英文基准测试中达到Llama-2-13B-chat的 101%,在中文测试中综合能力超过Llama-2-13B-chat的47%,在国内主流开源模型中处于领先位置。

我们训练模型,同时也计算算力的经济性,核心指标是碳排放。我们算出来的每秒钟处理token数值是1350,LLaMA2在6月份公布的数值是1500,换句话说,我们用大几百张卡,做到和LLaMA2一个计算经济水平。

值得一提的是我们的发布节奏。六月份首次发布Tigerbot-7B,上周发布Tigerbot-13B,前后一共3个版本,历时不过两个月。对于我们这种创业公司来说,在资源有限的情况下玩转130亿模型、1TB数据,做到这样的迭代速度是令人兴奋的。

目前大厂迭代大模型是PM团队挑数据,工程师训练,最后PM团验收,这个在我看来完全是错的。大模型完全是一个Engineer或者Scientist的工作,因此这也能体现创业公司组织灵活性的优势。

您讲到迭代速度来源于组织灵活性,那么技术上有没有更好的方法?

我觉得两条腿走路,缺一不可。组织通透灵活是前提,接下来是算地快。我们做了很多技术上的创新,比如我们是国内最早使用分片技术的,分片就是把模型训练分散到多个节点上,腾出GPU资源来进行更大吞吐量的计算。我们结合DeepSpeed ,Megatron,开源领域的flash-attention, gradient accumulation, group query attention,写了一整套代码。在中文领域我们有自己的tokenizer,压缩率比LLaMA要高一倍。以上这些叠加,最终使得我们的算法能够跟Facebook一样快,而且我相信接下来一两月时间,我们会算地更快。

提到大模型,国内首先担心的还是算力问题,这个您怎么看?

我可以插一个观点,hardware是必须的,这是上桌面的筹码,但是hardware并没有大家认为的那么重要。我们现在的计算速度比三个月前快五倍,我们也没有要囤几千张卡,甚至1万张卡,我们做出的大模型一点也不比大厂差。这件事就像练武,招式很重要,但是还有比招式更重要的东西蕴含在里面。

在RLHF这个阶段,虎博科技是怎么做的?

我们现在的技术路径包括,1)Pre-train(预训练),2)Supervise Fine-tuning(SFT,监督调优),3)RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。

我们最重视的是Pre-train,通过首创Holistictraining方法,在Pre-train直接使模型具有9成的指令完成能力。因为foundation model的对话指令完成能力非常强,因此一般场景SFT推理可以压缩到5万条数据,20分钟就调出结果。最后是RLHF,这个对于严肃领域非常重要。我们提出的方法和facebook如出一辙,用Reject Sampling让模型自己把边界往外推。然后在Reject Sampling基础上,我们又提出reject sampling with human in the loop,通过人工在10%的数据里面做标注,保证模型在一个场景里很快地收敛到很好的程度。

03

真正为社会创造价值


通用模型应用到企业客户这一端,是怎样的过程?

我们的商业模式是提供模型底座,具备很强的对话能力和指令完成能力,落地时只需要领域内很小的数据就能够达到场景需要。

这里面需要特别注意的是,不要过早地去做领域大模型。大模型落地到领域里,需要去学习领域里面的知识,而不是去学习通用模板。比如中文里面有提问,在领域里面也有提问,提问的逻辑是通用的,但是过早地训练领域模型,会导致模型分不清某些说法是在提问,还是被要求附和。

有资料说大模型的遗忘问题很严重,不知道您有没有遇到这个问题?

从Machine Learning的理论来说,遗忘问题很好理解,一个排序的算法,在一个维度能排对,在其他维度肯定排错。大语言模型也是排序,Next Token以最高概率输出,在某个领域最高,在其他领域肯定出错。

关于遗忘问题,我们有2个建议:

1、在训练的时候,每一次吞吐领域数据,按照一定比例的混合进入,而不是单独训练领域数据。我们一般不会让领域数据超过10%。10%参考的是国外主流大模型里面代码数据的比例,代码就是很有代表性的领域,所以应用到其他领域也是一样。

2、在评测的时候,永远要有golden set评测。评测一定是是通用的,涵盖多任务的。先保证摘要,阅读理解、抽取实体等通用能力没问题,再考虑算法的有效性,learning的有效性,learning ability和参数量。

面对百模大战,在您看来,最终胜出者会是一个什么样的公司和产品?

胜出可能有多种方式,最终能跑出来的公司一定是找到了自给自足的根据地。所谓根据地就是我给客户创造价值,客户愿意买单,然后公司能够进入良性循环,持续打下去的生态模式。

在跟客户的接触中,客户的需求大概是一个什么样的,好奇还是积极探索?

比较深度的客户,特别是有互联网基因、数字化程度高的客户已经过了好奇阶段。这些客户有明确的场景,并且已经在积极探索应用落地了。

现在大模型给人的感觉是距离落地还很远。在您看来,落地的难点究竟在哪儿?

首先,感觉距离很远,是因为目前的大模型还有待完善。但是我认为这并不妨碍积极探索应用,理论和应用并不冲突,而且应用上的探索本身也是工程和算法的突破,在模型的后续迭代中依然有价值。

其次,落地可以划分为两个场景,一个是mission critical,比如财务,属于不能犯错的任务,另一个是mission in-critical,比如游戏和娱乐,不需要百分之百正确的任务。目前来看,第二个场景很容易出Killer app。我还是那个观点,如果等到技术成熟才参与进来,可能就已经落后了。

虎博科技接下来的规划是怎样的?

首先,我们的宗旨是为客户和生态伙伴提供中文领域乃至世界上最好的基础模型。我们对于最好的定义是能力最强、算地最经济、最便宜。第一,能力最强,年内目标是对齐GPT3.5,按照目前的迭代速度,我们很有信心能够完成。第二,算地最经济,最便宜,我们做到和LLaMA2一样,但是我们更便宜。未来我们还会用自己的训练方法,将成本降到更低,低到很多投资人,很多伙伴都不能相信的地步。

此后,在做好模型的基础上,踏踏实实地去做一些商业化,使我们的现金流变得良性。当然,这里也要感谢我们头部客户的支持。

最后,我还有一个观点。我认为做大模型需要五年、甚至十年的远见,如果现在只谈赚钱,就不配干这件事情,赚钱与Open Innovation、Open Community、Open Source的精神相违背。Python、WWW、Linux的发明者都没有赚钱,但是他们是真正为社会创造价值的人。虎博科技肯定要赚钱,但绝对不是从大模型本身赚钱,我们用基于大模型的Killer app来赚钱,这是我的创业价值观,也是虎博科技的RoadMap。我们做好大模型,通过生态伙伴,B端客户,或者C端的产品来补足运营成本,持续优化,长期发展下去。

希望收听完整音频对话内容的朋友,请移步【科技慢半拍】播客节目:

END