坚持做行业大模型，竹间智能给大模型造了一座「模型工厂」（1）

机器之心 | 2023-07-03 19:52:16 阅读：163

发布文章

企业被放在了开往大模型时代列车的驾驶座上。

从 2 月份起，我们就被络绎不绝的大模型发布和各种 AI 新品轰炸。风暴眼当然是 ChatGPT。

除了极少数瞄准通用底层的野心，一众以 AIGC、NLP 技术为名的创业公司后台接入基础大模型底座，前端做 UI 设计，上架应用商店。

还有一些 AI 公司没有通用底层的抱负，但也不满足于 API 式创新，而是瞄准了中间层与应用层的战略价值。他们往往没有参数规模的执念，更关心行业落地的效率。

竹间智能就是其中一员。八年前，前微软（亚洲）互联网工程院副院长简仁贤坚定看好对话机器人在企业级市场的潜力，离开微软创业。最近，竹间智能也官宣了自己大模型产品矩阵「1+4」，希望解决大模型落地行业「最后一公里问题」。

「实际上大部分企业场景不需要 AGI（通用人工智能）来满足，在合理的成本下选择合适的模型才是企业客户需要思考的。」公司 CEO 简仁贤在接受机器之心专访时谈道。

这套「1+4」产品的逻辑关系，简明清晰。

「1」指 EmotiBrain ，一个大模型微调训练平台，专注降低大模型训练的成本，提供从模型选择、微调训练、评测、部署到最后接入企业应用的一站式服务。

定制好的模型只是一台强大的发动机，没办法直接上路。为此，竹间智能又推出四款装配先进发动机的「车型」。

如果你体验过微软 Office Copilot ，超级助手 KKbot 的功能几乎与之无异。 Magic Writer 是大模型 AIGC 能力最典型的应用，除了文本生成，还可以文生图。 Emoti Coach 是由大语言模型和生成式AI驱动的「教练」，培训效果完胜被动式的e-learning。

至于 Knowledge Factory 、Bot Factory+，顾名思义，肯定与批量生产有关。

背靠大模型， Bot Factory 能力升级，以更低成本、更高效率批量生产对话机器人。 Knowledge Factory 协助企业在私域数据必须「足不出户」的限制下，更好管理内部知识数据，也为稳定大模型的输出质量打好基础，让知识与模型形成闭环。

一、「中间层」的价值

企业要想享受到大模型的神奇能力，一般有三个办法。

像谷歌、Meta、OpenAI 一样从零开始、全量训练基础大模型。但巨额开发成本（动辄百万甚至千万美金）和顶尖人才（据说全球不过百人）稀缺注定这是一条「少有人走的路」。

第二个办法是在开源预训练模型上面做微调( Fine-Tuning ) 。 Vicuna、Alpaca 、Guanaco 羊驼系列预训练模型都是在最初的 LLaMA 上做了微调。目前，大部分国产大模型也是在 GPT、LLaMA 的框架上进行训练与微调，并在此基础上为客户定制行业模型。

「还有一个办法是在与训练好的模型上用 embedding 与 vectorization 做预检索给企业提供私有数据的大模型。」简仁贤说。

这个办法做起来很方便，但弊端也很明显。检索依赖检索的indexing及语义匹配效果来获得比较好的输出，如果 indexing 的检索、ranking、语义相似与理解的匹配能力不够，给到大模型的数据也会有误差，这些技术 NLP 厂商相对的做的更好。

在他看来，通过在预训练模型上微调获得定制化行业模型（也就是第二个办法）最适合中国国情，不过成本比只用 embedding 的方式高，技术与数据的门槛也比较高。

「生成式 AI 有一个很重要的特点，它是根据训练数据生成的，所以大模型在中国落地面临的最大挑战就是数据安全，模型安全。」简仁贤认为。

企业不可能把内部数据上传，比如产品设计、技术架构、核心代码、制造工艺、配方、客户隐私，会议纪要，战略文档，业务规划，商业逻辑等，一定要保留在内部，尤其是对于国央企、金融、能源、大型集团企业、先进制造等数据敏感性较高的行业而言。所以，「未来一定是企业拥有自己专属的、定制化、场景化的大模型。」

从成本上来看，在模型微调阶段，可以依据不同任务(Task)来微调训练大模型，训练数据的多少，模型参数大小以及能力涵盖的范围，如果能有高效的训练方式以及自动化的训练量产，可以达到规模化的低成本，绝大多数中型以上企业足以负担。

国金证券曾做过初步测算，由 8 块 A100 组成的 AI 服务器可为规模达 2,000 人的中大型企业提供 AI 服务，离线部署方案每年的推理算力成本约为 33.2 万元，若采用云计算方案则每年需花费约 66 万元算力成本。

不过，企业负担得起成本是一回事，工程技术上能不能靠自己搞定完全是另一码事。

中国 IT 应用开发的成熟度不像美国那么发达。很多企业有 IT 团队，规模也不小，但主要是在维护内部的业务系统，没有人懂得模型如何落地，外部合格的人才也缺乏。

也许你会说，直接卖给他们模型不就好了？但中国软件和算法领域环境，跟美国差别很大。中国企业会花 2000 万买很多服务器，但很难买一个软件。

「将模型当作一个商品（commodity）卖给企业，就像卖代码一样，不太现实。」简仁贤有过多年的中美从业经验，美国企业能用 SaaS 就用 SaaS，中国企业更喜欢own （拥有）、control（把控）这个东西。「但如果你能给到一个 total solution ，企业更容易买单。」

这也是竹间智能过去一直坚持「授人以渔」的根本原因。借由他们提供的机器人「工厂」（BotFactory），银行、证券、保险、能源、制造、消费等行业七、八百家客户已经定制出无数个私有的行业模型、特殊任务模型，包括情感分析在内。

现在大语言模型可以做很多不需要再用代码做的事情。未来代码量会越来越少，模型数会越来越多，「模型就是代码」。简仁贤一直强调这一点。

而另一方面，海量场景又需要不断切换和更新、训练、运维模型，那么，中间层会变得很重。「管理数据，管理模型、训练模型、微调模型，评测模型，推理运维，让模型持续迭代就会成为一个非常重要的产业。」他认为。

「这就像盖房子并不难，但要盖一个豪宅还是平民住宅，那就不一样了。」

二、EmotiBrain 如何实现可定制？

有了 EmotiBrain 「金刚钻」，几乎可以解决企业揽下「瓷器活儿」过程中 70% 的问题。

企业只用勾选基础模型、训练数据和微调（Fine-Tuning ）方法，然后交给平台自动训练。根据结果评测，选出最适合业务的模型，直接接入企业应用即可。

EmotiBrain 是一个企业定制化大模型的流水线平台，所有复杂微调流程都被封装在里面，内置多个参数高效微调技术( Parameter-Efficient Fine Tuning )与验证过的训练数据集，包括竹间积累七年的行业训练数据集，透过简单 UI 设计，有「basic understanding 」的人就能马上上手。

当然，「你至少要了解什么样数据合适，还有一些 Fine-Tuning 基本知识，但不需要知道很多细节。」简仁贤补充道。

EmotiBrain 由三个核心部分组成。

一个是训练大模型的地方，Model Factory。工厂里，企业可以同时训练二十多个甚至上百个大模型，包括非常前沿的开源 LLM。比如，羊驼系列( LLaMA )。

企业也可以自己下载开源模型，放到平台去训练。另外，模型工厂还提供竹间智能自己训练微调好的大模型。

「2019 年我们的模型做到了 3.4 亿的参数量，也已开发 Transformer 的模型」，据简仁贤透露，「现在已经训练出来、可用的有 70 亿、130 亿的参数规模，下一步是 330 亿参数与 650 亿参数的模型，650 亿参数的模型微调时间比较久一点，但新的高效方法如 QLoRA 提速了不少。」

模型选好后，就要选择训练数据集，比如指令数据集，法律领域数据集、中医西医领域数据集、医药的数据集、财经类数据集，汽车，电商，企业私有数据。

AI 大模型实现高性能，数据质量比数据体量更重要。因此，竹间智能将过去七年积累下的行业训练语料（包括中英文训练数据）做了优化，放到了平台。

选好训练数据集后，就来到最具挑战的环节——对预训练的模型展开微调。「现在大模型还有一个非常大的缺点，你要会写提示（prompt）才能把大模型用得好，这可不是任何人都能写得好的。」简仁贤说。

让大模型变得聪明起来的办法很多，无论是 Instruct learning、in context learning、Chain of Thought (CoT)，门槛都比较高，模型工程师也要懂得很多技术细节。竹间智能将八年来 NLP 模型训练的 know-how，再加上大语言模型训练的know-how，以及包括最前沿、最新微调技术在内的许多微调方法（比如DeepSpeed、LoRA、QLoRA、P-Tuning等），都做到了模型工厂里，变成帮助企业的工具。即使用户不用懂技术细节，也可以做微调。

用户还可以用 RLHF（Human Feedback Reinforcement Learning）的 Fine-Tuning 方式进行微调，等于赋予企业以「指令微调定制」的方式满足自己的个性化需求。

例如，选出某个模型，询问相关问题，看看输出结果怎么样，给它做标注。以少量标注的高质量模板数据，对模型的输出进行诱导与限制，让模型的输出更加符合企业业务的喜好，同时减少模型的有害输出。

简仁贤反复强调，EmotiBrain 可以帮你构建的，从来不是一个模型，而是同时训练多个模型。例如，当用户选择三个预训练模型进行微调时，又分别选择了三组测试数据、三种微调方法，最后会得到 27 个定制化模型。

如何从多个模型里面选出最合适的？这就离不开平台的第二个核心要件 Benchmark System。在这里，每个模型就像一个个被多维度评分系统加以评估的小朋友，每个人都有自己的一套得分：比如平均分数、推理分数、知识分数、对话分数、上下文，文本生成分数等。每个模型的长处、短板和综合实力，一目了然。

最后，用户可透过平台将选定的定制化模型部署到自己的服务器，或者跑在企业私有云，当然，也支持对接所有厂商的云计算平台。系统会自动产生 API，与既有的企业应用做结合，企业马上就能用起来。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。