如何进行大模型POC测试、选型?

目前全国大模型厂家这么多,在进行私有化落地的时候,就需要进行大模型的POC测试与选型,我们总结了目前内部比较关注的一些点
产品能力:
1.效率稳定性
2.性能优越性
3.安全可控性
服务能力:
1.工程化能力
2.平台生态能力
3.需求匹配能力
对于这些点,存在一个比较稳定的通用测试方案。是否存在类似数据库TPCC,TPCDS这样的标准型测试,定义大模型层面的一些基础性指标,评估各家大模型的强弱。

参与10

2同行回答

匿名用户匿名用户
我觉得现阶段不要想的太多,也不要用之前搞系统的方式来看待新东西。使用似SuperCLUE,C-Eval等的评测,加上自己的一些主动评测就好。其实目前私有化部署方面Llama2 是最佳选择,做大模型评测交给类似BAAI(flagEval等),SuperCLUE就好,不要自己去玩。...显示全部

我觉得现阶段不要想的太多,也不要用之前搞系统的方式来看待新东西。
使用似SuperCLUE,C-Eval等的评测,加上自己的一些主动评测就好。
其实目前私有化部署方面Llama2 是最佳选择,做大模型评测交给类似BAAI(flagEval等),SuperCLUE就好,不要自己去玩。

收起
互联网服务 · 2023-09-05
peimapeima课题专家组架构师某金融公司
整体可以参考 ChatGPT测评 ,但在垂直领域,现在没有一个比较全面 & 权威的评测集合,维度。功能层面常用指标有回答准确率,召回率, 机器翻译,抗干扰能力等。性能方面一般参考首字返回时间,每秒钟生成字数,推理时间,交叉验证等技术来评估性能。...显示全部

整体可以参考 ChatGPT测评 ,但在垂直领域,现在没有一个比较全面 & 权威的评测集合,维度。
功能层面常用指标有回答准确率,召回率, 机器翻译,抗干扰能力等。性能方面一般参考首字返回时间,每秒钟生成字数,推理时间,交叉验证等技术来评估性能。

收起
银行 · 2023-09-06

ChatGPT 回答

针对您提出的问题,我认为您的想法是可行的。在大模型的POC测试与选型过程中,确实需要考虑到效率稳定性、性能优越性、安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的因素。而通用测试方案也是非常必要的。

目前,大模型的通用测试方案还没有像数据库TPCC、TPCDS这样的标准型测试那么成熟。但是,我们可以参考一些已有的测试方案,如BERT模型的GLUE测试、GPT-2模型的PPL测试等。这些测试方案可以评估大模型在不同任务上的表现,从而对大模型的效率稳定性、性能优越性等方面进行评估。

此外,对于大模型的安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的评估,可以考虑以下几点:

  1. 安全可控性:评估大模型的隐私保护能力、数据安全能力、模型安全能力等方面,确保大模型在使用过程中不会出现安全问题。
  2. 工程化能力:评估大模型的可扩展性、部署效率、代码可读性等方面,确保大模型在实际应用中能够快速部署、易于维护。
  3. 平台生态能力:评估大模型在不同平台上的适配能力、与其他技术的兼容性等方面,确保大模型能够在不同的应用场景中灵活应用。
  4. 需求匹配能力:评估大模型在不同任务上的表现、对不同领域的适应能力等方面,确保大模型能够满足不同用户的需求。

综上所述,对于大模型的POC测试与选型,我们可以参考已有的测试方案,同时也需要考虑到大模型的安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的评估。这样才能够全面、准确地评估各家大模型的强弱,选择最适合自己的大模型。

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2023-09-05
  • 关注会员:3 人
  • 问题浏览:2250
  • 最近回答:2023-09-06
  • X社区推广