证券大语言模型大模型证券AI大模型

如何进行大模型POC测试、选型？

目前全国大模型厂家这么多，在进行私有化落地的时候，就需要进行大模型的POC测试与选型，我们总结了目前内部比较关注的一些点
产品能力：
1.效率稳定性
2.性能优越性
3.安全可控性
服务能力：
1.工程化能力
2.平台生态能力
3.需求匹配能力
对于这些点，存在一个比较稳定的通用测试方案。是否存在类似数据库TPCC，TPCDS这样的标准型测试，定义大模型层面的一些基础性指标，评估各家大模型的强弱。

参与10

2同行回答
全部行业
全部行业 互联网服务 银行
|
按赞同排序
按时间排序

匿名用户

我觉得现阶段不要想的太多，也不要用之前搞系统的方式来看待新东西。
使用似SuperCLUE，C-Eval等的评测，加上自己的一些主动评测就好。
其实目前私有化部署方面Llama2 是最佳选择，做大模型评测交给类似BAAI(flagEval等)，SuperCLUE就好，不要自己去玩。

互联网服务 · 2023-09-05

浏览1020

查看赞同的人

twt社区管理员邀答

课题专家组

架构师某金融公司

整体可以参考 ChatGPT测评，但在垂直领域，现在没有一个比较全面 & 权威的评测集合，维度。
功能层面常用指标有回答准确率，召回率，机器翻译，抗干扰能力等。性能方面一般参考首字返回时间，每秒钟生成字数，推理时间，交叉验证等技术来评估性能。

银行 · 2023-09-06

浏览935

查看赞同的人

twt社区管理员邀答

ChatGPT 回答

针对您提出的问题，我认为您的想法是可行的。在大模型的POC测试与选型过程中，确实需要考虑到效率稳定性、性能优越性、安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的因素。而通用测试方案也是非常必要的。

目前，大模型的通用测试方案还没有像数据库TPCC、TPCDS这样的标准型测试那么成熟。但是，我们可以参考一些已有的测试方案，如BERT模型的GLUE测试、GPT-2模型的PPL测试等。这些测试方案可以评估大模型在不同任务上的表现，从而对大模型的效率稳定性、性能优越性等方面进行评估。

此外，对于大模型的安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的评估，可以考虑以下几点：

安全可控性：评估大模型的隐私保护能力、数据安全能力、模型安全能力等方面，确保大模型在使用过程中不会出现安全问题。
工程化能力：评估大模型的可扩展性、部署效率、代码可读性等方面，确保大模型在实际应用中能够快速部署、易于维护。
平台生态能力：评估大模型在不同平台上的适配能力、与其他技术的兼容性等方面，确保大模型能够在不同的应用场景中灵活应用。
需求匹配能力：评估大模型在不同任务上的表现、对不同领域的适应能力等方面，确保大模型能够满足不同用户的需求。

综上所述，对于大模型的POC测试与选型，我们可以参考已有的测试方案，同时也需要考虑到大模型的安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的评估。这样才能够全面、准确地评估各家大模型的强弱，选择最适合自己的大模型。

相关问题

如何把业务需求转换为数据需求？

在处理大规模金融数据时，有哪些最佳实践和技术措施可以减少数据泄露和滥用的风险？

长尾场景下的数据如何清洗，有哪些方法、措施、注意点？

企业大模型微调项目落地实施有哪些关键岗位角色及职责？

如何在金融服务中使用大模型时确保数据隐私和安全？

相关资料

NVIDIA AI Enterprise v3.1解决方案分享

大语言模型的 GPU 加速和生成式AI在金融中的应用

算法交易系统选型与优化

金融信息化研究所发布《大模型金融应用实践及发展建议》

aigc(gpt-4)赋能通信行业应用白皮书

相关文章

如何构建高效的资源配置策略以支持大型模型项目？

如何在金融服务使用大模型时确保数据隐私和安全？

一文读懂Retrieval Augmented Generation（检索增强生成）

自然语言处理——NLP之预训练语言模型BERT（上）

自然语言处理——NLP之预训练语言模型GPT

问题状态

发布时间：2023-09-05

关注会员：3 人

问题浏览：2250

最近回答：2023-09-06

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广