大模型落地必须要有成熟的数据仓库、数据湖、湖仓一体作为基础吗?

由于建设成本和建设需求的局限,部分企业并没有建设成熟的数据湖、湖仓一体,只能通过人工收集大量文本数据等非结构化信息,在这样的情况下,如何快速推动大模型技术的落地?

参与6

2同行回答

Jessie110Jessie110联盟成员产品经理先生
以场景落地为目标,缺啥整啥,没必要求大求全。显示全部

以场景落地为目标,缺啥整啥,没必要求大求全。

收起
银行 · 2024-01-10
浏览360
xuyyxuyy联盟成员数据架构师秦皇岛银行
由于技术水平的制约和方案的局限性,我们难以实现底层统一的数据管理。为了能用更丰富的数据源训练AI模型,需要以极高的代价将数仓的数据导出;为了实现实时数据处理,不惜选择冗长的数据处理链路,造成多份数据和多个计算引擎烟囱林立。...显示全部

由于技术水平的制约和方案的局限性,我们难以实现底层统一的数据管理。为了能用更丰富的数据源训练AI模型,需要以极高的代价将数仓的数据导出;为了实现实时数据处理,不惜选择冗长的数据处理链路,造成多份数据和多个计算引擎烟囱林立。

收起
银行 · 2024-01-18
浏览313

ChatGPT 回答

在没有成熟的数据湖和湖仓的情况下,可以考虑以下几个方面来快速推动大模型技术的落地:

  1. 数据清洗和标注:非结构化信息需要进行清洗和标注,以便于后续的数据分析和模型训练。可以利用自然语言处理技术,如分词、词性标注、命名实体识别等,对文本数据进行处理和标注。
  2. 数据集成和建模:将清洗和标注后的数据集成到大模型中进行建模。可以利用已有的预训练模型,如BERT、GPT等,进行微调和迁移学习,以适应特定的业务场景。
  3. 模型评估和优化:对建好的模型进行评估和优化,以提高模型的准确率和效率。可以利用交叉验证、混淆矩阵等方法进行模型评估,利用模型压缩、量化等方法进行模型优化。
  4. 模型应用和部署:将优化后的模型应用到实际业务场景中,并进行部署和调优。可以利用容器化技术,如Docker、Kubernetes等,进行模型部署和管理,以提高模型的可靠性和可扩展性。

总之,在没有成熟的数据湖和湖仓的情况下,可以利用自然语言处理技术和预训练模型等方法,对非结构化信息进行处理和建模,以快速推动大模型技术的落地。同时,需要注意模型的评估和优化,以提高模型的准确率和效率。

提问者

nxdy
nxdy0011
系统运维工程师nj

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2024-01-10
  • 关注会员:3 人
  • 问题浏览:975
  • 最近回答:2024-01-18
  • X社区推广