大模型落地必须要有成熟的数据仓库、数据湖、湖仓一体作为基础吗？

由于建设成本和建设需求的局限，部分企业并没有建设成熟的数据湖、湖仓一体，只能通过人工收集大量文本数据等非结构化信息，在这样的情况下，如何快速推动大模型技术的落地？

参与6

2同行回答
全部行业
全部行业 银行
|
按赞同排序
按时间排序

产品经理先生

以场景落地为目标，缺啥整啥，没必要求大求全。

数据架构师秦皇岛银行

由于技术水平的制约和方案的局限性，我们难以实现底层统一的数据管理。为了能用更丰富的数据源训练AI模型，需要以极高的代价将数仓的数据导出；为了实现实时数据处理，不惜选择冗长的数据处理链路，造成多份数据和多个计算引擎烟囱林立。

在没有成熟的数据湖和湖仓的情况下，可以考虑以下几个方面来快速推动大模型技术的落地：

数据清洗和标注：非结构化信息需要进行清洗和标注，以便于后续的数据分析和模型训练。可以利用自然语言处理技术，如分词、词性标注、命名实体识别等，对文本数据进行处理和标注。
数据集成和建模：将清洗和标注后的数据集成到大模型中进行建模。可以利用已有的预训练模型，如BERT、GPT等，进行微调和迁移学习，以适应特定的业务场景。
模型评估和优化：对建好的模型进行评估和优化，以提高模型的准确率和效率。可以利用交叉验证、混淆矩阵等方法进行模型评估，利用模型压缩、量化等方法进行模型优化。
模型应用和部署：将优化后的模型应用到实际业务场景中，并进行部署和调优。可以利用容器化技术，如Docker、Kubernetes等，进行模型部署和管理，以提高模型的可靠性和可扩展性。

总之，在没有成熟的数据湖和湖仓的情况下，可以利用自然语言处理技术和预训练模型等方法，对非结构化信息进行处理和建模，以快速推动大模型技术的落地。同时，需要注意模型的评估和优化，以提高模型的准确率和效率。