LLM增强的图深度学习算法平台
技术描述
在大模型时代,海量数据处理面临天价开销和效率低下的双重挑战。另一方面,关系数据库作为数据管理的主导力量,占据约80%的市场份额,市值逾千亿美元。然而,关系数据库的核心“关系表格数据”的智能分析问题仍然没有得到很好的解决。 为此,结合实验室在数据挖掘领域积累,本项目旨在开发一套“LLM增强的图深度学习算法库/平台”,重点突破关系表格挖掘、LLM运行效率等挑战,系统性的提高LLM在关系数据库、物联网等重要应用场景下的效率。项目成果可以应用在涉及关系数据库和关系数据的诸多商业场景,以平台/数据仓库的形式提供商业服务。目前,该项目初期代码已开源,并作为交大本科生和研究生课程作业进行验证。
技术优势
1. 本技术的核心优势主要集中于以下两点。1)实验室在图深度学习的积累。项目负责人王铮以第一作者的多个算法被多个国际知名图分析/深度学习算法库收录。因此,具有设计“国际级平台”的技术积累;2)项目负责人的两门课程(本科生内容理解和研究生社交网络分析),可以作为最好的“产学研”平台。 2. 市场竞争预测:目前斯坦福发起RelBench项目,依托其图学习平台和表格学习平台,可以视为主要竞争对手。但是本项目有两个特色:1)以LLM高效应用为核心;2)以一站式关系表格数据学习为目标。以上两点可以让项目更加切合大模型时代的关系数据分析应用场景。
效果指标
1. 目标市场:关系数据库+LLM。一方面,关系数据库作为数据管理的主导力量,占据约80%的市场份额,市值逾千亿美元。另一方面,大语言模型是未来人工智能发展趋势,具有极大的增长潜力。 2. 成果推广、应用和示范:项目采用“开源”的方式进行推广和应用,目前已经包含3W于行代码,并在本科生和研究生课程作为大作业进行初步的示范应用。 3. 未来:希望能够和企业对接,通过开源并结合实验室学术成果来保证项目的先进性,通过企业实践来保证项目的实用性。