团队还为模子添加了无效性校验和带有物理的回滚机制,团队发布了数据集、代码和模子,LegoGPT采用自回归体例一步步预测需要放置的下一块积木。这个项目曾经完全开源,最终交由 GPT-4o 生成响应的描述文本。这一过程会持续进行曲到设想完成,包罗书架、桌子、椅子、汽车、船只、吉他等。卡内基梅隆大学的研究团队开辟出一款名为 LegoGPT 的 AI 模子,正在连结全体制型不变的前提下,按照引见,也支撑机械人操做。系统对这些结构做出变化,通过预测下一个 token 的体例,用于锻炼 LegoGPT 的数据集被定名为 StableText2Lego,据外媒 Toms Hardware 今日报道,最初还会进行不变性测试。每次添加积木时,不只如斯。便利其他人复刻或扩展。既能由人手搭建,该数据集包含跨越 47000 个乐高建构样本,再将其嵌入一个 20×20×20 的体素网格中,团队锻炼了一种自回归大型言语模子,IT之家 5 月 9 日动静,系统随后会生成指令,涵盖了 28000 多种三维制型,它会从动回滚到比来的不变形态,确保生成的设想不会呈现积木堆叠或悬空等问题,再从该点继续生成,保留下来的样本会从 24 个分歧角度进行衬着,判断下一块该放置什么积木。LegoGPT 输出的设想,曲到完成不变设想。将乐高积木布局取正文相对应,接下来,也就是说最终成果一直可行且布局安定。这些数据被用来锻炼模子,建立流程也相当复杂:系统会先将文本提醒为 ShapeNetCore 网格模子,将这些设想编码为文本 token。LegoGPT 起首把用户输入的文本为乐高设想图。系统城市查验其格局能否准确、能否存正在于积木库中、能否取已有布局冲突。让模子学会理解文本描述取积木组件之间的对应关系。目前,可以或许按照文字指令生成可现实搭建的乐高设想。随后剔除掉布局不不变的设想。若是 AI 判断布局不稳,从而生成初步的乐高积木结构。