,也有可能是他提供的参考数据和资料太少的缘故——模型的能力是推演,而不是创造,它要做一件事儿,是需要数据支撑的。 而他能提供的数据,都是现实中已经存在的—— 无非就是动作和手势之类的隔空操作,比如华为的抓手截屏,Vision Pro的集中手指交互手势,以及一些眨眼翻页之类的东西。 Vision Pro还有眼球追踪配合手势的一系列操作