让ChatGPT来做这件事,最核心的是如何向ChatGPT提问,把问题一股脑的直接丢给ChatGPT,如:用Python写个摔倒检测代码是不可取的,而是要像挤牙膏一样,一点一点引导ChatGPT得到准确的答案,从而才能真正让ChatGPT提高我们解决问题的效率。
向ChatGPT提问首先要给他一个角色设定,在算法领域这叫prompt,有了进入了角色,才能更好地回答问题。所以,我提问的第一句是:
假如你是一名AI工程师,我想识别视频中是否有摔倒行为,有哪些办法
没必要刚上来就让他直接写代码,先问问他有哪些办法或者思路。
我们看看ChatGPT的回答
给出了3个方案,有传统的图像方法,也有深度学习方法。
我们当然是对深度学习感兴趣了,所以继续询问关于深度学习的方法
使用深度学习的方法有哪些
ChatGPT回答
从卷积神经网络到卷积循环神经网络说了个遍。
看起来循环神经网络RNN更简单、靠谱,接下来我的提问是
我需要循环神经网络(RNN)的方法
给出了非常详细的、实操性非常强的步骤,我简单归类一下,大致是两步:
第一步,对视频预处理,用卷积神经网络(如:ResNet)提取视频动作特征(类似wordembedding)第二步,用动作特征作为lstm模型的输入,训练lstm循环神经网络,对动作特征分类,从而识别出摔倒行为
到目前,ChatGPT提供给我们的,解决问题的思路非常清晰,并且可执行性非常强。
所以,这时候我们可以让ChatGPT写代码了。
按照我上面划分的步骤,我让他一次性把第一步代码写出来,所以,我的提问是:
写一下视频预处理的代码,并用pytorchresnet提取视频特征
ChatGPT的回答
定义了两个独立函数,分别完成了第一步中的两小步内容。
代码没有问题,先调用preprocess_video函数对视频预处理,再调用extract_features卷积操作,就可以将一个向量embedding成一个2048维的向量。
第二步,我拆分成了两小步,先搭建lstm模型,再训练
基于上面产出的结果,用pytorchlstm搭建视频分类模型
写一下模型训练的代码
还可以让ChatGPT找一些数据集
还可以让他写一下模型推理的代码
他可以自动帮我们把视频预处理、特征提取和推理三部分都串起来,形成一个完整的项目。