一个开源的从图片生成文本描述的工具:NeuralTalk

简介
  
  斯坦福大学建立了一个可以对图像内容产生自然语言描述的模型NeuralTalk,它是一个开源的Python工具,它可以从图像生成文本描述。它实现了Google (Vinyals等,卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei, CNN + 递归神经网络RNN)的算法。它可以从一副图像用递归神经网络(LSTM或RNN)得到一句描述这幅图像的话。
  
  这个项目包含的Python+ numpy的源代码,通过多层递归神经网络从图像生成自然语言描述。

依赖:
  
  Python 2.7, numpy, scipy, nltk, argparse(大多用pip可以安装好)
  
指引
  
  得到代码。从这里?$ git clone 它的 repo?
  
  获取的数据。它在repo中不提供。点击打开链接下载data/中的数据,此外,本下载不包括原始图像文件,所以如果你想以可视化的原始图像的注释,你必须获得Flickr8K/ Flickr30K/ COCO的图像并放到相应的数据文件夹。原始图像下载:http://nlp.cs.illinois.edu/HockenmaierGroup/ (要填表)
  
  训练模型。运行python driver.py
  
  监测训练。运行本地Web服务器(如python -m SimpleHTTPServer 8123),然后打开http://localhost:8123/monitorcv.html。
  
  评估模型检查点.。运行python evaluate_sentence_predctions.py+检查点路径。
  
  可视化的预测。使用附带的HTML文件visualize_result_struct.html可视化的评估代码生成的JSON结构这将可视化的图像和它们的文本描述。请注意,你必须先下载原始图像,并将它们放到相应的数据/文件夹。


这个工具是BSD许可证的


作者已经提供了一个训练好的模型这里可以下载NeuralTalk
Model Zoo



我用的是Flickr8K的数据集

得出的效果如下:


转载请注明出处:)

更多详情请戳

https://github.com/karpathy/neuraltalk

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>