在上一课中,曹莹介绍了如何让机器完成简单的写作任务。这一课中,我们会进一步介绍如何让机器读懂视频并用文本描述,即完成“视频到文本”的生成任务。该任务在视频检索、视频字幕、仪表导航等领域都有广泛的应用。
传统的“序列到序列”模型,只能实现“视频到一句话”的生成任务。为了实现“视频到一段话”的生成任务,我们会引入双层序列和双层RNN的概念。双层序列是PaddlePaddle支持的一种非常灵活的数据组织方式,能帮助我们描述段落、多轮对话等更为复杂的语言数据。而基于双层序列搭建的双层RNN,就能实现将视频映射到一段话的任务。本场Chat主要内容如下:
- 介绍“视频到文本”的应用场景,给大家一个直观的感受。
- 依次讲述“文本到文本”、“视频到一句话”、“视频到一段话”的模型优化过程。
- 介绍PaddlePaddle中的双层序列,并帮助大家看懂双层RNN的配置。
实录提要:
- 按照现在发展趋势,机器达到能够预测事件发展的程度还需要多久?
- PaddlePaddle 和 TensorFlow 有那些不同呢?
- 现在有哪些公开的高质量标注数据集?
- 和 TensorFlow 相比有什么优势?
- PaddlePaddle 的接口支持哪些语言?现在开源了吗?
- CNN 跟 RNN 的区别?在视频到文本过程中各自起了什么作用?
- 目前 PaddlePaddle 能够支持哪些分布式的框架呢?
- 视频序列 CNN 可以用别人训练好的模型做迁移训练吗?
- 生成一个句子还是生成一段话这个是由什么决定的?是在开始时对模式的选择么?
- PaddlePaddle 框架中提供哪些技术防止训练时过拟合?
- PaddlePaddle 是否支持所有参数和权重都量化成 8bit 的模型?
- PaddlePaddle 是否支持 TensorFlow 或 Caffe 框架训练的权重导入?
往期回顾:
- 深度学习第一课
- 深度学习第二课:个性化推荐
- 深度学习第三课:文本生成
阅读全文: http://gitbook.cn/gitchat/activity/590abe2499b8da1e4f68065d
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。