cs224u 基于远程监督的关系抽取(4)
目录
评估
-
- 评估
- 数据切分
- 选择评估指标
- 运行评估
- 评估随机猜测策略
在开始构建模型之前,建立一个测量模型性能的测试工具。
数据切分根据数据构建模型时,最好将数据划分为多个部分,训练集用于训练模型,测试集用于评估模型。实际上,我们会划分为三部分:
- 测试集(1%)。在开发期间,划出一小块数据用于训练或测试数据通常是有用的。当然,通过对小数据集进行评估而获得的结果几乎是没有意义的,但是由于评估运行速度非常快,在代码迭代开发周期中清除bug,这是个好方法。
- 训练集(74%)。在开发期间和评估中使用大部分数据用于训练模型,可能需要更长的时间运行。
- 验证集(25%)。将使用dev切分作为测试数据,用于开发期间形成的评估。 这里切分数据集比其他NLP问题稍微复杂一些,因为我们同时拥有一个语料库和知识库。为了尽量减少训练数据到测试数据的信息泄漏,我们希望将语料库和知识库分开。为了最大化利用数据,我们尽可能紧密地对齐语料库分割和KB分割。在理想情况下,每个分割都有自己的实体,用于该分割的语料库将只包含提到这些实体的示例,用于该分割的知识库将只包含涉及这些实体的三元组。然而,这一理想情况在实践中并不能完全实现。为了尽可能接近