cs224u作业 :基于远程监督的关系抽取-3 hw_rel_ext.ipynb
__author__ = "Bill MacCartney and Christopher Potts"
__version__ = "CS224u, Stanford, Spring 2020"
目录
原型系统
-
- 原型系统
这里有许多选择,这个作业可以很容易地发展成一个项目。以下是一些建议:
- 尝试不同的分类器模型,从sklearn及其他模型构建 。
- 增加一个特征来表示中间词的长度。
- 增加词袋的表示形式,包括bigrams或者trigrams(而不仅仅是unigrams)。
- 基于实体的特征。
- 根据两个实体提到的上下文(不是中间词)——也就是第一次提到之前或第二次提到之后的单词——来试验特征。
- 尝试增加捕获语法信息的特征,比如Mintz等人使用的依赖路径特征,NLTK工具包包含各种可能有帮助的解析算法。
- 词袋表示法不允许跨单词类别(如人名、地点或公司名称)进行泛化。可以使用GloVe单词嵌入。
#1. try o