Stanza是一个用于对多语言进行语言分析的准确且高效的工具集。Stanza从原始文本开始,将其分为句子和单词,然后可以识别词性和实体,进行句法分析等。
在使用Stanza的时候,可能会遇到语言模型下载失败的问题。
我们可以预先进行下载,然后离线使用Stanza。
在使用Stanza的时候,首先会下载resources.json文件,这个文件是有版本之分的,在运行程序的时候可以在下载的url中看到对应版本。可以手动下载后放到这个位置:
~/stanza_resources/resources.json
# 注意,下载完可能需要进行重命名
接下来可以取下载模型文件,https://huggingface.co/stanfordnlp/stanza-你需要的模型的语言/resolve/你的json文件的版本/models/default.zip
然后需要将模型文件解压到
~/stanza_resources/你所需要的模型的语言/
# 如~/stanza_resources/en/
不过需要对Stanza进行修改,不然还是会去下载。具体来说,把common.py的request_file注释掉就可以了。如果有需要的话,也可以把core.py的download_resources_json也注释掉。

2 条评论
Reason · 2024年12月2日 下午5:28
Stanza主页:https://stanfordnlp.github.io/stanza/
Reason · 2024年12月23日 下午9:14
测试版本1.9.0