希伯来语的空格句子标记化错误
it1352
帮助69人
问题说明
正在尝试对希伯来语使用拼写句子标记化。
import spacy
nlp = spacy.load('he')
doc = nlp(text)
sents = list(doc.sents)
我得到:
Warning: no model found for 'he'
Only loading the 'he' tokenizer.
Traceback (most recent call last):
...
sents = list(doc.sents)
File "spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707)
raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation: https://spacy.io/docs/usage
怎么办?
正确答案
#1
Spacy的Hebrew coverage目前非常小。它目前只有word希伯来语的标记化,大致在空格上拆分,有一些额外的规则和例外。您需要的句子词汇化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子在哪里结束,另一个句子在哪里开始。这些模型需要大量带标签的训练数据,因此可用于比标记化(here的列表)更少的语言。
最初的消息是告诉您它可以执行标记化,这不需要模型,然后您得到的错误是由于没有模型来分句、执行NER或POS等。
您可以在this list中查找希伯来语NLP的其他资源。如果您找到了足够多的正确格式的标签数据,并且感觉雄心勃勃,您可以使用上述概述here训练您自己的希伯来语拼写模型。
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /reply/detail/tangbafgj
系列文章
更多
同类精品
更多
-
YouTube API 不能在 iOS (iPhone/iPad) 工作,但在桌面浏览器工作正常?
it1352 07-30 -
iPhone,一张图像叠加到另一张图像上以创建要保存的新图像?(水印)
it1352 07-17 -
保持在后台运行的 iPhone 应用程序完全可操作
it1352 07-25 -
使用 iPhone 进行移动设备管理
it1352 07-23 -
在android同时打开手电筒和前置摄像头
it1352 09-28 -
扫描 NFC 标签时是否可以启动应用程序?
it1352 08-02 -
检查邮件是否发送成功
it1352 07-25 -
Android微调工具-删除当前选择
it1352 06-20 -
Android App 和三星 Galaxy S4 不兼容
it1352 07-20 -
希伯来语的空格句子标记化错误
it1352 06-22