2月2日消息,近日,spaCy v3.0 正式發布。spaCy 是具有工業級強度的 Python NLP 工具包,被稱為最快的工業級自然語言處理工具。它支持多種自然語言處理的基本功能,主要功能包括分詞、詞性標注、詞干化、命名實體識別、名詞短語提取等。
spaCy v3.0 有以下特點:
具有新的基于 transformer 的 pipeline,這使得 spaCy 的準確率達到了當前的 SOTA 水平;
提供了新的 workflow 系統,幫助用戶將原型變為產品;
pipeline 配置更加簡單,訓練 pipeline 也更加輕松;
與 NLP 生態系統的其他部分有許多新的和改進的集成。
spaCy v3.0 旨在優化用戶的應用體驗。用戶可以使用強大的新配置系統來描述所有的設置,從而在 PyTorch 或 TensorFlow 等框架中編寫支持 spaCy 組件的模型。新的 workflow 系統更加適用于步驟復雜的現代 NLP 流程。spcCy v3.0 更新文檔地址://github.com/explosion/spaCy/releases/tag/v3.0.0