芽筑说吧 关注:94贴子:1,861

回复:<干货贴>20个有用的Python数据科学库

取消只看楼主收藏回复

17. NLTK
NLTK 是一组库的集合,一个完整的自然语言处理平台。你可以借助 NLTK 以各种方式处理和分析文本,如标记、打标签、提取信息等。NLTK 还用于原型设计和构建研究性系统。
该库的增强还包括 API 和兼容性的微小变更以及面向 CoreNLP 的新接口。


17楼2018-08-09 17:30
回复
    19. Gensim
    Gensim 基于 Numpy 和 Scipy 而构建,是一个用于语义分析、主题建模和向量空间建模的 Python 库。它提供了主流的 NLP 算法实现,例如 word2vec。Gensim 有自己的 models.wrappers.fasttext 实现,不过仍然可以使用 fasttext 库进行单词表示的高效学习。


    19楼2018-08-09 17:30
    回复
      20. Scrapy
      Scrapy 是一个用于创建扫描网站页面并收集结构化数据的爬虫的库。此外,Scrapy 可以从 API 中提取数据。因为具备良好的可扩展性和可移植性,该库使用起来非常方便。
      该库在过去一年里的变化包括代理服务器的若干次升级以及改进的错误通知和问题识别系统。用在元数据设置中的 Scrapy 解析也有了新的特性。


      20楼2018-08-09 17:30
      回复
        11. XGBoost/LightGBM/CatBoost
        梯度提升是流行的机器学习算法之一,它的核心原理在于构建连续精炼的基本模型的集合,因此,有些专门的库被设计用于方便快速地实现该方法。我们认为 XGBoost、LightGBM 和 CatBoost 是值得关注的。它们都是解决常见问题最强有力的工具,而且使用方式几乎一样。我们可以使用这些库快速实现高度优化且可扩展的梯度提升


        21楼2018-08-09 17:54
        回复
          11. XGBoost/LightGBM/CatBoost
          梯度提升是最流行的机器学习算法之一,它的核心原理在于构建连续精炼的基本模型的集合,即决策树。因此,有些专门的库被设计用于方便快速地实现该方法。我们认为 XGBoost、LightGBM 和 CatBoost 是值得关注的。它们都是解决常见问题最强有力的工具,而且使用方式几乎一样。我们可以使用这些库快速实现高度优化且可扩展的梯度提升,所以它们在数据科学家和 Kaggle 竞争者中非常受欢迎,他们在这些算法的帮助下赢得了很多比赛。


          22楼2018-08-09 17:54
          收起回复