Gensim
From Wikipedia, the free encyclopedia
| 作者 | Radim Řehůřek |
|---|---|
| 開発元 | RARE Technologies Ltd. |
| 初版 | 2009 |
| 最新版 |
4.3.2[1]
/ 2022年12月21日 |
| リポジトリ |
github |
| プログラミング 言語 | Python |
| 対応OS | Linux, Windows, macOS |
| 種別 | 情報検索 |
| ライセンス | LGPL |
| 公式サイト |
radimrehurek |
Gensim(ジェンシム)は、最新の統計的機械学習を使用した、教師なしトピックモデルと自然言語処理のためのオープンソースライブラリである。
Gensimは、Python言語と性能向上を図るためにCython言語で記述されている。Gensimは、データストリーミングとインクリメンタルオンラインアルゴリズムを使用して大規模なテキストコレクションを処理するように設計されており、インメモリ処理のみを対象とした他の多くの機械学習ソフトウェアパッケージとの差別化を図っている[要出典]。
Gensimには、fastText[2]、word2vec、doc2vecアルゴリズムのストリーミング並列化実装に加えて[3]、潜在意味解析(LSA、LSI、SVD)、非負値行列因子分解(NMF)、潜在的ディリクレ配分法(LDA)、tf-idf、およびランダム射影が含まれている[4]。
Gensimの新しいオンラインアルゴリズムのいくつかは、Gensimの制作者であるRadim Řehůřekの2011年の博士論文『Scalability of Semantic Analysis in Natural Language Processing(自然言語処理における意味解析のスケーラビリティ)』にも掲載されている[5]。