功能简介
=========

分词
#####


不带词性的切分: 参见 :py:func:`jieba.cut`, :py:func:`jieba.lcut`
-----------------------------------------------------------------------

默认使用带HMM的精确模式,不使用paddle, 调用默认分词器 :py:meth:`jieba.Tokenizer.cut`
对序列进行不带词性的切分.

例子:


.. code-block:: python

    # encoding=utf-8
    import jieba

    jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持,早期版本不支持
    strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
    for str in strs:
        seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
        print("Paddle Mode: " + '/'.join(list(seg_list)))

    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("Full Mode: " + "/ ".join(seg_list))  # 全模式

    seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
    print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

    seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
    print(", ".join(seg_list))

    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print(", ".join(seg_list))

结果:

.. code-block::

       【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

       【精确模式】: 我/ 来到/ 北京/ 清华大学

       【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

       【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


带词性的切分: 参见 :py:func:`jieba.posseg.cut`, :py:func:`jieba.posseg.lcut`
-------------------------------------------------------------------------


适合用于搜索引擎构建倒排索引的分词,粒度比较细 参见 :py:func:`jieba.cut_for_search`
-------------------------------------------------------------------------


新建自定义分词器,可用于同时使用不同词典。参见 :py:meth:`jieba.Tokenizer.__init__`
-------------------------------------------------------------------------

备注
------------

- :py:class:`sentence` :  待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
- :py:func:`jieba.lcut`  以及  :py:func:`jieba.lcut_for_search` 直接返回 list