[原创] 使用 fastText 做中文文本分类(4) – 编码无悔 / Intent & Focused

查看本系列文章合集，请看这里。

✓ 开始训练第一个文本分类模型
标注好的数据，其格式为：

__label__科技月 10 日网通社从高合汽车获悉华人运通微软 2020 世界人工智能大会云端峰会 WAIC 2020 上达成战略合作依托微软小冰人工智能技术高合汽车上落地全球首个主动式人工智能伙伴 HiPhiGo 用户提供更好交通出行体验人工智能交通行业创新融合发展探讨成立联合智能计算实验室智能汽车载体智捷交通多个领域展开深度合作人工智能前瞻技术研发推动智慧出行社会持续发展微软亚洲互联网工程院院长王永东微软华人运通合作使人工智能技术切实可行落地场景得以转化真实有效生产力发挥更大价值微软华人运通携手推进人工智能新兴科技汽车智慧智慧出行领域广泛应用产业升级社会持续发展注入新活力华人运通董事长丁磊此次合作顶级人工智能企业智能汽车公司强强联手 AI 多项领先技术全球汽车行业首次量产落地世界内技术领先性首款智能汽车高合 HiPhi 有条不紊推进全球首条车路协同自动驾驶智能化城市道路示范项目盐城开通试运行再全球首个车路城一体化 5G 无人驾驶交通运营样板上海张江未来公园成功落地华人运通以人为本人性化需求出发人性化智慧打造智能汽车智捷交通智慧城市三智战略各项业务稳步推进高合首款量产车 HiPhi 2020 年底小批量试生产 2021 年上市交付

按 fastText 的指南，把这份数据按大概 9:1 的比例，分成training集和validation集，然后开始训练模型：

./fasttext supervised -input labeled-data_train -output model

其中，labeled-data_train 是training集文件，model 是输出模型的文件名前缀。
经过一段时间的等待（速度很快），当前目录下就生成了模型文件：model.bin 和 model.vec。

现在可以用validation集来检验一下模型效果了：

./fasttext test model.bin labeled-data_valid 1

其中，labeled-data_valid 是validation集文件，1表示只预测top 1的label。
输出：

N 10705

P@1 0.842

R@1 0.842

即 Precision为0.842，Recall为0.842。这个结果还可以，但还能优化。
文章来源：https://www.codelast.com/
✓ 模型调优
设置更详细的参数重新训练模型：

./fasttext supervised -input labeled-data_train -output model -lr 1.0 -epoch 25 -wordNgrams 2

其中：
-lr 1.0 表示 learning rate 设置成 1.0（通常值：0.1 ～ 1.0）。
-epoch 25 表示迭代的轮数设置成 25。
-wordNgrams 2 表示n-gram的值，一般使用2，表示2-gram。
这样训练出来的模型，再做一次test，结果变好了一些：

N 10705

P@1 0.878

R@1 0.878

这里只对模型优化做了简单的尝试。

✓ 交互模式下预测文本的分类
执行以下命令：

./fasttext predict model.bin -

fastText会加载 model.bin 模型，进入交互模式，等待用户输入。
此时输入的应该是分好词之后的文本，例如“网通社从高合汽车获悉华人运通微软 2020 世界人工智能大会云端峰会 WAIC 2020 上达成战略合作”。一回车，fastText马上会返回该段文本的预测分类：

__label__科技

这是个比较方便的调试方法。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

wechat qrcode of codelast

发表评论 取消回复

发表评论取消回复