[原创] JAVA sun HttpServer在handler中返回含中文的response应该怎么处理

2023 年 03 月 23 日作者 learnhard

在JAVA中，使用sun HttpServer实现一个web server的时候，使用了下面的hander类来处理请求：

static class MyHandler implements HttpHandler {
  @Override
  public void handle(HttpExchange httpExchange) throws IOException {
    String response = "test";  // 返回固定内容
    httpExchange.sendResponseHeaders(200, response.length());
    OutputStream os = httpExchange.getResponseBody();
    os.write(response.getBytes());
    os.close();
  }
}

[原创]《使用 fastText 做中文文本分类》文章合集

2020 年 07 月 29 日作者 learnhard

本文描述了如何使用 fastText 对中文进行文本分类的过程，只有实操，基本没有理论。
以下按顺序编排。

✓ 使用 fastText 做中文文本分类(1)
✓ 使用 fastText 做中文文本分类(2)
✓ 使用 fastText 做中文文本分类(3)
✓ 使用 fastText 做中文文本分类(4)
✓ 使用 fastText 做中文文本分类(5)… Read More

[原创] 使用 fastText 做中文文本分类(5)

2020 年 07 月 29 日2020 年 07 月 29 日作者 learnhard

查看本系列文章合集，请看这里。

前面说的模型训练、预测过程，是用 fastText 可执行程序完成的。fastText提供了Python的接口，同样的功能也可以用Python实现。如果数据量比较小，单机做文本分类没啥问题。但我的数据量比较大，几十G的文本数据，单机加载模型、预测分类太耗资源了，而且速度慢。
并行这种事嘛，交给Map-Reduce job来做是最合适不过了，不过，要在Hadoop集群上安装fastText的Python包是不可能的，所以我只能找一下，fastText的模型怎么用Java加载，从而在M-R job中并行地去做预测。

[原创] 使用 fastText 做中文文本分类(4)

2020 年 07 月 29 日2020 年 07 月 29 日作者 learnhard

查看本系列文章合集，请看这里。

✓ 开始训练第一个文本分类模型
标注好的数据，其格式为：

__label__科技月 10 日网通社从高合汽车获悉华人运通微软 2020 世界人工智能大会云端峰会 WAIC 2020 上达成战略合作依托微软小冰人工智能技术高合汽车上落地全球首个主动式人工智能伙伴 HiPhiGo 用户提供更好交通出行体验人工智能交通行业创新融合发展探讨成立联合智能计算实验室智能汽车载体智捷交通多个领域展开深度合作人工智能前瞻技术研发推动智慧出行社会持续发展微软亚洲互联网工程院院长王永东微软华人运通合作使人工智能技术切实可行落地场景得以转化真实有效生产力发挥更大价值微软华人运通携手推进人工智能新兴科技汽车智慧智慧出行领域广泛应用产业升级社会持续发展注入新活力华人运通董事长丁磊此次合作顶级人工智能企业智能汽车公司强强联手 AI 多项领先技术全球汽车行业首次量产落地世界内技术领先性首款智能汽车高合 HiPhi 有条不紊推进全球首条车路协同自动驾驶智能化城市道路示范项目盐城开通试运行再全球首个车路城一体化 5G 无人驾驶交通运营样板上海张江未来公园成功落地华人运通以人为本人性化需求出发人性化智慧打造智能汽车智捷交通智慧城市三智战略各项业务稳步推进高合首款量产车 HiPhi 2020 年底小批量试生产 2021 年上市交付

按 fastText 的指南，把这份数据按大概 9:1 的比例，分成training集和validation集，然后开始训练模型：

./fasttext supervised -input labeled-data_train -output model

其中，labeled-data_train 是training集文件，model 是输出模型的文件名前缀。
经过一段时间的等待（速度很快），当前目录下就生成了模型文件：model.bin 和 model.vec。

[原创] 使用 fastText 做中文文本分类(3)

2020 年 07 月 29 日2020 年 07 月 29 日作者 learnhard

查看本系列文章合集，请看这里。

为 training 数据做标注，这可能是一个艰巨的任务，也可能是一个有捷径的任务。
有时候，我们可以依据一些已知的规则来标注文本，比如不同的数据是从不同的来源获取到的，从来源可以知道它们所属的类别，这是一个捷径。不过我这里不具备这样的条件。
我的数据来源是网上的各种新闻，不是某些专业领域的数据，这种比较常见的文本分类任务，可以利用国内的几大云服务商提供的免费接口来完成。阿里云、腾讯云都有这样的接口。
以腾讯云为例，其“人工智能→自然语言处理”产品提供了文本分类功能：

文本分类接口能够对用户输入的文本进行自动分类，将其映射到具体的类目上，用户只需要提供待分类的文本，而无需关注具体实现。

该功能基于千亿级大规模互联网语料和LSTM、BERT等深度神经网络模型进行训练，并持续迭代更新，以保证效果不断提升。

目前已提供：

● 通用领域分类体系，包括15个分类类目，分别是汽车、科技、健康、体育、旅行、教育、职业、文化、军事、房产、娱乐、女性、奥运、财经以及其他，适用于通用的场景。

● 新闻领域分类体系，包括37个一级分类类目，285个二级分类（详细请见类目体系映射表），已应用于腾讯新闻的文章分类。

更多垂直领域的分类体系即将推出，敬请期待。

默认接口请求频率限制：20次/秒。

该API每天有50万次免费调用额度，用来标注数据够用了：

如果你对这个接口的分类结果准确性有疑虑的话，可以亲自拿一些新闻的文本试一试，就会发现它的效果真的不错，完全可以用来当作人工标注的结果了，毕竟是大厂出品嘛。

[原创] 使用 fastText 做中文文本分类(2)

2020 年 07 月 29 日2020 年 07 月 29 日作者 learnhard

查看本系列文章合集，请看这里。

做好文本预处理，才能输入fastText训练一个效果好的模型出来。

✓ 原文示例
有时我们拿到的源数据是很粗糙的，带有很多会影响模型效果的内容，例如下面这样：

罗望子，是豆科酸豆属唯一的种，是热带乔木，原产于东部非洲，包括马达加斯加落叶森林，但已被引入热带亚洲、拉丁美洲和加勒比海。柽柳是中国海南省三亚的一种城市树木。罗望子最适合生长在温度高、日照长、气候干燥、干湿季节分明的地区。<img src="http://p0.qhimg.com/t014b83dc78c7cc5000.jpg?size=741x320"/> 罗望子富含糖、乙酸、酒石酸、甲酸、柠檬酸等成分，主要用于调味品、饮料、果酱等食品领域。吃一点罗望子有很多好处。当我们吃罗望子时，罗望子中含有的多糖是一种非常好的抗光物质。当我们吃这种物质时，它可以防止紫外线辐射伤害皮肤。通常吃一点罗望子，饭前吃一点罗望子可以增进食欲，改善我们的饮食质量。在炎热的夏日，吃一点罗望子可以生津止渴，清热解毒，降低中暑的风险。<img src="http://p1.qhimg.com/t01ecdbbc26c329a78b.jpg?size=533x409"/> 罗望子种子含有丰富的抗氧化物质。多吃罗望子籽可以延缓人体衰老，保持皮肤湿润有光泽。罗望子种子还含有一些清热解毒、消炎的物质，可以帮助我们的人体抵抗一些有害细菌，保护我们的健康。

这里面不仅带有URL、大量的HTML标签，而且还有标点符号等，这些都要清洗掉。

[原创] 使用 fastText 做中文文本分类(1)

2020 年 07 月 29 日2020 年 07 月 29 日作者 learnhard

查看本系列文章合集，请看这里。

✓ 什么是“文本分类”

它是图书馆学，信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。

举例：

文本	类别
瑞幸咖啡今日发布声明称，瑞幸咖啡公司将于6月29日在纳斯达克停牌，并进行退市备案。声明表示，在国内消费市场方面，瑞幸咖啡全国4000多家门店将正常运营，近3万名员工仍将一如既往的为用户提供优质产品和服务。公司衷心感谢广大消费者的支持厚爱，并再次为事件造成的恶劣影响向社会各界诚挚道歉。	财经
明朝中后期西南沿海一个重要的问题就是倭寇的骚扰，这个问题本来是有希望被当时的浙江总督用和平的方法解决掉的，但是中途就出了个王本固这个插曲。	历史

其中，“类别”是事先定义好的。一段文本可以属于多个类别，例如，第2个例子可以同时属于“历史”和“明朝”这两个类别。

[原创] gnuplot调教记

2020 年 04 月 28 日2014 年 10 月 24 日作者 learnhard

gnuplot是命令行绘图的极佳选择之一。用它画出一副简单的图极其容易，但是对画出的图进行微调却很令人抓狂，这主要“得益”于gnuplot超级强大的功能，以及无穷无尽纷繁复杂的说明文档，通常让人没时间去细细研究。
如果你经常有gnuplot的使用需求，那么可以仔细研读一下它的文档，否则，还是像我一样，现学现用吧。
我折腾了一天多时间，把我想要的一副图给画出来了，里面涉及到了很多图像的微调过程，有些解决方案很难搜到，但我运气稍好，终究还是弄出来了，在此，作为一个使用案例来分析一下。因此，本文并不是gnuplot的使用教程，而是用gnuplot绘图时，对某些奇怪问题的解决办法的分享。

本文基于gnuplot版本：4.4，系统：RHEL 5.3