原创 – 编码无悔 / Intent & Focused

[原创] 如何判断已经启动的TF-Serving服务是否正在使用

2024 年 09 月 16 日2024 年 09 月 16 日作者 learnhard

在一台服务器上，如果启动了一个TF-Serving服务，我们知道它占了资源，却不知道它是在空跑还是真的在用。
本文描述了怎样判断它是否真的在用。

[原创] JAVA map-reduce job的counter页面无法显示的问题(error 500)

2024 年 04 月 30 日作者 learnhard

这个问题已经不是第一次遇到了，只不过今天痛下决心花费不少时间把它写成文章，给遇到同样问题的朋友一些参考。
我们知道，一个JAVA M-R job跑完后，无论是在命令行，还是在job的信息展示网页上，都会看到输出job counter的信息。在网页上，通过点击job信息页中的"counter"链接就能看到。

[原创] 解决IntelliJ idea启动崩溃：error occurred during error reporting (), id 0x6, SIGABRT (0x6) at pc=...

2024 年 03 月 15 日2024 年 03 月 15 日作者 learnhard

有时候，一个用了好久、一直好用的方法突然失灵，并且还折腾了几天，真的会逼疯人。
前几天我就遇到了这种破事：在Ubuntu开发机上自己升级IntelliJ idea到最新版之后，就无法再启动它。
启动时永远会崩溃，无论是重启系统、删除IntelliJ idea的本地缓存，或者使用回旧版，都无法再启动它（仿佛什么文件被"污染"了，再也回不去了），十分烦人。经过几天各种方法的尝试，终于解决了问题，我的解决办法不具有普适性，但如果你遇到了此类问题，或许可以为你提供一些解决思路。

[原创] 和付费使用一年多的GitHub Copilot说再见

2024 年 03 月 02 日作者 learnhard

昨天，我的GitHub Copilot订阅到期了。付费使用了一年多，现在也决定不再续费，颇有些感受。

从付费之前的热切期盼，到使用过程中的逐渐习惯，再到付费结束时的"从容分手"，我终究还是向现实投降，选择了穷人的活法。

毕竟一个月10美元的费用，说它值或不值都可以找出充分的理由，只不过于我而言，GitHub Copilot已经不再有$10/月的吸引力罢了。

[原创] 在Apache Pig中把时间字符串转换成时间戳

2023 年 11 月 15 日2023 年 10 月 12 日作者 learnhard

查看更多Apache Pig的教程请点击这里。

在Apache Pig中，怎样把 2023-10-11_10:57:56 这种格式的时间字符串，转成整型的时间戳？
话不多说，直接上代码。
假设输入数据文件 1.txt，其格式是一行一个时间字符串。

[原创] JAVA map-reduce job中，reduce()方法漏写 @Override 注解引起的问题

2023 年 08 月 06 日作者 learnhard

有一个JAVA写的map-reduce job，mapper输出的key、value类型分别为Text、NullWritable，所以reducer应该像下面这样写：

static class QuerySegmentResultFromKVReducer extends Reducer<Text, NullWritable, NullWritable, NullWritable> {

  @Override
  protected void setup(Reducer.Context context) throws IOException, InterruptedException {
  }

  @Override
  protected void cleanup(Reducer.Context context) throws IOException, InterruptedException {
  }

  @Override
  protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
    //TODO:
  }
}

在这里，reducer输出的key、value类型都是NullWritable，我们不用关心，这不是本文的关注点。

[原创] 解决Map-Reduce job OOM(Java Heap Space)错误的一个方法：调整内存参数

2023 年 06 月 20 日2023 年 06 月 19 日作者 learnhard

无论是JAVA M-R job还是Pig M-R job发生Java Heap Space错误，一般情况下，我们要通过定位输入数据里的异常情况再想办法解决，例如，你在程序中对某个key做了GROUP操作，但输入数据中可能该key有大量记录，这就有可能导致job OOM。
这个问题取决于数据的具体情况，以及程序实现逻辑，所以这里就不提了。
本文要说的是：有时候程序实现/输入数据的问题“不是特别严重”，我们可以通过调整M-R job的内存参数来解决。

[原创] 怎样确认当前正在运行的TensorFlow model-serving服务加载的是哪个.pb模型

2023 年 05 月 24 日作者 learnhard

跑起来一个TensorFlow model-serving服务后，有时候记不清它加载的是哪个.pb模型了，可以采用下面的办法来确认。

[原创] 如何下载HLS流视频文件

2023 年 05 月 03 日作者 learnhard

在互联网上，有些视频以HLS流的形式呈现，当你用一些工具捕获到它的播放地址时，会发现是一个以 .m3u8 结尾的URL。
那么，什么是 HLS 和 m3u8 呢？

HLS（HTTP Live Streaming）是一种基于HTTP协议的流媒体传输协议，而M3U8则是一种基于文本的播放列表文件格式。在HLS中，媒体数据被划分成多个小文件进行传输，并使用M3U8文件作为索引来指向这些媒体数据文件。M3U8文件包含了所有的媒体数据文件的URL地址及其相关信息，如码率、分辨率、编码格式等。因此，当一个客户端请求播放一个HLS流时，它将下载对应的M3U8索引文件，并且根据其中包含的地址去下载其他的媒体数据文件。简单来说，HLS和M3U8是两个不同但紧密相连的概念，其中M3U8作为HLS协议中索引与定位资源的重要组成部分。

问题来了：如何下载HLS流视频文件呢？

[原创] 用JAVA读取本地的TFRecord文件

2023 年 04 月 25 日作者 learnhard

TFRecord是一种用于TensorFlow的二进制数据格式，它可以更高效地存储和读取大规模数据集。TFRecord文件包含了一系列记录（record），每个记录可以是一个张量（tensor）或者一个序列（sequence）。

与文本文件不同，TFRecord文件被编码成二进制格式，这使得它们更易于在网络上传输和存储。同时，TFRecord也允许我们将大型数据集分割成多个部分，并且可以有效地并行读取和处理这些部分。

在TensorFlow中，我们通常使用TFRecord文件来存储和加载模型的训练数据、验证数据、测试数据等。创建TFRecord文件需要经过一定的序列化操作，但这些操作很容易实现，因为TensorFlow提供了相应的API支持。

[原创] 设置Emacs打开一个文件时的"文件太大"警告阈值

2023 年 04 月 24 日作者 learnhard

每次用emacs打开一个比较大的文件时，它都提示：

File xxx is large (XXXMB), really open? (y or n)

此时必须要按 y 才能继续打开此文件。

有没有办法调整这个文件大小的阈值，从而让它不那么烦人？

[原创] 用JAVA程序读取本地的Hadoop sequence file

2023 年 04 月 20 日作者 learnhard

Hadoop SequenceFile是Hadoop用于存储二进制键值对的文件格式。它支持存储不同的键值对类型,如:IntWritable/Text, NullWritable/BytesWritable等。

假设我的sequence file的key是BooleanWritable类型，value是Text类型，怎么读取它呢？

[原创] 为Azkaban job添加重试配置

2023 年 03 月 31 日2023 年 03 月 30 日作者 learnhard

Azkaban是一款开源的workflow调度系统，它可以帮助用户完成任务的流程化自动化调度。Azkaban提供了一个易于使用的Web用户界面来创建、监视和执行工作流，并支持高级功能，如参数化配置、模块重用等。此外，Azkaban还提供了可扩展的插件接口，使其能够与其他系统进行集成。

[原创] JAVA sun HttpServer在handler中返回含中文的response应该怎么处理

2023 年 03 月 23 日作者 learnhard

在JAVA中，使用sun HttpServer实现一个web server的时候，使用了下面的hander类来处理请求：

static class MyHandler implements HttpHandler {
  @Override
  public void handle(HttpExchange httpExchange) throws IOException {
    String response = "test";  // 返回固定内容
    httpExchange.sendResponseHeaders(200, response.length());
    OutputStream os = httpExchange.getResponseBody();
    os.write(response.getBytes());
    os.close();
  }
}