综合 – 编码无悔 / Intent & Focused

[原创] JAVA map-reduce job的counter页面无法显示的问题(error 500)

2024 年 04 月 30 日作者 learnhard

这个问题已经不是第一次遇到了，只不过今天痛下决心花费不少时间把它写成文章，给遇到同样问题的朋友一些参考。
我们知道，一个JAVA M-R job跑完后，无论是在命令行，还是在job的信息展示网页上，都会看到输出job counter的信息。在网页上，通过点击job信息页中的"counter"链接就能看到。

[原创] 解决IntelliJ idea启动崩溃：error occurred during error reporting (), id 0x6, SIGABRT (0x6) at pc=...

2024 年 03 月 15 日2024 年 03 月 15 日作者 learnhard

有时候，一个用了好久、一直好用的方法突然失灵，并且还折腾了几天，真的会逼疯人。
前几天我就遇到了这种破事：在Ubuntu开发机上自己升级IntelliJ idea到最新版之后，就无法再启动它。
启动时永远会崩溃，无论是重启系统、删除IntelliJ idea的本地缓存，或者使用回旧版，都无法再启动它（仿佛什么文件被"污染"了，再也回不去了），十分烦人。经过几天各种方法的尝试，终于解决了问题，我的解决办法不具有普适性，但如果你遇到了此类问题，或许可以为你提供一些解决思路。

[原创] 和付费使用一年多的GitHub Copilot说再见

2024 年 03 月 02 日作者 learnhard

昨天，我的GitHub Copilot订阅到期了。付费使用了一年多，现在也决定不再续费，颇有些感受。

从付费之前的热切期盼，到使用过程中的逐渐习惯，再到付费结束时的"从容分手"，我终究还是向现实投降，选择了穷人的活法。

毕竟一个月10美元的费用，说它值或不值都可以找出充分的理由，只不过于我而言，GitHub Copilot已经不再有$10/月的吸引力罢了。

[原创] 在Apache Pig中把时间字符串转换成时间戳

2023 年 11 月 15 日2023 年 10 月 12 日作者 learnhard

查看更多Apache Pig的教程请点击这里。

在Apache Pig中，怎样把 2023-10-11_10:57:56 这种格式的时间字符串，转成整型的时间戳？
话不多说，直接上代码。
假设输入数据文件 1.txt，其格式是一行一个时间字符串。

[原创] JAVA map-reduce job中，reduce()方法漏写 @Override 注解引起的问题

2023 年 08 月 06 日作者 learnhard

有一个JAVA写的map-reduce job，mapper输出的key、value类型分别为Text、NullWritable，所以reducer应该像下面这样写：

static class QuerySegmentResultFromKVReducer extends Reducer<Text, NullWritable, NullWritable, NullWritable> {

  @Override
  protected void setup(Reducer.Context context) throws IOException, InterruptedException {
  }

  @Override
  protected void cleanup(Reducer.Context context) throws IOException, InterruptedException {
  }

  @Override
  protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
    //TODO:
  }
}

在这里，reducer输出的key、value类型都是NullWritable，我们不用关心，这不是本文的关注点。

[原创] 解决Map-Reduce job OOM(Java Heap Space)错误的一个方法：调整内存参数

2023 年 06 月 20 日2023 年 06 月 19 日作者 learnhard

无论是JAVA M-R job还是Pig M-R job发生Java Heap Space错误，一般情况下，我们要通过定位输入数据里的异常情况再想办法解决，例如，你在程序中对某个key做了GROUP操作，但输入数据中可能该key有大量记录，这就有可能导致job OOM。
这个问题取决于数据的具体情况，以及程序实现逻辑，所以这里就不提了。
本文要说的是：有时候程序实现/输入数据的问题“不是特别严重”，我们可以通过调整M-R job的内存参数来解决。

如何查看指定的Hadoop(HDFS)目录的配额

2023 年 09 月 03 日2023 年 05 月 11 日作者 learnhard

Hadoop目录的配额是指为了限制一个HDFS文件夹中所包含的数据块和名称空间元素（如子文件夹和文件）的数量而设置的最大值。简单来说，就是对一个文件夹中可存储数据的上限进行管理和控制，以便于维护整个系统的健康和性能。

通过设置适当的配额，管理员可以确保每个目录不会超出其可承受的容量范围，防止集群资源被长时间占用或滥用。同时也可以通过监视使用情况来优化系统性能并减少故障风险。

[原创] 用JAVA读取本地的TFRecord文件

2023 年 04 月 25 日作者 learnhard

TFRecord是一种用于TensorFlow的二进制数据格式，它可以更高效地存储和读取大规模数据集。TFRecord文件包含了一系列记录（record），每个记录可以是一个张量（tensor）或者一个序列（sequence）。

与文本文件不同，TFRecord文件被编码成二进制格式，这使得它们更易于在网络上传输和存储。同时，TFRecord也允许我们将大型数据集分割成多个部分，并且可以有效地并行读取和处理这些部分。

在TensorFlow中，我们通常使用TFRecord文件来存储和加载模型的训练数据、验证数据、测试数据等。创建TFRecord文件需要经过一定的序列化操作，但这些操作很容易实现，因为TensorFlow提供了相应的API支持。

[原创] 用JAVA程序读取本地的Hadoop sequence file

2023 年 04 月 20 日作者 learnhard

Hadoop SequenceFile是Hadoop用于存储二进制键值对的文件格式。它支持存储不同的键值对类型,如:IntWritable/Text, NullWritable/BytesWritable等。

假设我的sequence file的key是BooleanWritable类型，value是Text类型，怎么读取它呢？

[原创] 为Azkaban job添加重试配置

2023 年 03 月 31 日2023 年 03 月 30 日作者 learnhard

Azkaban是一款开源的workflow调度系统，它可以帮助用户完成任务的流程化自动化调度。Azkaban提供了一个易于使用的Web用户界面来创建、监视和执行工作流，并支持高级功能，如参数化配置、模块重用等。此外，Azkaban还提供了可扩展的插件接口，使其能够与其他系统进行集成。

[原创] JAVA sun HttpServer在handler中返回含中文的response应该怎么处理

2023 年 03 月 23 日作者 learnhard

在JAVA中，使用sun HttpServer实现一个web server的时候，使用了下面的hander类来处理请求：

static class MyHandler implements HttpHandler {
  @Override
  public void handle(HttpExchange httpExchange) throws IOException {
    String response = "test";  // 返回固定内容
    httpExchange.sendResponseHeaders(200, response.length());
    OutputStream os = httpExchange.getResponseBody();
    os.write(response.getBytes());
    os.close();
  }
}