[原创]Machine Learning/机器学习 文章合集

注:带有 ♬♬♬♬♬ 标志的是文章合集。

强化学习(Reinforcement Learning)文章合集 ♬♬♬♬♬

用人话解释机器学习中的Logistic Regression(逻辑回归)

如何防止softmax函数上溢出(overflow)和下溢出(underflow)

ELL(Embedded Learning Library,微软嵌入式学习库)文章合集 ♬♬♬♬♬

阅读更多

[原创]最优化/Optimization文章合集

最优化(Optimization)是应用数学的一个分支,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称。我一直对最优化比较感兴趣,所以写过一些相关的笔记,可能有不正确的地方,但请学术派、技术流们多多包涵。

➤ 拟牛顿法/Quasi-Newton,DFP算法/Davidon-Fletcher-Powell,及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

➤ 最速下降法/steepest descent,牛顿法/newton,共轭方向法/conjugate direction,共轭梯度法/conjugate gradient 及其他

➤ Ridders求导算法

➤ 选主元的高斯-约当(Gauss-Jordan)消元法解线性方程组/求逆矩阵
文章来源:http://www.codelast.com/
➤ 关于 最优化/Optimization 的一些概念解释

➤ 最小二乘的理论依据

➤ Powell共轭方向集方法(Powell's Conjugate Direction Method)的实现

阅读更多

[原创]Raspberry Pi/树莓派 文章合集

注:带有 ♬♬♬♬♬ 标志的是文章合集。

Raspberry Pi是什么?
引用维基百科的一句话:

The Raspberry Pi is a credit card sized single-board computer developed in the UK by the Raspberry Pi Foundation with the intention of stimulating the teaching of basic computer science in schools.

简单地说,它就是一个基于ARM CPU的、信用卡那么大的迷你计算机。
下面是我在折腾Pi的过程中的一些记录,仅供参考。

➤ 树莓派视频教程

➤ Raspberry Pi(树莓派)配置记录/Configure the Arch Linux ARM on Raspberry Pi

➤ 在Raspberry Pi(树莓派)上用OpenCV来操纵摄像头拍照/Use OpenCV on Raspberry Pi to Controll a Webcam to Take Photos

➤ 通过Raspberry Pi(树莓派)的GPIO接口控制发光二极管/Control LED through the GPIO on Raspberry Pi

➤ 通过Raspberry Pi(树莓派)的GPIO接口控制步进电机/Control stepper motor through the GPIO on Raspberry Pi

阅读更多

[原创]Apache Pig中文教程合集

Apache Pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。

我根据自己在工作中的学习和总结,写了如下一些Apache Pig中文教程,供大家参考。
文章来源:http://www.codelast.com/
➤  Apache Pig的一些基础概念及用法总结(1)

➤  Apache Pig的一些基础概念及用法总结(2)

➤  Apache Pig中文教程(进阶)

阅读更多

[原创] JAVA map-reduce job中,reduce()方法漏写 @Override 注解引起的问题

有一个JAVA写的map-reduce job,mapper输出的key、value类型分别为Text、NullWritable,所以reducer应该像下面这样写:

static class QuerySegmentResultFromKVReducer extends Reducer<TextNullWritableNullWritableNullWritable{

  @Override
  protected void setup(Reducer.Context context) throws IOException, InterruptedException {
  }

  @Override
  protected void cleanup(Reducer.Context context) throws IOException, InterruptedException {
  }

  @Override
  protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
    //TODO:
  }
}

在这里,reducer输出的key、value类型都是NullWritable,我们不用关心,这不是本文的关注点。

阅读更多

[原创] 解决Map-Reduce job OOM(Java Heap Space)错误的一个方法:调整内存参数

无论是JAVA M-R job还是Pig M-R job发生Java Heap Space错误,一般情况下,我们要通过定位输入数据里的异常情况再想办法解决,例如,你在程序中对某个key做了GROUP操作,但输入数据中可能该key有大量记录,这就有可能导致job OOM。
这个问题取决于数据的具体情况,以及程序实现逻辑,所以这里就不提了。
本文要说的是:有时候程序实现/输入数据的问题“不是特别严重”,我们可以通过调整M-R job的内存参数来解决。

阅读更多

如何查看指定的Hadoop(HDFS)目录的配额

Hadoop目录的配额是指为了限制一个HDFS文件夹中所包含的数据块和名称空间元素(如子文件夹和文件)的数量而设置的最大值。简单来说,就是对一个文件夹中可存储数据的上限进行管理和控制,以便于维护整个系统的健康和性能。

通过设置适当的配额,管理员可以确保每个目录不会超出其可承受的容量范围,防止集群资源被长时间占用或滥用。同时也可以通过监视使用情况来优化系统性能并减少故障风险。

阅读更多

[原创] 如何下载HLS流视频文件

在互联网上,有些视频以HLS流的形式呈现,当你用一些工具捕获到它的播放地址时,会发现是一个以 .m3u8 结尾的URL。
那么,什么是 HLS 和 m3u8 呢?

HLS(HTTP Live Streaming)是一种基于HTTP协议的流媒体传输协议,而M3U8则是一种基于文本的播放列表文件格式。在HLS中,媒体数据被划分成多个小文件进行传输,并使用M3U8文件作为索引来指向这些媒体数据文件。M3U8文件包含了所有的媒体数据文件的URL地址及其相关信息,如码率、分辨率、编码格式等。因此,当一个客户端请求播放一个HLS流时,它将下载对应的M3U8索引文件,并且根据其中包含的地址去下载其他的媒体数据文件。简单来说,HLS和M3U8是两个不同但紧密相连的概念,其中M3U8作为HLS协议中索引与定位资源的重要组成部分。

问题来了:如何下载HLS流视频文件呢?

阅读更多

[原创] 用JAVA读取本地的TFRecord文件

TFRecord是一种用于TensorFlow的二进制数据格式,它可以更高效地存储和读取大规模数据集。TFRecord文件包含了一系列记录(record),每个记录可以是一个张量(tensor)或者一个序列(sequence)。
与文本文件不同,TFRecord文件被编码成二进制格式,这使得它们更易于在网络上传输和存储。同时,TFRecord也允许我们将大型数据集分割成多个部分,并且可以有效地并行读取和处理这些部分。
在TensorFlow中,我们通常使用TFRecord文件来存储和加载模型的训练数据、验证数据、测试数据等。创建TFRecord文件需要经过一定的序列化操作,但这些操作很容易实现,因为TensorFlow提供了相应的API支持。

阅读更多

[原创] 为Azkaban job添加重试配置

Azkaban是一款开源的workflow调度系统,它可以帮助用户完成任务的流程化自动化调度。Azkaban提供了一个易于使用的Web用户界面来创建、监视和执行工作流,并支持高级功能,如参数化配置、模块重用等。此外,Azkaban还提供了可扩展的插件接口,使其能够与其他系统进行集成。

阅读更多

[AI] 怎样开发一个最简单的 iOS App

要开发一个最简单的iOS应用程序,您需要了解一些基本的编程知识和工具。这是一些步骤:

1. 下载并安装Xcode:这是苹果公司提供的集成开发环境(IDE),可用于创建iOS应用程序。您可以从Mac App Store免费下载Xcode。 

2. 学习Swift或Objective-C:这些是iOS应用程序开发中最常用的编程语言。每种语言都有其特定的语法和规则,需要花费一些时间来学习。 

阅读更多

[原创] JAVA sun HttpServer在handler中返回含中文的response应该怎么处理

在JAVA中,使用sun HttpServer实现一个web server的时候,使用了下面的hander类来处理请求:
static class MyHandler implements HttpHandler {
  @Override
  public void handle(HttpExchange httpExchange) throws IOException {
    String response = "test";  // 返回固定内容
    httpExchange.sendResponseHeaders(200, response.length());
    OutputStream os = httpExchange.getResponseBody();
    os.write(response.getBytes());
    os.close();
  }
}

[原创] "秘塔写作猫",想说爱你不容易

秘塔写作猫”是一款基于 AI 的中文、英文纠错工具,它可以帮助“不会写文章”的你从0开始撰写文章大纲甚至全文。它是最近比较流行的一款AIGC产品。

随着AI技术不断迭代,作为除UGC、PGC以外的一种新型生产方式,AIGC(AI generated content,人工智能创造内容)已从概念走向更多落地,它的字面意思就是AI生产内容。AI写诗、AI作曲、AI绘画、AI换脸等等。

比如说,老板让你在很短的时间内迅速给出一份营销方案,你可能绞尽脑汁也凑不出那么多字,这个时候就可以用“秘塔写作猫”来完成这个任务。

阅读更多

[原创] ChatGPT的出现,让我第一次觉得机器有希望替代Cambly


Cambly
是一个和真人老外(native English speakers)视频聊天练习英语口语的平台。
ChatGPT是由OpenAI于2022年11月推出的一个人工智能聊天机器人程序,该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。
这俩货有什么关系?听我慢慢道来。

阅读更多