LoopyTech

一种回归决策树的快速遍历划分算法

备忘录的思想快速寻找最优划分

问题的提出 众所周知,建立CART树有一个关键步骤:遍历数据空间中的所有划分界限,寻找最优切分特征$\alpha$与阈值$c$,以最小化分出的两个集合的方差,也就是下面这个式子: 其中, $\bar{y_1},\bar{y_2}$分别是$x_i[\alpha]<c,x_i[\alpha]>c$样本点的y均值. 问题在于,经典的CART树要遍历所有划分界限,上面的...

一种32位内存限制下的基于整数指令的小数进制转换算法

基于mips实现,使用python进行测试

问题的提出 我的计算机组成原理课程设计需要完全使用非浮点数指令来完成一个IEEE754标准的小数存储和计算,其中关于二进制转十进制小数的部分比较困难,查询资料也无果,于是我提出了这个算法,它的特点在于: 不使用浮点指令 算法中的所有变量都只能存储于32位的寄存器中 每读取一位小数,就将这位小数的信息表达到结果中,避免内存消耗 算法思路 这个算法基于上面特点中的第三条...

Build a MIPS-simulator

Based on python

Build a MIPS-simulator Introduction MIPS-Simulator runs MIPS32 programs. Unlike real simulator, which assembles the instructions into machine code and executes them, MIPS-Simulator just parse ...

假设空间与版本空间

基于python的自动生成

完整源码见:CQU-AI/Watermelon-book-puzzles 假设空间-样本空间-版本空间自动生成器 生成器的结构 class DatasetSpace: """ Automatically generate the sample_space, hypothesis_space and version_space for a data set ...

周志华教授的研究兴趣画像

使用Jupyter notebook

本文从周志华教授的简历网站出发,收集周教授的研究兴趣相关数据,并进行分析画像。 本文档为文字版本,若需查看带源码的notebook,请前往此处 A. 概览 简历网站首页: I have wide research interests, mainly including artificial intelligence, machine learning, data minin...

制作一个文件下载器

python-flask文件中转站:用于下载"不可下载"的文件

食用地址:191.96.25.161:8080 由于某些原因,我关闭了自己的ssr(就是胆子小),但某些下载需求仍是存在的,比如一些没有国内镜像的软件包,研究用数据集等等.今天就是为了解决这个下载问题: 大致思路 原始人的下载方法无非就是手动ssh连上以后,wget到服务器上,再用FileZila之类的工具走sftp协议传回本机.但这有点麻烦,而且帮别人下载也不方便,所以干脆做...

成为Sklearn中文文档项目的贡献者!

apachecn/scikit-learn-doc-zh

这是一个为开源做贡献的好机会:参与Sklearn中文文档的翻译与维护。 首先,为了证明这个Sklearn中文文档是流行的,请使用你的搜索引擎搜索“Sklearn 文档”,看看你是不是也找到的是这个页面。这个页面实际上托管在Github的apachecn/scikit-learn-doc-zh仓库里,它急需维护与更新。 参与维护与更新将是一个可以写进简历的机器学习入门级项目经历,使...

Mathematics of a Model Predicting Happiness

Fisher假设检验方法用于多分类问题评分的思考

也可参见本文的jupyter发布版本,Github仓库,或可在线运行的平台:online-playground,天池实验室 Fisher假设检验方法用于多分类问题评分的思考 一. 问题的发现 在阿里天池的幸福感预测比赛(实质上是个多分类预测问题)中,使用到了均方误差(MSE)评分的办法。我发现MSE虽然能表征预测结果的有效性,但实际上存在一个漏洞。 考虑一个测试集,将其...

工业蒸汽量回归预测

阿里天池比赛持续记录

工业蒸汽量回归预测 我就不把notebook转码成md发到日志里了,代码见GitHub仓库或天池实验室(天池实验室中的版本可能比较新) 当前个人最高线上成绩是MSE=0.1253,排名在199/3011,7%左右. 05-23 最近沉迷于刷天池,再加上要期末了,很长时间都没有更新日志了。直到今天收到了这个短信, 我才想起来是该在日志里记一记天池比赛。幸福度那个比赛稍后我整理一下。今天...

只要数据洗得好,随机森林都能跑

阿里天池新手赛:多分类预测幸福

数据探索 今天,我主要完成了EDA(探索式数据分析)和可视化 (顺路把数据洗一洗) 然后想试一下数据好点没有,就用随机森林跑了一下,MSE = 0.489 暂时(201905102000)rank=56 果然只要数据洗得好,随机森林都能跑 等我有空了换个模型来跑一下 完整的notebook我已经在阿里天池讨论区上公开了:https://tianchi.aliyun.com/note...