学习原理

文档说明

文档整体结构采用摘要+主题的形式编写。由于要阐述一个问题以及其解决方式会有很深的问题,一层套一层,导致文章结构不好组织,结构树太深。因此将抽象描述和具体内容描述进行剥离。

文档第一部分进行抽象的整体描述,说明问题是什么,解决思路是什么,解决过程中会碰到什么新的问题,又是如何解决的。问题的抽象是如何的,问题的推广是如何的等等这一系列内容,并且整体以良好的组织结构描述。

文档第二部分按照主题进行具体阐述,主题的规模根据具体主题内容进行调整。

Read More

Python 机器学习类库 Scikit-Learn Tutorial

摘要

Scikit-Learn 是机器学习领域中非常著名的一个类库,其中封装了很多机器学习中需要使用到的算法工具。Scikit-Learn 构建在 NumPy 和 SciPy 等常见的数据科学类库之上。其核心算法使用更底层的语言实现,通过 Python 进行调用。

Read More

交互式数据可视化 Plotly Tutorial

摘要

Plotly 类库提供了一个可交互的,出版级别的在线图形库。Plotly 绘制的图形是以 HTML 页面的形式提供的,基于 JavaScript 提供交互功能。

下面提供了一些图形的示例,包括折线图、散点图、区域图、柱状图、箱线图、直方图等。

Read More

基于Kaggle的泰坦尼克生存预测介绍一种数据分析框架

摘要

本文通过一个 Kaggle 的入门级项目泰坦尼克生存预测,介绍一个一般性的数据科学项目工程框架。该框架涵盖一般数据科学问题解决方案的几个主要过程。包括定义问题、收集数据、准备数据、探索性分析、处理模型、验证和优化。

Read More

基于 Scrapyd 部署、管理 Scrapy 爬虫

摘要

Scrapy 是 Python 下一款非常好的爬虫框架,使用帮助快速实现爬虫。当爬虫数量较少时可以直接通过命令行的方式进行管理。但随着爬虫数量越来越多,版本不断更新,这时候就需要一些工具帮助我们进行爬虫管理了。而 Scrapyd 就是这样一个工具,其提供了一些基于 HTTP 的接口,帮助我们管理爬虫项目以及查看任务情况。

Read More