使用python绘制cdf的多种实现方法

脚本专栏 2024/11/16 佚名

3 1 2

首先我们先用随机函数编造一个包含1000个数值的一维numpy数组，如下：

// An highlighted block
rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)

接下来我们将使用各种方法画出以上数据的累积分布图

1、matplotlib.pyplot.hist()

  def hist(self, x, bins=None, range=None, density=None, weights=None,
       cumulative=False, bottom=None, histtype='bar', align='mid',
       orientation='vertical', rwidth=None, log=False,
       color=None, label=None, stacked=False, normed=None,
       **kwargs):

第一种方法，我们使用matplotlib图形库中的hist函数，熟悉该库的人应该知道这是一个直方图绘制函数，以上是从API中找到的hist函数的所有参数，我们给出一维数组或者列表x，使用hist画出该数据的直方图。

直方图有两种形式，分别是概率分布直方图和累积分布直方图（可能说的不准确- -！），可以通过参数cucumulative来调节，默认为False，画出的是PDF，那么True画出的便是CDF直方图。

PDF（figure1）可以观察到整个数据在横轴范围内的分布，CDF（figure2）则可以看出不同的数据分布间的差异性，也可以观察到整个数据的增长趋势和波动情况。

上图是概率分布直方图，纵轴代表概率，如果置参数normed=False，纵轴代表频数

如果我们要观察两种数据分布的差异，可能使用直方图就不是很直观，各种直方柱会相互重叠，我们只需更改直方图的图像类型，令histtype=‘step'，就会画出一条曲线来（Figure3，实际上就是将直方柱并在一起，除边界外颜色透明），类似于累积分布曲线。这时，我们就能很好地观察到不同数据分布曲线间的差异。

2、numpy.histogram

def histogram(a, bins=10, range=None, normed=False, weights=None,
     density=None)

第二种方法我们使用numpy中画直方图的函数histogram，该函数不是一个直接的绘图函数（废话- -！过渡句，哈哈），给定一组数据a，它会返回两个数组hist和bin_edges，默认情况下hist是数据在各个区间上的频率，bin_edges是划分的各个区间的边界，说到这我们大概可以想到其实该函数算是上一个函数的底层函数，我们可以依据得到的这两个数组来画直方图，我们也可以用频率数组来直接画分布曲线（Figure4）

这里我只给出了一个最原始的图像，直接用hist数组画的，如果想要变成合格的累积分布曲线图，纵轴为概率（频率乘区间长度），横轴为区间（从bin_edges数组中取n-1个）就可以了

3、stats.relfreq

def relfreq(a, numbins=10, defaultreallimits=None, weights=None)
Returns
-------
frequency : ndarray
  Binned values of relative frequency.
lowerlimit : float
  Lower real limit
binsize : float
  Width of each bin.
extrapoints : int
  Extra points.

第三种方法我们使用stats中的relfreq函数，该函数和第二种的方法类似，也并非是直接画图，而是返回关于直方图的一些数据，这里的frequency直接是概率而非频率，可以直接作为CDF图的纵轴，但是横轴需要自己计算，计算公式：

res.lowerlimit + np.linspace(0,res.binsize*res.frequency.size, res.frequency.size)

这个公式应该很好理解，我就不多说了，当然这些返回值都要依赖我们所给出的bins的数目。下面我给出一段代码，便是使用stats.relfreq画出概率分布直方图和累积分布曲线图。

rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)
res = stats.relfreq(samples, numbins=25)
x = res.lowerlimit + np.linspace(0, res.binsize*res.frequency.size,res.frequency.size)
fig = plt.figure(figsize=(5, 4))
ax = fig.add_subplot(1, 1, 1)
ax.bar(x, res.frequency, width=res.binsize)
ax.set_title('Relative frequency histogram')
ax.set_xlim([x.min(), x.max()])
plt.show()

rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)
res = stats.relfreq(samples, numbins=25)
x = res.lowerlimit + np.linspace(0, res.binsize*res.frequency.size,res.frequency.size)
y=np.cumsum(res.frequency)
plt.plot(x,y)
plt.title('Figure6 累积分布直方图')
plt.show()

以上就是本人整理出来的关于画cdf直方图和曲线的三种方法，整理这方面东西的初忠是在发现在进行数据分析的时候，概率分布直方图只能观察到数据大概的分布情况，而在不同的数据样本进行比较时却很难直观滴反映其差异性，通过看论文发现cdf可以做到这一点。

本人并不是数学专业出身，想要表达其意义，但有些描述和用词不当，大家借鉴就好。希望大家多多支持！

python,绘制cdf

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“使用python绘制cdf的多种实现方法”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

李蕙敏.2014-记得·销魂新歌+精丫乐意唱片】

2024/11/16

谢金燕.1995-含泪跳恰蔷冠登】【WAV+CUE】

2024/11/16

于文文.2024-天蝎座【华纳】【FLAC分轨】

2024/11/16

黄雨勳《魔法列车首部曲》[FLAC/分轨][173.

2024/11/16

群星《歌手2024 第13期》[320K/MP3][50.09M

2024/11/16

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/16

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

使用python绘制cdf的多种实现方法

Python Websocket服务端通信的使用示例

Python GUI库PyQt5样式QSS子控件介绍

评论“使用python绘制cdf的多种实现方法”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

使用python绘制cdf的多种实现方法

Python Websocket服务端通信的使用示例

Python GUI库PyQt5样式QSS子控件介绍

评论“使用python绘制cdf的多种实现方法”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存