Table Summary 以表格形式显示了输入数据和其它列,这些列指出了对应于观测值 X 的预测值 Y、Y 值的预测值和观测值之间的差以及预测 Y 值置信区间的下限和上限。
图 3 显示了 Table Summary 之后的三个高级别数据汇总表。
图 3. 显示了 Table Summary 之后的三个高级别数据汇总表
Analysis of Variance 表显示了如何将 Y 值的偏离值归为两个主要的偏离值来源,由模型解释的方差(请看 Model 行)和模型不能解释的方差(请看 Error 行)。较大的 F 值意味着该线性模型捕获了 Y 测量值中的大多数偏离值。这个表在多次回归环境中更有用,在那里每个独立变量都在表中占有一行。
Parameter Estimates 表显示了估算的 Y 轴截距(Intercept)和斜率(Slope)。每行都包括一个 T 值以及观测到极限 T 值的概率(请看 Prob > T 列)。斜率的 Prob > T 可用于否决线性模型。
如果 T 值的概率大于 0.05(或者是类似的小概率),那么您可以否决该无效假设,因为随机观测到极限值的可能性很小。否则您就必须使用该无效假设。
在火灾损失研究中,随机获得大小为 12.57 的 T 值的概率小于 0.00000。这意味着对于与该研究中观测到的 X 值区间相对应的 Y 值而言,线性模型是有用的预测器(比 Y 值的平均值更好)。
最终报告显示了相关性系数或 R 值。可以用它们来评估线性模型与数据的吻合程度。高的 R 值表明吻合良好。
本系列研究了简单线性回归分析的两个应用。在本文中,我研究了“到消防站的距离”和“火灾损失”之间的强线性关系。在第一篇文章中,我研究了“社会集中度”和称为“消耗指数”的测量值之间的线性关系,尽管这种关系相对弱一些,但仍然十分明显。(作为练习,用本文中讨论的数据研究工具重新研究第一个研究案例中较为凌乱的数据可能会很有趣。您可能会注意到 y 轴截距是负数的情况,这意味着“社会集中度”为 0,预测消耗指数为 -29.50。这有意义吗?在对一种现象建模时,您应该问问自己:方程是否应该包含可选的 y 轴截距,如果可以,那么该 y 轴截距在线性方程中会起什么作用。)
参考资料
1.请参考由 James T. McClave 和 Terry Sincich 编著的广受欢迎的大学教科书 Statistics,第 9 版(Prentice-Hall,在线),本文中所使用的算法步骤和“燃耗研究”示例参考了该书。
2.请查阅 PEAR 资源库,它目前包含了少量低级别的 PHP 数学类。最终,应该会很高兴地看到 PEAR 包含实现标准的较高级别的数值方法(比如 SimpleLinearRegression、MultipleRegression、TimeSeries、ANOVA、FactorAnalysis、FourierAnalysis 及其它)的包。
3.查看作者的 SimpleLinearRegression 类的所有源代码。
4.了解一下Numerical Python 项目,它用非常科学的数组语言以及成熟的建立下标方法扩展了 Python。有了该扩展,数学操作就非常接近人们期望从编译语言所获得的功能。
5.研究可用于 Perl 的许多数学参考资料,包括 CPAN 数学模块的索引和 CPAN 中算法部分的模块,以及 Perl 数据语言(Perl Data Language),它旨在为 Perl 提供压缩存储以及快速操作大型 N 维数据数组的能力。
6.有关 John Chambers 的 S 编程语言的更多信息,请查阅关于他的出版物以及他在贝尔实验室的各项研究项目的链接。还可以了解在 1998 年因语言设计而获得的 ACM 奖。
7.R 是用于统计计算和图形的语言和环境,类似于获奖的 S System,R 提供了诸如线性和非线性建模、统计测试、时间序列分析、分类、群集之类的统计和图形技术。请在 R Project 主页上了解 R。
8.如果您刚接触 PHP,那么请阅读 Amol Hatwar 的 developerWorks 系列文章:“用 PHP 开发健壮的代码:”“第 1 部分: 高屋建瓴的介绍 ”(2002 年 8 月)、“第 2 部分: 有效地使用变量”(2002 年 9 月)和“第 3 部分: 编写可重用函数”(2002 年 11 月)。
9.访问 John Pezzullo 的优秀站点,该站点专门提供执行统计计算的网页。基于 PHP 的概率函数是以在 John 的概率函数页面所找到的代码为基础的。
10.到 Digital Library of Mathematical Functions 了解关于 M. Abramowitz 和 I.A. Stegun 编写的书籍 The Handbook of Mathematical Functions(也称为 AMS55)的更多信息。
11.查看 JpGraph 站点,以获取关于 PHP 的主要 OO 图形库的大量信息。
12.阅读美国国家标准与技术研究所(National Institute of Standards,NIST)出版的 The Engineering Handbook of Statistics,该手册上有几章是关于 Exploratory Data Analysis 的,非常不错。
13.如果您对于更详尽地学习关于回归的主题感兴趣的话,请尝试阅读以下有用的参考资料:
L. C. Hamilton(1992年)。Regression with Graphics。加州 Pacific Grove:Brooks/Cole Publishing Company。
J Neter、M.H. Kutner 和 W Wasserman W(1990 年)。Applied Linear Regression Models(第 3 版)。芝加哥 Irwin。
E. J. Pedhazur(1982 年)。Multiple regression in behavioral research。纽约州,纽约市:Holt,Rinehart and Winston。