这一系列随笔,是一个并没有足够数学基础的人写的——这注定会导致很多不足。但笔者也以为,能以这样的身份去读书,也是一个充满挑战和新奇的角度,说不定有一番别样的收获。



“……每个数字对应一个 28 × 28 像素的图像,因此可以表示为一个由784个实数组成的向量 x 。目标是建立一个机器,能够以这样的向量 x 作为输入,以数字0到9为输出。”

  我虽然见过许多这种表述,但目前依然不能很好的适应。习惯上,我们都把x当成一个数值,一个标量(这个称呼尚且陌生)——即使学习了向量和矩阵的知识,知道它们都可以用字母表示(矩阵是大写字母)。在学习机器学习的过程中,这种对字母表示向量的直觉是理应尽早树立的——如何才能有这种直觉?我所能想到的只有多练习,在草稿纸上随便写写画画,比如……

向量.png



“运行机器学习算法的结果可以被表示为一个函数 y(x) ,它以一个新的数字的图像 x 为输入,产生向量 y ,与目标向量的形式相同。函数 y(x) 的精确形式在训练( training )阶段被确定,这个阶段也被称为学习( learning )阶段,以训练数据为基础。”

  引文中的“函数”,也是一个全新的概念。以往接触的函数,都是以数为自变量——而这里所说的函数,是以向量为自变量,所以严格地说这甚至不该叫“函数”(但是能怎样呢?只能暂且这么称呼了)。并且“以向量为自变量”不同于“多元函数”,这里的函数依然只有一个自变量,即使它们看起来完全等价——不过如果某个函数更进一步,把矩阵当做自变量,就无法与多元函数对应了。并且这里的“函数”是一个抽象概念,它不仅仅是不能画出图像,它甚至没有图像,因为这里的函数“还没有确定”,用函数这一词汇,仅仅是表示输入和输出直接存在唯一对应关系,然后为这个关系赋予一个名称,看起来就像传统的反比例函数或三角函数一样——然而它仅仅表示一种对应关系【存在】。


对于大部分实际应用,原始输入向量通常被预处理( pre-processed ),变换到新的变量空间。人们期望在新的变量空间中模式识别问题可以更容易地被解决。例如,在数字识别的问题中,数字的图像通常被转化缩放,使得每个数字能够被包含到一个固定大小的盒子中。

  如果是说“对图像的预处理”,那么这无疑是形象而易于理解的;但为了有一种统一的说法,总结后的句子难免晦涩,如同著名的“几何学是研究空间在变换群下不变性质的一门学科”(——埃尔朗根纲领,克莱因)。实际理解中,具体的例子几乎是必要的,本书的作者为了解释这一总结,也及早给出了例子。但总结也依然是必要的,如果只有例子,也许只有说话者知道其中所强调的共性(技术交流中这甚至是常见的)。——另外,这里的“变换”也相当反直觉,函数给人的印象一直是“连续的”,“光滑的”,即使这是解析函数才有的性质,我们还是习惯把狄利克雷函数看做另类。当自变量成为了向量,连“输入向量,输出向量的长度”都可以算函数,此时要如何适应这些表述呢?这次我真的没有办法了,也许多见一些例子就好吧,虽然奇怪的函数可以有任意多种,总会遇到诡异的函数——不过假如用到的不多,靠经验弥补直觉还是很有效的。


  先写这么多吧。这些是PRML的第一页内容,的一小部分……


(2018-6-18 于地球)