【研究意义】酸枣(Ziziphus jujuba var.spinosa)为鼠李科(Rhamnaceae)枣属(Zizyphus Mill.)小灌木,适应性强,广布于华东、华北、西北和东北的向阳山坡、荒芜丘陵和平原,从湿润的东部海滨到干旱的西部荒漠,均能生长良好[1],酸枣根系发达,抗旱、耐寒、耐贫瘠能力强,具有重要的水土保持作用,是绿化荒山的先锋树种[2]。同时酸枣仁具有养心补肝、宁心安神、敛汗、生津的药用价值,适用于虚烦不眠、惊悸多梦、体虚多汗、津伤口渴的人群[3]。有研究表明不同产地的酸枣仁品质存在显著差异,因此,为了保证其来源的真实性,探索酸枣产地溯源方法具有重要意义。【前人研究进展】目前,有关酸枣的研究主要集中在化学成分[4-6]、药理作用[7]、系统分类学[8]、组织培养[9-11]、酸枣结构特征和抗逆性[12-15]等方面。【本研究切入点】关于酸枣种子形态特征和产地判别的研究尚未见报道。【拟解决的关键问题】分析不同产地酸枣仁颜色、形态的特点,筛选酸枣产地判别的有效指标,探索颜色、形态和现代统计分析技术对中国酸枣产地溯源的可行性,为酸枣的产地溯源提供新途径。
表1 四地酸枣样本数及采集地点
Table 1 Zizyphus jujube sample number of four places and gathering place
地理分布 样本数 采样点
经度 纬度
烟台 100 121°37′ 37°21′
赞皇 100 114°26′ 37°39′
银川 100 105°57′ 38°31′
吐鲁番 100 88°49′ 42°47′
1.2 酸枣仁图像的获取
按固定的次序和方向将酸枣仁摆放于EPSON扫描仪上,采用600DPI分辨率分别获取400粒酸枣仁的彩色图像。
1.3 统计方法
判别分析是在分类确定的条件下,根据研究对象的各项特征判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,即设k个总体G1,G2,…,GK ,希望建立一个准则,对于给定的任意一个样本x,依据这个准则能判断它是来自哪个总体。希望建立的判别准则在某种意义上是最好的,如正确率最高等。
数据用Microsoft Excel软件整理、制表,用Photoshop软件进行图像处理,SPSS Statistic统计软件和DPS数据处理系统进行分析。
聚类分析是通过数据建模简化数据的一种方法和搜索簇的无监督的学习过程。它也是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,而是从样本数据出发,自动进行分类,目的是将性质相近的事物归为一类,探索各指标之间一定的相关关系。
验证方法采用回判验证和交叉验证法。回判验证是根据判别准则将样本依次代入,评价判别效果。交叉验证是近年来逐渐发展起来的一种非常重要的判别效果验证技术,将初始采样分割为k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k-1个样本被用来训练,交叉验证重复k次,每个子样本验证一次,平均k次的结果最终得到一个单一估测。交叉验证与回判验证相比错分率可能会增加,但结果更真实、客观,是评价判别准则效能的可靠指标。
正确率=正确分组的样本个数/总样本的个数,错误率=错误分组的样本个数/总样本的个数。
2 结果与分析
2.1 不同产地酸枣仁颜色、形态的描述统计
通过Photoshop软件对酸枣仁图像进行处理得到27个变量, 从这些变量分布特征看存在一定的差异,为进一步进行判别分析提供了一定的依据。从这些变量中选取了几个具有代表性的变量:R中值、B中值、RGB中值、灰度最小值,用SPSS软件处理得到如下直方图。
图1 四个地区部分变量频率分布直方图
Fig 1 Four areas where part of the variable frequency distribution histogram
从b中可以看出每一个地区B中值的大小比较分散,整体来看四个地区B中值的集中情况并不相同,说明四个产地酸枣仁在该变量上存在较大的差异;从c中看出烟台、赞皇、吐鲁番三个地区灰度最小值的大小相对比较集中,而银川的比较分散,整体来看四个地区这一变量的集中情况比较相近。
2.2 酸枣仁颜色、形态变量的筛选
得到的27个变量,经SPSS统计软件逐步判别筛选得到11个有效变量,分别为RGB均值(X1)、RGB中值(X2)、R中值(X3)、G均值(X4)、G标准差(X5)、B中值(X6)、明度标准差(X7)、周长(X8)、高度(X9)、灰度最小值(X10)和灰度均值(X11)
2.3 Fisher判别分析
根据Fisher判别法对四地酸枣仁数据进行分析,在此研究中运用非标准化的Fisher判别函数。此判别函数系数由于可以将实测的样本观测值直接代入求出判别函数值,所以该函数使用起来比标准化的系数要方便一些。由表2可知,用贡献率最大的11个参数建立了3个Fisher判别函数,即:
Y1=-2.854-0.052x1 + 0.069x2 + 0.085x3 + 0.092x4 + 0.343x5-0.269x6-0.266x7 + 0.013x8-0.032x9-0.096x10 + 0.045x11
Y2=-17.494 + 0.66x1-0.182x2 + 0.042x3-0.369x4-0.799x5 + 0.186x6 + 0.876x7-0.011x8 + 0.049x9-0.049x10-0.161x11
Y3=-12.374 + 0.292x1-0.158x2-0.082x3-0.03x4-1.031x5 + 0.017x6 + 1.149x7 + 0.02x8-0.076x9 + 0.496x10-0.081x11
表2 4地酸枣仁的组质心
Table 2 The group of center of mass of seed of zizyphus jujube of four palces
地点编码 函数
1 2 3
烟台 1.177 1.566 -0.612
赞皇 -2.176 0.340 1.229
银川 2.906 -0.984 0.461
吐鲁番 -1.907 -0.922 -1.078
使用Fisher判别函数,可以计算每个样本3维空间的坐标,然后计算该点离各中心的距离,距离哪个类中心最近,即属于该类。
图2 四地酸枣仁函数1、函数2判别得分散点图
Fig 2 Four zizyphus jujube kernel function to scattered point figure 1, 2 discriminant function
图3 4地酸枣仁函数三维分布散点图
Fig 3 Four zizyphus jujube kernel function to the three dimensional distribution scatter plot
2.4 回判验证与交叉验证
回判验证总正确率为90.5%,其中烟台正确率最高,为94%,其次是赞皇91%,吐鲁番89%,银川88%。交叉验证总正确率为88.5%。烟台正确率最高为92%,其次是银川88%,赞皇和吐鲁番都是87%。
表3 回判验证和交叉验证分类结果表
Table 3 Back and cross validation classification result table
预测组
地点 烟台 赞皇 银川 吐鲁番 合计
初始 计数(%) 烟台 94 1 3 2 100
赞皇 3 91 0 6 100
银川 10 1 88 1 100
吐鲁番 3 8 0 89 100
交叉验证 计数(%) 烟台 92 1 4 3 100
赞皇 4 87 0 9 100
银川 10 1 88 1 100
吐鲁番 5 8 0 87 100
2.5 聚类分析
图4 酸枣仁11个有效指标的聚类图
Fig 4 Seed of zizyphus jujube kernel clustering figure 11 effective index
采用欧式距离对四个地区酸枣仁基于11个有效变量进行聚类分析,聚类图结果表明,长度,周长为一类;B中值,明度标准差,G标准差为一类,其中明度标准差和G标准差的关系最近;灰度最小值,R中值,灰度均值,G均值,RGB中值,RGB均值为一类,其中RGB中值和RGB均值的关系最近。
3 讨论
生物性状主要由遗传因子控制,同时也受不同环境因素的影响,大量研究表明,种子颜色形态的变异程度较小[16],因此本研究侧重于不同环境对酸枣种子的影响,通过对其颜色、形态进行判别分析,筛选有效指标,为酸枣的产地溯源提供依据。
酸枣适应性强,分布范围广,无论是湿润还是干旱的地理环境,均可以良好生长[1]。近年来酸枣研究集中在其化学成分[4-6]、药理作用[7]、结构特征和抗逆性[12-15]等方面,而关于酸枣种子形态特征和产地判别方面的研究尚未见报道。本课题的研究重点在于筛选酸枣产地判别的有效指标,探索颜色、形态和现代统计分析技术对我国酸枣产地溯源的可行性,进一步为酸枣的产地溯源提供新途径。
本次研究采用了Fisher判别、聚类分析等方法,并用Photoshop图像处理软件,SPSS统计软件以及DPS数据处理系统等进行分析,并用回判验证和交叉验证对其结果的正确性进行证明。本次研究的酸枣采自于烟台、赞皇、银川、吐鲁番四个地区,具有真实性,并且对四个地区各100个酸枣样本进行分析,具有代表性。判别方法使用比较简单,考虑数据比较周全,能较明确的看出各个有效指标之间的相关关系,从而建立了几个可靠而稳定的判别模型,这几种分析方法虽然结果相似,但反映的角度不同,不能相互替代。误判的原因可能是受到特定环境的影响,表现出特殊的性状,造成判别的正确率下降。
经本次研究可得到影响酸枣产地判别的11个有效指标,并建立了判别酸枣产地溯源的函数模型,可以判别烟台、赞皇、银川、吐鲁番4个地区,而且为更广泛地区的酸枣产地溯源提供新方法。分析酸枣产地溯源的这种方法和思维不仅可用于酸枣,还可用于其他物种的产地溯源,从而对其形态特征、生活习性等有更充分的了解,并可与同一地区的相似品种进行比较分析。此研究主要通过对酸枣仁的形态、颜色数量化,从而进行酸枣的产地溯源,今后还可进一步结合酸枣果实等指标进行研究、建模,判断其来源地,由此可得出多种方法进行酸枣产地溯源,所建模型正确率可能会更高。
山西师范大学第八届“挑战杯”青年学生课外学术科技作品大赛三等奖