Black2022RedDragonRedshiftevolving
Brief
#
- GMM 指的是用两个 component 描述星系的 blue cloud 和 red sequence 的区分,具体做法是红移切 bin 然后把不同 bin 里面的 population 对应到一起
- 每个 component 用一个颜色均值向量和一个协方差矩阵描述
- truth value 来自 sSFR
- 核心的任务是区分 red sequence/blue cloud 星系,所以没有考虑 photo-z 相关的事情
- 可以作为 red sequence model 的一个 reference
- 核心的想法是 4000A break 不是 blue/red 星系之间的唯一区别
Intro
#
- 基本的观测事实是星系的颜色分布可以划分为 blue cloud 和 red sequence,中间的区域称为 green valley
- red galaxy 更倾向于出现在 cluster 这样的 dense environment 中
- sSFR 的分布大致是向 low end 偏斜的 log normal 形式,并且低于一定 sSFR 的星系几乎呈现相同的颜色,总之用 GMM 描述 red sequence 是很合理的
- literature review (2022) 中基于 red sequence 的 cluster finder 的脉络是 G00 -> maxBCG -> redMaPPer/ECGMM
- red dragon 相比之前的提升在于离散/二元到连续/概率的转变,以及利用了更丰富的颜色信息
Data & motivations
#
- 选取了 SDSS 的 z=0.1 附近很窄的 slice 的样本,红移和 sSFR 都非常可靠,可以用于检验算法表现
- 另外还有一个 0.3~0.5 红移范围的样本,用于检验从 gr 到 ri 切换过程中算法的表现
- Illustris TNG 的模拟数据的颜色和真实颜色存在很大差异,所以只能用于检验 robustness
- Buzzard 提供了一个模拟的星系样本,是在 N-body simulation 中插入 SDSS 校准过的 template galaxy 生成的,红移覆盖 0.05~0.84
- 选用了和 R12 相同的 0.2 Lstar cutoff
- 4000A break 产生原因是 Balmer break 和金属吸收线(line blanketing)
- 最好的探测 4000A break 的方式是两个位于 break 两侧的 filter 构成的颜色
- tab2 给出了 SDSS/DES 的经验性的 break 位置随红移的变化
- 基于单一颜色信息的 cluster finder 的问题是需要人为设置颜色切换点,并且切换点两侧的 red galaxy fraction 等物理量会出现跳变
- 多颜色实际上是包括 4000A break 之外的其他信息的,可以建立更加精细的模型描述 red sequence
- fig1 左右的 color 分别代表 sSFR 和 $(g-r)-(r-i)$,后者相比 x/y 轴所代表的单一颜色实际上更能区分 red/blue galaxy
- 但是 x/y 轴之间是有相关性的?
- 相比包含 4000A break 的 ur 颜色,ri 颜色中包含了额外的信息
Method
#
- 算法的具体实现是
- 输入数据包括星系的红移(及误差)和多波段测光数据
- 在每一个红移 bin 内拟合一个 GMM 用于描述这个红移下的 red sequence
- 将不同红移 bin 内的同一个 component 联结在一起(尤其是代表 red sequence 的组分),之后对每一个参数进行插值形成一个连续函数
- 最后可以更新初始猜测对模型进行迭代的优化
- 将测光误差通过 ECGMM 方式纳入 model 中(和 redMaPPer 的方差叠加是一样的效果?)
- 虽然最终计算似然函数的时候还是针对每个星系进行的,但是 GMM 的参数优化也会受到误差的影响,所以说「纳入模型中」
- 颜色的观测误差之间的相关性来源于使用同一个 band 计算相邻 color
- 最后的似然函数是 Eq. 6/7
- 每一个高斯组分由权重、平均颜色以及描述误差的协方差矩阵定义
- 最终的效果是可以很轻易地计算出单个星系属于 blue cloud 以及 red sequence 的概率
- 相比总体的准确率(判断正确的星系占总星系的比例),使用 true positive rate 和 true negative rate 的平均值是更好的做法,相当于给 red/blue 两个群体的正确判断赋予了相同的权重
- 检验算法用的 truth value 来自 sSFR 的硬性切分(Eq. 9)
- fig3 展示了使用不同颜色组合的准确率,使用三个颜色就可以达到最佳效果,选用四种 principal color 和经过特殊选择的三种颜色表现相同
- 模型的基准是 2 个 Gaussian component 用于描述 BC 和 RS,在此基础上提升 kernel 数量可以模拟 green valley 或者包含 red sequence 中的非高斯特征(比如 mass/environment quench 的区分)
- this work 忽略了颜色-星等关系,因为会增加模型的复杂度
- App. D: 这种依赖关系是足够显著的,但是对于 BC/RS 的区分影响不大
Results
#
- SDSS/TNG 数据是包括 sSFR truth value 的,所以可以用于检验算法
- 对于无监督学习使用相同样本作为训练和测试是可行的
- fig4 比较了不同方法在两个数据集上的表现,red dragon 的表现和根据 truth value 优化的 hard cut 的最优方法持平
- TNG 数据上所有算法的表现都更好,因为模拟相比真实观测缺乏复杂性
- 引入额外的 Gaussian component 会轻微降低准确率
- fig5 对比了红移演化切换颜色方面的表现,red dragon 相比切换颜色的单色方法表现更优(其实是在切换点附近能同时利用两边的不充足信息)
- fig6-8 给出了算法在 Buzzard 上的应用结果
- fig6 红/蓝星系比例随红移增加而降低,说明邻近宇宙中的 quench 是持续进行的
- fig7 两个 population 的颜色随红移变化关系,还对比了 redMaPPer 以及 Hao 2009 的结果
- caption 里面说 DES Y3 应该是 typo 吧?
- fig8 scatter 和 correlation 随红移的变化
- 可预期的结果是 red scatter 低于 blue
- 红移高于 0.4 时测光误差超过了 intrinsic scatter
- 相关系数变化范围很大,前两个颜色的相关性在所有 color pair 中是最显著的
- fig9-11 提升 component 数量带来的改变
- fig10 是最直观的展现,基本就是将 population 进一步细分(这里的 scatter 有点 over-plot 的问题)
- fig9 追踪了多个 component 中最红的组分的变化:均值和 scatter 的变化不明显,但是 weight 会降低
- fig11 三个组分情况下,green component 的性质在低红移趋向于 red sequence,而在高红移趋向于 blue cloud
- 总之引入超过两个成分之后对每个成分的解释会变得模糊
Appendix
#
- figA1 对比了 SDSS 和 TNG 的颜色分布:TNG 的 bimodal 分布是清晰很多的,而在 ri, iz 等颜色上 SDSS 的 bimodality 基本消失,所以对 TNG 的分类是更简单的
- figB1 做了一个简单的 cartoon 展示 D4000 之外的信息对于区分 red/blue 的重要性
- AppC 不同数量的 Gaussian component 的 BIC,发现从 2 到 3 有大约 2sigma 的提升,在此基础上继续提升的收益不再显著
- AppD red sequence slope 确实显著地存在
- 定义了一个量化指标 $\varsigma$,计算为颜色随星等变化的斜率和 red sequence 自身 intrinsic scatter 的比值(不是无量纲的吧?),发现大部分情况下小于 1.3
Thoughts
#
- 「利用多颜色之间的关联」其实是超出单纯的「利用多颜色信息」的范畴的
- this work 没有利用无光谱的星系的数据吗?
- 这里的主要任务不是 cluster finder(甚至也不是准确地描述给定红移处的 red sequence 性质)而是用一个 model 描述 BC/RS 两个组分然后对星系进行分类
- 所以对于一个二元分类任务完全没有必要引入超过 2 个 component
- 所以这里的 GMM 的多个组分用于描述 red sequence 和 blue cloud 而不是 red sequence 的可变的 variance
- 比如 imag 和 g-r 之间的线性关系可以用单个 Gaussian component 的多个维度之间的相关系数描述,但是这个系数是不会变化的
- 红移分 bin 其实会带来一些问题?比如 binsize 也是手动指定的
- 用 GMM 区分 red/blue 星系确实比某种 sigma clipping 更科学
- 一件可以做的事情是用这个算法根据 spec-z 数据拟合一个 red sequence 模型出来,然后和 redMaPPer model 对比,因为这里的 red dragon 也是开源的
- HectoMAP 的数据是对红色星系有偏好,所以应该用 DESI
- bimodality 仅在比较红的颜色上显著存在,这个现象在 HSC 上也比较明显