Toni2025COSMOSWebGalaxyGroups
Brief
#
- COSMOS2025 有非常全的数据和波长覆盖,所以可以实现 0-3.7 这样跨度的星系性质研究,甚至可以基于 color-color plot 以及 sSFR 给出是否 quiescent 的 truth value
- 用 AMICO 探测了很多 group,用 ML 方法区分星系是否是 quiescent 的,并且对于每一个 group 拟合一个 red sequence
- quiescent/RS fraction 都随着红移升高/richness 降低而降低,可以理解为在 z=1-2 red sequence 才开始形成
- 核心结论是 slope/scatter 不存在红移演化,不过对 redMaPPer project 更重要的是 red sequence slope 和 scatter 的典型值分别是 -0.05 和 0.05
Intro
#
- 基本观测事实:高密度环境中更多地出现红色星系
- quench 包含内部和外部两方面的因素(DeLucia2025CosmicQuenching),但是二者之间是否是完全独立的还不清楚
- mass quenching 主要针对大质量星系起作用,而 environmental quenching 针对晚期宇宙中的 satellite 起效
- 主题是 galaxy group 这种和 cluster 相比 less massive/dense 系统中的星系
- COSMOS-Web 是 JWST 的一个观测项目(Web for Webb?)
- AMICO 对颜色信息利用比较少,所以可以避免对最成熟、最红的 red sequence 的偏好
Data
#
- COSMOS field 具有 CFHT/Subaru/HST/UltraVISTA等多波段的观测数据
- supplement: HST 在 2003-2005 观测,尺寸是 1.4x1.4 deg2
- COSMOS-Web 是 JWST Cycle1 的一个项目,包括 115~444 的四个 filter,coverage 是 0.54 deg2
- source detection 用的是 SEx++,在 chi2 image 上进行
- COSMOS2025 是结合新的 JWST 数据的一个新的 compilation
- photo-z 计算来自 Le Phare 代码(template fitting),对于亮/暗星系的精度大约是 1/3%
- galaxy group 来自 AMICO 在 COSMOS2025 上的运行
- AMICO 的原理是用一个 filter 以每个星系为中心计算 amplitude/SNR,单个星系可以按照概率分配到不同红移上
- 最终的 catalog 包含 1678 个 group,红移直到 3.7,SNR 和 richness min 分别是 6/2
Classification with ML
#
- 关键的一步是区分 red/blue galaxy(二元分类任务),这里用 XGB(属于 gradient boosted tree)和 LDA 两种 ML algorithm 完成,二者之间区别在于 non-linear 和 linear(?)
- 决策树的原理是:在每一个节点选择最佳的分裂特征
- XGB 的提升在于每次迭代都用梯度回归来纠正上一次迭代的错误
- LDA 作为有监督的降维方法,原理是「类内方差最小、类间距离最大」
- 可以通过合成数据(SMOTE)来解决蓝星系多于红星系的问题
- 训练集用 COSMOS 2015 构建,避免过拟合
- truth value 来自于四种方法(NUV-r-J color-color、sSFR 阈值、和 Sa galaxy model 的比较、NUV-r-K color-color),满足 3/4 标准的即可判定为 quiescent
- 将 1% 的 green valley 移除以避免模糊性
- 训练和测试 1:2
- feature engineering 属于 ML pre-process 的一步
- fig1 表示不同 band 提供的信息量
- F-score 是所有树中某个特征出现的频率,SHAP(定义为所有加入顺序下带来的边际收益的平均值)量化了单个 feature 的贡献比例
- 包括了 COSMOS15/20 中的全部波段,但是只有前四个是对于 COSMOS 2025 是可用的
- 结论是 r/NUV/K/J 提供了最多的信息 as expected,但是有可能是因为 truth value 就是用这些维度定义的?
- 对于没有 NUV 观测的 source 填充 -99,XGB 可以识别和学习这种特征
- precision/recall/F1-score 分别对应 purity、completeness 以及二者的调和平均
- SMOTE 会增加 false positive 的概率
- fig2 calibration curve 是独立于 F1-score 的测评标准,XGB(尤其是带有 -99 的版本)在测试集上的表现优于 LDA
- 实线和虚线分别是使用全部 band 和仅使用四个最 informative band 的结果
- fig3 展示了参数空间上的 ML 划分和 hard cut 的比较,说明模型在 hard cut 的标准之外还可以提供额外的信息
- 对于低质量星系判别稍微模糊(右上 panel 的浅蓝色区域)
- 训练过程的输入不包括 sSFR 信息
Quiescent fraction
#
- 首先设置 mstar+4(大概 0.025 Lstar)的光度下限,可以保证直到红移 2.5 的样本均匀完备
- 最简单的针对 group 计算 quiescent fraction 的方法是将成员概率和 ML 给出的 quiescent 概率相乘,加和后和 richness 相比(相当于用成员概率加权的 quiescent 概率均值)
- fig4 高 richness/低红移的 group 具有更高的 fraction
- red sequence 的形成大约是从 z=2 开始的
- z=3 的轻微上抬可能源自 mstar+4 的选择效应
- 另外一种方法是定义一个 cylinder 替代 AMICO 的输出,并且计算 quiescent galaxy 的 overdensity,目的是验证 AMICO 的特殊性不会带来问题
- cylinder 半径和高度分别是 0.5 Mpc/h 以及 ±0.01 红移相对误差
- 星系的红移不确定性以概率形式进入权重函数中,此外还需要进行 bkg subtraction
- fig5 最终得到的结果和 AMICO 结果趋势一致,但是 quiescent 比例更高,可能是 0.5 半径对于部分 group 来说太小或者这种背景扣除相比 AMICO 来说更彻底
- fig6 将 group 分类为 X-ray bright/faint 两类,对比 quiescent fraction
- 这里的 sample 是来自整个 COSMOS field 的 cluster sample,没有用到 JWST 的新数据
- 在所有情况下都是 X-ray bright group 中的星系更加 quiescent,并且在低红移下和对于高(AMICO)SNR group 更显著
- 并且一定程度上通过 richness/SNR 控制了 bright/faint 这个维度的改变
- X-ray 代表热气体的存在,本身就会以 ram pressure 方式将星系变得 quiescent
- fig7 结合 Darvish 2014 提供的 COSMOS LSS map 想要说明 X-ray bright/faint 分别处于 node 和 filament 中
- 位于 node 处的 galaxy system 从 filament 中吸积已经经过 pre process 的星系
Red sequence
#
- 最关键的 4000A break 会随着红移升高而移动到不同的 filter pair 之间,fig8/tab2 给出了不同红移下的最佳 color
- 一般来说会选取 color pair 中较红的一个(后者)作为 magnitude
- HSC 的颜色切换点是 0.38, 0.70 和 1.10
- 对于每一个 group 成员进行 3-sigma clipping,之后用(加权)最小二乘拟合平均颜色、斜率和 scatter,权重是成员概率和 quiescent 概率的乘积
- 要求红色星系的颜色在 red sequence ±0.3 sigma 范围内,并且 quiescent/membership 概率都高于 0.5
- fig9 RS fraction(定义为红色星系的概率加和与 richness 之比)的趋势和 quiescent fraction(grey curve)类似
- 探测到 red sequence 的 group 整体比例是 1/8,并且随红移升高降低
- z=0.7-0.8 的 peak 可能和 COSMOS wall 这个大尺度结构相关
- 有一个发现是 z=3.4 的 CW117 也有三个成员具有非常一致的颜色,按照这里的标准(大于等于 3)也是一个 red sequence
- fig10 红/蓝颜色变化说明 quiescent 与否,大小是成员概率,三个圈代表 RS galaxy
- fig11 red sequence 的演化
- legend 中的 rest frame 指的是使用 J/K rest-frame magnitude(同样来自 Le Phare),只是一个 robustness test
- panel1 多个 sequence 代表不同红移处的颜色选择,model(橙色线)在红移 2.4 以下都和数据符合很好
- model 来自形成于 z=8,在 z=5 经历一次 burst 的星族的理论颜色
- 单个颜色的变化是因为红移而不是年龄增长?
- panel2/3 对比了 slope 的演化
- panel2 中红/灰点代表 RS group 和普通 group(对普通 group 也进行拟合?)
- 最终结论是没有演化,轻微的最红移升高而降低趋势可能和金属丰度演化有关
- slope 典型值是 -0.05(-0.0436 from Durret 2011)
- panel4 scatter 没有显著演化,典型值是 0.05-0.1 mag
- 「没有演化」可以解释为 quiescent population 形成之后性质就不再改变
Thoughts
#
- 很大一部分内容是解决二元分类任务,类似 Black2022RedDragonRedshiftevolving 用两个 component 的 GMM 进行分类
- 为什么是 group 而不是 cluster?
- group/cluster 的一个模糊分界是 1e14 halo mass,对应 redMaPPer richness=20
- 这里确实包含了很多 low-richness system,比如 10 以下的系统一般 cluster 肯定会直接丢掉
- 其实 red sequence 本身就是 high-richness system 中比较显著,在 low-richness system 中寻找相当于设定下限
- rest-frame magnitude 是用很多波段的观测凑出来的
- 这里换颜色 pair 不会给 slope 带来改变,HSC 中斜率不同是因为用了统一的 mag band