如何对100万个星系进行分类管理

如何对100万个星系进行分类?

大数据文摘出品

星系动物园项目是2007年牛津大学天文学研究生凯文·肖文斯基发起的。简单来说,肖文斯基对星系很感兴趣,而人们可以根据星系的形态(椭圆形或螺旋形)和颜色(蓝色或红色)对它们进行分类。当时,天文学家的传统观点是,像我们的银河系这样的螺旋星系的颜色是蓝色的(意味着年轻),而椭圆星系的颜色则是红色的(意味着年老)。

肖文斯基对这一传统观点有所怀疑。他猜想,尽管上述规律一般来讲是正确的,但也可能有相当数量的星系例外,通过研究这些不符合预期规律的不同寻常的星系,他便能对星系的形成过程有所了解。

从志愿者到天文学家的转变只要10分钟

因此,为了推翻传统观点,肖文斯基需要的是大量按形态分类的星系,也就是已被划分为螺旋形或椭圆形的星系。但问题是现有的分类算法还不足以用于科学研究。换句话说,在当时,分类星系对计算机来说是一项很难的任务。因此,肖文斯基需要的是大量人工分类的星系。带着研究生的热忱,肖文斯基开始了分类工作。经过7天每天12小时的马拉松式奋战,他共对5万个星系进行了分类。尽管5万个星系听起来可能很多,但其实仅占斯隆数字天空勘测计划所拍摄的将近100万个星系的大约5%。肖文斯基意识到他需要采取一个更具扩展性的方法。

幸运的是,对星系进行分类并不需要人们接受有关天文学的高深培训,你可以很快就教会一个人如何进行星系分类。换句话说,尽管星系分类对计算机来说是一项困难的任务,对人来说却是非常简单的。因此,当肖文斯基和同学克里斯·林托特坐在牛津大学附近的一家小酒馆时,他们想到了创建一个网站,然后让志愿者对星系的图像进行分类。几个月后,星系动物园诞生了。

在星系动物园的网站上,志愿者需接受几分钟的训练。例如,了解螺旋星系和椭圆星系的区别。完成该训练后,每个志愿者必须通过一项相对简单的考试,即正确地将15个星系中的11个进行分类,然后就能开始通过一个简单的基于网络的界面对未知星系进行真正的分类了。从志愿者到天文学家的转变在不到10分钟内就完成了,而且只需跨越最低的门槛——一个简单的测试。

如何对100万个星系进行分类?

在一份报纸报道了该项目之后,星系动物园吸引来了第一批志愿者,然后在大约6个月的时间里,项目吸引了超过10万名公民科学家,人们之所以参与是因为他们喜欢这项任务,并且想要帮助推进天文学的发展。这10万名志愿者总共贡献了4000多万条分类信息,其中大部分分类信息是由一些相对较少的核心参与者完成的(Lintott et al. 2008)。

如何对100万个星系进行分类?

有雇用大学生做研究助理经验的研究人员可能会立刻对数据质量产生怀疑。尽管这种怀疑是合理的,但星系动物园这一项目表明,志愿者所贡献的数据经正确地清洗、消除偏差和整合后也能产生高质量的结果。让公众创造出专业质量数据的一个重要技巧就是重复开展,即让许多不同的人来执行相同的任务。在星系动物园这一项目中,志愿者对每个星系都贡献了大约40条分类数据,这种程度的重复率是雇用大学生做研究助理的研究人员永远都无法达到的,因为他们需要更加关注每个个体分类数据的质量。志愿者用重复弥补了他们在训练方面的欠缺。

整理多重分类数据,总共要几步?

尽管不同志愿者对同一星系进行了多重分类,但要想把这些多重分类数据结合起来以得出一个一致的分类还是很困难的。在星系动物园的项目中,相关研究人员得出一致分类的三个步骤很有帮助。

首先,研究人员通过删除虚假分类清洗了数据。例如,那些反复对同一星系进行分类(如果有人试图操纵结果可能就会这么做)的人会被删除所有的分类数据。这类清洗及其他类似清洗所删除的数据约占总分类数据的4%。

然后,研究人员需要消除清洗后的分类数据中的系统偏差。通过一系列嵌入在原始项目中的偏差检测研究,例如给一些志愿者呈现黑白的而不是彩色的星系图像,研究人员发现了多个系统偏差,例如把因距离遥远而外表模糊的螺旋星系划分成椭圆星系。调整这些系统偏差非常重要,因为重复分类也无法自动消除系统偏差,重复分类只是有助于消除随机误差。

最后,研究人员需要用一种方法把消除偏差后的个体分类数据结合起来,得出一个一致的分类。将每个星系的所有分类数据结合起来的最简单的方法是选择最常见的分类数据。但这就意味着每个志愿者的权重是一样的,而研究人员则认为有些志愿者要比其他志愿者更擅长分类。因此,他们开发了一个更复杂的迭代加权程序,试图检测出最好的分类数据并赋予它们更多的权重。

因此,经过清洗、偏差消除和加权这三个步骤后,星系动物园的研究团队将4000万条志愿者的分类数据转化成了一组一致的形态分类。在将这些形态分类与之前三次由专业天文学家进行的小规模星系分类(其中包括为星系动物园的诞生贡献了部分灵感的肖文斯基所进行的分类)进行比较后发现,它们之间的吻合度很高。因此,将志愿者的贡献整合后也能得出高质量的分类数据,而且其规模是研究人员个人无法企及的。事实上,通过对如此大量的星系进行人工分类,肖文斯基、林托特和其他相关人员发现,大约只有80%的星系是符合预期规律的,即螺旋星系是蓝色的、椭圆星系是红色的。

至此,大家应该明白了星系动物园是如何遵循分解–运用–整合这一策略的,这一策略也被用于大多数人本计算项目。首先,把一个大问题分解成多个小问题。以星系动物园为例就是,对100万个星系进行分类这个大问题被分解成了100万个对一个星系进行分类的小问题。然后,分别运用人力对每个小问题进行操作。以星系动物园为例就是,志愿者将每个星系划分为螺旋形或椭圆形。最后,整合所有结果以得出一个一致的结果。以星系动物园为例就是,通过清洗、偏差消除和加权,得出每个星系的一致分类。尽管大多数项目都会采用这一通用的策略,但需要根据所处理的具体问题对每个步骤进行相应的调整。例如,下面这个人本计算项目采用的也是这个策略,但运用和整合这两个步骤是截然不同的。

机器学习,让数据呈指数级增长

对星系动物园的团队来说,这个项目仅仅是个开始。很快他们便意识到,尽管能对将近100万个星系进行分类,但这个规模还不足以配合新的大约能拍到100亿个星系的数字天空勘测。要想应对从100万到100亿的增长,也就是10000倍的增长,他们需要招募的参与者数量大致是星系动物园这个项目的10000倍。尽管互联网上的志愿者很多,但也不是无限的。因此,研究人员意识到,如果他们想要处理数据量日益增多的数据,就需要一个新的、更具扩展性的方法。

于是,曼达·班纳吉同肖文斯基、林托特和星系动物园团队的其他成员一起,开始教计算机进行星系分类。更具体地说就是,班纳吉利用星系动物园所创建的人工分类数据建立了一个机器学习模型,它能够根据图像特征预测星系的人工分类结果。如果该模型的预测精度很高的话,那么星系动物园的研究人员基本就能用它对无限的星系进行分类了。

班纳吉和同事方法的核心实际上和社会研究中常用的技术非常相似,尽管乍一看这种相似性可能并不明显。首先,班纳吉和同事将每张图像转化成了一组概括其性质的数字特征。例如,星系图像可以有三个特征:图像中蓝色像素点数量、像素亮度方差、非白像素比例。选择正确的特征是这一问题的重要部分,这通常需要专业领域的专业知识。经过这一步,班纳吉和同事构建了一个数据矩阵,每一张图集都由一行和三列数据描述。根据该数据矩阵和期望输出值(例如,如采用人工分类,某一图像是否会被划分为椭圆星系),研究人员可以构建一个统计或机器学习模型。最后,研究人员可以利用该统计模型中的参数预测出新的星系的分类。在机器学习中,这种利用标签示例创建一个能标记新数据的模型的方法被称为监督式学习。

星系动物园很好地表明了许多人本计算项目是如何逐步发展的。首先,一个研究人员会自行或与一小组研究助理一起尝试开展一个项目(例如肖文斯基最初所进行的分类)。如果这个方法在规模上不能满足要求,那么研究人员就会选择采用有许多参与者的人本计算。但在数据量达到一定规模后,单纯依靠人力就不足以解决问题了。在这种时候,研究人员就需要构建一个计算机辅助人本计算系统,利用人工分类数据训练一个基本能够处理无限数据的机器学习模型。

本文整理自《计算社会学》

马修·萨尔加尼克著

中信出版集团

如何对100万个星系进行分类?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023年 7月 25日 上午10:47
下一篇 2023年 7月 25日 上午10:53

相关推荐

  • 白话看《三国》连载7 第三回 议温明董卓叱丁原 馈金珠李肃说吕布1

    接着上回继续说,曹操对何进说:“宦官之祸,古今皆有,但世主不当假之权宠,使至于此。若欲治罪,当除元恶,但付一狱吏足矣,何必纷纷召外兵乎?欲尽诛之,事必宣露。吾料其必败也。(原文)”…

    生活知识 2023年 4月 26日
  • 女生必备经期饮食指南(女生经期吃什么比较合适)

    #生理期#​‬ hello,大家好,我是@春雨知多少Ineenyou​,今天给大家分享几款女生必备的经期饮食指南! 女生必备 经期饮食指南 舒服度过姨妈期 姨妈期推荐吃 vs不能吃…

    2023年 7月 21日
  • 知了猴幼虫在地下要蛰伏好几年(知了猴的幼虫多久钻进土里)

    现在已经是七月下旬了,天气是非常的闷热了,到了中午的时候常听到树上有知了在一遍又一遍的鸣叫。而在北方有一种野味在市场上非常的抢手,其售价甚至要比牛肉还要贵很多,目前要七八十块钱一斤…

    2023年 7月 3日
  • 粽子要蒸多少分钟才能熟(粽子要蒸多久才能熟)

    煮粽子是端午节的一个习俗,很多地方都会在端午节煮粽子或蒸粽子吃,那粽子蒸多久才能熟?粽子是隔水蒸还是水煮? 粽子蒸多久才能熟 生粽子:1~4个小时 一般生粽子会比较难以蒸熟,普通的…

    2023年 9月 6日
  • 清血热祛痘吃什么(清肺热清肝热祛痘)

    处暑即将出伏,然而全国天气仍是一片炎热状况。在中医理论认为,从立秋到秋分这个夏末秋初时期被称为“长夏”。广东省中医院皮肤科主任医师闫玉红提醒,长夏湿热之邪横行,特别容易出现上火、中…

    生活知识 2023年 8月 14日
  • 乘坐飞机哪些东西不能带,乘坐飞机什么东西不允许带

    大家在乘坐飞机的时候,都会经过安检,那么在安检过程中,你知道有哪些东西是不能带上飞机的吗?那么就由西翔航空学校为您讲解一下关于乘坐飞机哪些东西不能带? 航空运输的首要原则是保证安全…

    2023年 10月 10日
  • 桂平旅游美食

    桂平的饮食独特且精细,对于工艺的追求极其高超。不仅追求香味、口感和滋味,还在外观上下着很大的功夫。到桂平旅游,可以品味到当地的各种特色菜肴,感受这座城市别样的饮食文化。 竹笋酿 竹…

    2023年 1月 13日
  • 坚果受潮了怎么变酥脆

    空气特别的潮湿,不仅衣服很难干,就连食物也很容易受潮,开了一包坚果,即使你密封的再严实,如果没有快速吃完,过几天再吃的时候,坚果的酥脆感会大打折扣,变得软而不脆了。 今天就分享给吃…

    2023年 11月 23日
  • 乳胶枕的鉴别方法图解

    乳胶枕是由纯天然橡胶树的汁液做成的,而且在加工过程中没有化学反应的参与,全部都是物理操作。是当代最有代表性的绿色环保产品之一。除此之外乳胶枕的性质与人类睡眠需要基本稳和,而且不受温…

    2023年 5月 3日
  • 不明生物咬人大全(什么生物咬人最疼)

    蚂蚁,生活中常见的一种节肢昆虫,世界上已知的蚂蚁种类有9000多种,那么世界上最凶的蚂蚁是哪个呢?其中“子弹蚁”真的是实至名归,排名第一! 子弹蚁被评为“全球十大毒性最强动物”之一…

    2022年 12月 26日