关于工作职业性质特征、大模型对职业的影响、以及人类认知变革的一些随笔

20世纪的工作

《国家的工作》(The Work Of Nation)中,Robert Reich将20世纪的工作分为三类:

第一类:符号分析师

知识工作者

  • 经理人

  • 工程师

  • 金融分析师

  • 律师

  • 科学家

  • 记者

  • 咨询师

第二类:逐渐被计算机接管的常规工作

第三类:面对面服务工作

  • 前台服务员

  • 餐饮服务员

  • ……

在经济形势变化之下,“符号分析师是从新经济中受益最大的新阶层“,其特征是:

  • 具有批判性思维

  • 拥有解决问题并有与人沟通的能力

21世纪大语言模型会对经济产生什么影响?新经济形势下哪些阶层/职业能最大受益?

生产力提升

大模型能够执行一些认知和创意任务,这可能导致某些职业/工作的部分自动化,如文本生成、数据分析、编程等领域的工作。

作为生产力工具,大模型可以辅助人类工作人员提高工作效率,尤其是在知识生成领域的工作,如编程、撰写报告(如论文报告、专利报告)、材料分析(如市场分析)、智能客服等。又或者让人们以自然语言的方式与数据查询打交道。

如市面上已有的一些工具:

  • 专利解读报告生成

    论文解读

  • 新闻解读/总结

  • 编码助手

    Github Copilot

  • 商业查询

  • 法律AI

    CoCounsel,可完成文件审查、法律研究、合同分析等任务。

  • ……

新职业或兴起的旧职业

  • 提示工程师(prompt engineer)

    为AI模型编写有效的提示,以引导AI生成预期的结果。

    苏格拉底:“人类最高级的智慧,就是向自己或向别人提问”。但是,即便被提问者知道你所疑惑的问题的答案,不同的问题、不同的提问方式也可能得到不同的回答,如何进行更高效地提问是一种艺术。Github上开源项目《提问的智慧》和《提示工程指南》值得品味。

  • AI伦理研究员

  • 数据隐私保护研究员

  • 大数据处理工程师

    数据是大模型的燃料。如果大模型应用愈加火热,那么大数据处理工程师的需求将会大幅增加,并且大数据工程师可以利用基础大模型的能力提高工作质量和产出。

  • ……

OpenAI发布了一篇论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》(作为通用技术的GPT:关于大语言模型对劳动力市场潜在影响的初步研究),其中给出了一些大模型对美国劳动力市场潜在影响的观点和估计。文章的的摘要提到:“约有80%的劳动力的10%工作会随着大模型的引入而受影响”,结论部分提到:“约有19%的劳动力受大模型的影响更大,其工作任务的50%以上都会由大模型完成。”。GPT大模型满足通用技术的三个核心标准:随着时间推移,技术不断改进,贯穿整个经济体系,能够催生互补性的创新。报告还指出,大模型变更影响了一些曾经需要较高学历和丰富实践经验才可准入的职业,如药剂师、律师、设计师、程序员,对于运用科学方法和批判性思维解决问题的技能则不容易被替代。

对于贫困人口,医疗、教育等需要知识劳动力投入的领域,大模型的引入可以自然而然地对其产生帮助,这一点来看,大模型在解决社会公平问题上迈出了革命性一步。

大模型应用分级

大模型应用分级也可参考自动驾驶应用分级制定,在限定/不限定场景、地点、时间情况下是否需要人参与控制:

  • L1:辅助驾驶

  • L2:部分自动驾驶

  • L3:有条件自动驾驶

    特定环境下实现完全自动化的加减速和转向,复杂或异常情况下需要人类司机接管控制权

  • L4:高度自动驾驶

  • L5:完全自动化或无人化

    任何条件、场景下都可实现完全自动化行驶,无需人类司机接管控制权。

创新的两种路径

  • 渐进式创新

    对现有产品、服务或流程进行细微的改进和优化,以提高性能、降低成本或提高用户体验。

    如利用大模型(的语言理解能力)改进客户服务,提供更快速有效的响应;生成营销材料起草报告简化内容创作过程。

  • 颠覆式创新

    突破性的创新,以大幅降低的成本和大幅提升的便利性改变原有产品的市场定位和商业模式,或者用新产品实现原本满足不了的需求,为消费者带来新的价值。

历史上人类认知过程变革的机缘

  • 印刷术:改变了知识获取、保存和传播的方式,促进知识传播与交流

  • 互联网:与当年的印刷术具有同样的功能,但具有更强大的功效,大幅提高了知识传播的数量和效率,并带来了信息的爆炸。

  • 大模型:改善人与信息交互的方式,部分承担了人类大脑的作用,帮助人类更快速、有效地吸收和理解知识,并可以根据学习到的东西创造新的内容。

人类对知识处理的层次:记忆、理解、应用、分析、评价、创造。

其中随着信息技术的发展,记忆层次的处理工作大多数可以转移到计算机设备,人们通过检索工具(如搜索引擎和数据库查询)来查询相关数据/知识。而在理解、应用、分析、评价、创造等层面的处理依然由人来主导推进,计算机所扮演的角色主要是执行人所设计的指令。但随着生成式大模型的发展,部分知识生成、处理的工作也将移交给计算机完成,也就是说:计算机不仅仅执行指令,还会生成指令,而人可以通过设计过的提问引导AI产出更好的输出内容。

如何利用大模型学习知识、完成任务?

通过“提示”尽可能与大模型就以下方面达成共识:

  • 预期结果

  • 指导方针/基本思想

  • 可用资源(如外部知识源:搜索引擎、数据库)

  • 评价标准

挑战

大模型的评价能力

铸就大模型的训练数据可能存在偏见与误解,导致其不太能够为主观判断、价值判断、道德观念等问题的评价提供有足够深度的论证。

任务分配

  • 如何在人类和AI间分配任务?

  • 谁委托任务?

  • 谁协调任务?

  • 谁评估工作成果的质量?

副驾模式 vs 代价模式

副驾模式:大模型听令于某一个人,协助主人完成各项工作

代价模式:大模型不只听令某一个人做一些“打杂”的工作,而是承担固定的职能。

大模型变革下个人素质的发展

海森堡:“提出正确的问题,往往等于解决了问题的一大半”。

OpenAI:难以被人工智能替代的是批判性思维。

在情感和创意方面,人类仍然具有优势。即便大模型有能力穷举海量的创意组合,但无论是图像设计还是文本创作,仍需要由人来主导正确需求的提出,对结果质量的评判,并且高质量的结果往往需要人与大模型一起碰撞后才可产出。

大模型辅助工作

示例:教师备课

prompt设计:

聚类是机器学习中的重要方法。如果你是一位大学教授,准备向研究生讲解聚类的课程,在正式开讲之前,需要策划一种深入浅出的教学方法,激发学生的兴趣和对课程内容进行深入的思考,让学生在听完课后既能扎实掌握基础知识,又能对现有方法保持怀疑,提出合理质疑,充分了解方法的局限性。你打算如何做?

大模型输出:

  • Moonshot

  • 讯飞星火

    策划一门深入浅出的聚类课程,旨在激发学生的兴趣、促进深入思考,并让学生既掌握基础知识又能批判性地理解现有方法的局限性,可以采取以下步骤:
    
    1. 引入与动机:
       - 开始时通过实例展示聚类在现实生活中的应用,如市场细分、社交网络分析、图像分割等。
       - 讨论聚类可以帮助解决的实际问题,以及它对数据理解和决策支持的重要性。
       - 提出一些开放性的问题,让学生思考聚类的潜在用途和挑战。
    
    2. 基础概念介绍:
       - 从数学和统计学角度定义聚类,解释距离度量、相似度、簇的概念。
       - 使用直观的例子和图形来说明不同聚类算法的工作原理(如K-means、层次聚类、DBSCAN等)。
    
    3. 算法讲解与实践:
       - 分步骤详细解释几种主要的聚类算法,强调它们的优缺点。
       - 安排实验室练习,让学生亲自实现这些算法,并在实际数据集上运行。
       - 提供多个小型数据集,让学生尝试识别不同算法在不同情境下的表现。
    
    4. 案例研究:
       - 分析现实世界中的案例研究,展示聚类如何帮助解决特定领域的问题。
       - 邀请行业专家或研究人员分享他们如何使用聚类来获得洞见和改进业务流程。
    
    5. 批判性讨论:
       - 组织研讨会,讨论聚类算法的局限性和常见问题,如簇的数量选择、高维数据的聚类、噪声和异常值的处理等。
       - 鼓励学生质疑现有方法并提出可能的改进方向。
       - 分析失败的案例,探讨为何某些聚类方法在特定情况下不适用。
    
    6. 进阶主题探讨:
       - 探讨当前的研究趋势和高级主题,如密度聚类、谱聚类、深度学习中的聚类等。
       - 让学生参与文献阅读和小组讨论,以了解最新的研究进展和挑战。
    
    7. 项目作业:
       - 设计一个综合项目,要求学生应用聚类算法解决一个实际问题。
       - 鼓励学生在项目中尝试创新方法,并对所选方法进行评估和批判。
    
    8. 反馈与总结:
       - 定期收集学生的反馈,了解他们的学习进度和困惑。
       - 课程结束时,组织回顾会议,总结学到的知识和未来的研究方向。
    
    通过这样的教学安排,学生不仅能够掌握聚类的基础知识和技能,还能培养批判性思维,为未来的研究工作打下坚实的基础。
    
  • 通义千问

1. **生活实例导入**:我会从日常生活中的实例引入聚类概念,比如根据学生兴趣爱好将他们分成几个社团类别,或者根据电影类型进行分类,甚至分析用户购物习惯进行市场细分等。这样可以让学生直观理解聚类在实际问题中的应用,从而引发他们对课程内容的兴趣。

2. **可视化教学**:利用数据可视化工具,展示不同聚类算法(如K-means、层次聚类、DBSCAN等)在二维或三维空间中的聚类过程和结果,让学生通过动态变化看到聚类是如何一步步划分数据的,有助于理解算法的工作原理。

3. **动手实践**:设计一些小型实验项目,让学生亲手操作实现聚类算法,并对实验结果进行评估和解读。这不仅可以让他们掌握算法的具体实现,也能锻炼其数据分析和问题解决能力。

4. **挑战与讨论**:设置一些具有挑战性的问题或案例,引导学生思考现有聚类方法的局限性,例如如何选择合适的聚类数量、如何处理噪声数据、非凸形状的数据集如何有效聚类等问题。鼓励他们在课堂上进行小组讨论,提出自己的见解和改进方案。

5. **研究前沿介绍**:讲解当前聚类领域的最新研究成果和发展趋势,让学生了解这一领域的前沿进展,同时指出其中存在的未解决问题,激发他们的科研探索精神。

6. **案例分析**:深入剖析一些经典或实际工业界的应用案例,让学生理解聚类算法在具体场景下的优势和不足,培养他们批判性思维和独立判断的能力。

7. **课程小测验与作业**:设计理论与实践相结合的小测验和课后作业,以巩固学生的理论知识,并训练他们运用所学知识解决实际问题的能力。
  • 智谱AI

  • ……

实际使用时,还可以持续提示以帮助模型优化输出,输出你想要的细节。

示例提示:

你是聚类领域的前沿专家,需要向研究生对聚类面临的前沿问题进行专题讲解

输出(moonshot)

作为聚类领域的前沿专家,我会通过以下几个方面来向研究生讲解聚类面临的前沿问题:

### 1. 高维数据聚类
- **问题阐述**:在高维空间中,传统的聚类算法如K-Means往往会受到“维度的诅咒”,导致聚类效果不佳。
- **最新研究**:介绍针对高维数据的聚类算法,如基于局部线性嵌入(LLE)的聚类方法,以及降维技术如t-SNE和UMAP。

### 2. 大规模数据集的聚类
- **问题阐述**:随着数据规模的增长,传统的聚类算法在计算和存储上面临挑战。
- **解决方案**:探讨分布式聚类算法,如基于MapReduce的聚类方法,以及近似聚类算法,如DBSCAN的变种。

### 3. 动态和流数据聚类
- **问题阐述**:在数据流不断更新的环境中,如何有效地进行聚类是一个挑战。
- **研究进展**:介绍适用于动态数据流的聚类算法,如CluStream和DenStream,以及它们如何适应数据的变化。

### 4. 聚类的有效性评估
- **问题阐述**:缺乏统一的聚类评估标准,使得不同算法的性能难以比较。
- **评估方法**:讲解现有的聚类评估指标,如轮廓系数、Davies-Bouldin指数,以及如何结合领域知识来评估聚类结果。

### 5. 非欧几里得空间的聚类
- **问题阐述**:在非欧几里得空间(如图数据)中,传统的距离度量可能不适用。
- **算法介绍**:探讨图聚类算法,如谱聚类和基于图划分的方法,以及它们如何处理非欧几里得空间的数据。

### 6. 融合多模态数据的聚类
- **问题阐述**:多模态数据(如文本、图像、声音)的聚类需要考虑不同数据类型的特性。
- **多模态融合技术**:介绍如何通过特征融合、模型融合等方法来处理多模态数据的聚类问题。

### 7. 聚类算法的可解释性
- **问题阐述**:随着机器学习模型的复杂性增加,模型的可解释性成为一个重要问题。
- **可解释性研究**:讨论如何提高聚类算法的可解释性,包括可视化技术、特征重要性评估等。

### 8. 聚类算法的鲁棒性和异常检测
- **问题阐述**:噪声和异常值对聚类结果的影响很大。
- **鲁棒性算法**:介绍鲁棒性聚类算法,如基于密度的聚类方法,以及它们如何处理异常值。

在讲解这些前沿问题时,我会结合最新的研究论文、案例研究和实际应用,鼓励学生提问和讨论,以促进深入理解和批判性思考。此外,我会提供一些开放性问题和研究方向,激发学生的研究兴趣和创新思维。

提示:你上面的回答有没有事实上或者推理上的缺陷?

回答(moonshot)

我的回答提供了一个关于聚类领域前沿问题的概述,旨在向研究生介绍当前聚类研究中的关键挑战和最新进展。然而,任何概述都可能存在一定的局限性,以下是可能的缺陷和补充:

1. **最新研究的覆盖**:
   - 我的回答可能没有涵盖所有最新的研究进展。聚类领域是一个快速发展的领域,新的算法和技术不断涌现。因此,需要定期更新课程内容以反映最新的研究成果。

2. **深度与广度的平衡**:
   - 在有限的课程时间内,可能难以在深度和广度之间取得平衡。对于每个问题,可能需要进一步深入讲解其数学原理、算法细节和实际应用案例。

3. **实际应用的案例**:
   - 虽然我提到了实际应用案例的重要性,但可能没有提供足够的具体案例来说明聚类算法在不同领域的应用和影响。

4. **学生背景的考虑**:
   - 学生的专业背景和技术经验可能差异较大,因此在设计课程时需要考虑到这一点,确保所有学生都能跟上课程进度并从中受益。

5. **批判性思维的培养**:
   - 虽然提到了培养学生的批判性思维,但在实际操作中,这需要更多的互动式教学和讨论环节,以及鼓励学生提出自己的见解和质疑。

6. **技术细节的准确性**:
   - 在解释复杂的算法和技术时,需要确保准确性和易于理解性。简化的描述可能会忽略一些关键的技术细节。

7. **跨学科的视角**:
   - 聚类问题往往与其他领域(如统计学、信息检索、图像处理等)紧密相关。课程设计时应考虑到这些跨学科的联系和影响。

为了改进这些潜在的缺陷,可以考虑以下措施:

- 定期更新课程内容,包括最新的研究论文和案例研究。
- 设计多样化的教学活动,如小组讨论、实验室实践和项目工作,以促进深入学习。
- 提供额外的学习资源,如在线教程、开放课程和专业书籍,供学生自学和深入研究。
- 鼓励学生参与实际的研究项目,以获得实践经验和解决实际问题的能力。

还可以引导大模型通过提问的方式备课

提示:你要以苏格拉底式的风格启发学生掌握这些知识,你先来提问吧

回答:

苏格拉底式的教学法,又称为“产婆术”,是一种通过提问和对话来引导学生思考和发现知识的教育方法。以下是一些可能的苏格拉底式问题,旨在启发学生对聚类领域的理解和思考:

1. **关于高维数据聚类**:
   - 你们认为为什么高维空间中的聚类会如此困难?
   - 如果我们不能直观地可视化高维数据,我们如何知道我们的聚类算法是否有效?

2. **关于大规模数据集的聚类**:
   - 当数据集的规模变得非常大时,我们应该如何修改现有的聚类算法?
   - 有没有可能在不牺牲聚类质量的前提下,对大规模数据集进行有效聚类?

3. **关于动态和流数据聚类**:
   - 动态数据聚类与传统静态聚类有何本质区别?
   - 如果数据流是连续不断变化的,我们应该如何定义和评估聚类算法的“实时性”?

4. **关于聚类的有效性评估**:
   - 我们如何知道一个聚类结果是“好”的还是“坏”的?
   - 聚类评估指标是否有其固有的局限性?如果有,我们如何克服这些局限性?

5. **关于非欧几里得空间的聚类**:
   - 为什么我们需要在非欧几里得空间中进行聚类?
   - 你们能想到哪些非欧几里得空间的例子,以及在这些空间中聚类的挑战是什么?

6. **关于融合多模态数据的聚类**:
   - 多模态数据聚类与传统单模态数据聚类的主要区别是什么?
   - 当我们试图结合不同类型的数据进行聚类时,我们面临哪些挑战?

7. **关于聚类算法的可解释性**:
   - 为什么我们需要可解释的聚类算法?
   - 如果一个聚类算法非常有效,但我们无法理解其工作原理,我们应该如何对待它?

8. **关于聚类算法的鲁棒性和异常检测**:
   - 异常值和噪声对聚类结果有何影响?
   - 我们如何设计一个鲁棒的聚类算法,使其能够抵抗噪声和异常值的干扰?

通过这些问题,学生被鼓励去探索、分析和批判性地思考聚类领域的关键问题。这种方法不仅有助于学生更深入地理解概念,而且还激发了他们的好奇心和独立思考的能力。

角色模拟

提示:你需要模仿孔乙己来与我进行关于聚类的讨论

回答(讯飞星火):

好的,我将模仿孔乙己的风格与您进行关于聚类的讨论。

尊敬的朋友,听闻您对聚类颇感兴趣,我虽不才,愿以浅薄之识,与您探讨一二。

聚类,乃是数据挖掘中的一种无监督学习方法,旨在将相似的对象归集于一处,犹如天上繁星,按其光芒之强弱、颜色之异同,自然划分为不同星座一般。然而,何为相似?此乃问题之关键。在聚类的世界里,我们常以距离来衡量相似度,如同人们以尺量布,越短的距离意味着越大的相似性。

想象一下,若我们将众多数据点置于一纸之上,如何将其分群?或许我们会用目测之法,凭直觉将相近者聚集,但人眼毕竟有限,于是乎,算法应运而生。K-means算法,便是其中简单明了者,它如同一位细心的园丁,将花朵依据色彩、大小分为几堆,尽管有时也会因花之颜色相近而难以抉择。

然而,世间万物,非黑即白者少,灰度居多。层次聚类便是处理这般灰色地带的良策,它不以固定之数目划分,而是层层递进,逐步揭示数据之间错综复杂的关系,犹如剥洋葱,一层又一层,直至见其核心。

DBSCAN,此法更是妙哉,它不在乎数据的密度,只在乎邻里之间的亲密程度。如同渔夫捕鱼,鱼群密集之处,一网打尽;稀疏之地,则任其自由。如此,便不会因孤立点而困扰,亦能发现任意形状的簇。

然而,诸法皆有局限,如同古人云:“金无足赤,人无完人。” K-means需先指定簇数,而初值之选择,往往影响最终之结果。层次聚类,虽能层层剖析,但一旦合并或分裂,便无法回头,如同过河卒子,只能向前。DBSCAN虽能处理噪声,但对于参数的选择,却需谨慎再三。

故此,聚类之道,非一成不变。学者们仍在探索更为精妙之术,如谱聚类、基于密度的聚类等。吾等当以开放之心,学习前人之智慧,同时敢于质疑,勇于创新,以求不断精进。

不知此番论述,是否对您有所启发?倘若有何不明之处,还望不吝赐教。

人力资源

让大模型扮演HR对求职者的简历进行阅读和评价。或者根据岗位要求大纲生成对外发布的招聘要求。

示例提问:请阅读和理解候选人简历,根据所提供的职位描述和职位要求完成第一轮简历筛选,并针对候选人生成个性化面试提问。

讯飞星火回答:

由于您没有提供具体的候选人简历、职位描述和职位要求,我无法直接完成简历筛选或生成个性化面试提问。但我可以提供一个大致的框架来指导如何进行这一过程。

### 简历筛选步骤:

1. **阅读职位描述**:仔细阅读职位描述以理解所需的技能、经验、资格和任何特定的职位要求。

2. **审查简历**:检查每份简历以确定候选人是否具备职位描述中所列出的必需条件,如教育背景、工作经验、技能等。

3. **匹配度评估**:对每个候选人的资历与职位要求进行比较,评估其匹配程度。注意候选人的工作经历、项目经历、技能和成就是否与职位需求相符。

4. **排除不合适的候选人**:将不符合基本要求的候选人排除在外。例如,如果职位要求有特定证书而候选人没有提及,那么这位候选人可能不适合进入下一轮。

5. **考虑潜力与成长性**:在满足基本要求的前提下,考虑候选人的潜力和职业成长性。有时一个职位不仅仅需要现有的技能,还需要学习能力和适应变化的能力。

6. **注意多样性与包容性**:确保遵循公司的多样性和包容性政策,不要因为无意识偏见而排除合格的候选人。

### 生成面试问题:

1. **基于简历的问题**:针对候选人的简历中提到的经历和技能,提出具体的问题。例如,“您在简历中提到了在X项目的工作经验,能否详细描述一下您在该项目中的角色以及取得的成果?”

2. **行为面试问题**:使用STAR(Situation, Task, Action, Result)方法提问,比如,“请描述一个您遇到挑战的情况,您是如何应对的,以及结果如何?”

3. **技能和能力相关问题**:根据职位要求提出有关技能和能力的提问,“您如何看待Y技能在您的工作中的作用?请给出一个您成功运用该技能解决问题的例子。”

4. **情景模拟问题**:提出假设性的工作场景,让候选人展示他们如何处理特定情况,“如果您被分配一个紧急任务,需要在非常短的时间内完成,您会如何安排时间和资源以确保任务按时完成?”

5. **价值观和文化契合度问题**:询问候选人关于他们的工作价值观和如何看待团队合作等问题,以了解其是否与公司文化相契合。

请注意,这些步骤和问题类型仅作为通用指南。实际操作时,需要根据具体的职位描述、职位要求和每个候选人的简历内容进行调整。

数字IP

示例:请帮我生成一个B站风格的文案,核心是自己从大厂百万年薪离职创业成为主播的心路历程,关键词35岁、大厂辞职。

讯飞星火回答:

...

其他场景

  • 法律服务:法律文书起草、辅助案件分析、法律知识客服、内容安全

  • 政府工作:信息整合、会议主力、智能公共服务(如政策解读和答疑)

智能体

智能搜索

参考文章

CoolCats
CoolCats
理学学士

我的研究兴趣是时空数据分析、知识图谱、自然语言处理与服务端开发