平时小作业¶
这里放的都是相对来说写得比较好的人
作业1¶
作业1题目¶
在什么情况下你愿意用隐私换取便利?请简单阐述你对“用隐私换取便利”的看法(200字以内)。
作业1-作者1¶
面对服务提供者对我的数据的请求,我在以下的情况下会愿意用隐私换取便利:
- 我对提供数据后取得的服务便利有明确的预期;
- 数据收集者明确我的数据之使用目的和用途;
- 明确数据的所有权和使用权,强调各方的权利与义务。保证在我的数据使用过程不做其他用途,承诺我所提交的数据有所保护,并对数据不规范使用情形有较为清晰的方案;
- 保留我终止数据收集者所有权的权利,我有权删除提交的个人数据。
我对“用隐私换取便利”的看法:
从整体上来说,数据时代的驱动力是庞大的数据,没有源源不断的数据流涌入,技术的发展也会受到制约。科技的发展带给我们每一个人切实感受到的便利,但是在数据利用的过程中出现了关于隐私的矛盾。从局部来讲,以国家层面的法律法规为框架,服务提供者应该明确自身的责任,而用户们在明确自身权利之后要谨慎地选择是否交出自己的隐私。“用隐私换取便利”有一些结果论了,百度CEO也不应该强调“中国人对隐私问题的态度更加开放”,关键的问题还在于既使用隐私换取便利又保障了每一个人的隐私权。如果从隐私到便利这两端之间的细节做好,想必我们的社会能更安全、更持久地利用数据,造福百姓。
作业1-作者2¶
当今信息化时代,隐私和便利之间的权衡是一个普遍存在的情况。比如说在使用导航时,分享实时位置数据可以获取最优路线推荐,但是我也担心导航软件偷偷存储轨迹信息侵犯隐私。
在提供数据后有服务质量提升的前提下,如果数据收集者明确我的数据使用目的、用途、所有权和使用权,强调各方权利与义务,并且保留我终止数据收集者所有权的权利(我有权删除提交的个人数据),那么我会愿意用隐私换取便利。
从整体上来说,数据时代的驱动力是庞大的数据,没有源源不断的数据流涌入,技术的发展也会受到制约。如果OpenAI没有海量预训练的数据支撑,也不可能掀起当今生成式人工智能的浪潮。科技的发展带给我们每一个人切实感受到的便利,但是在数据利用的过程中出现了关于隐私的矛盾。''用隐私换取便利''未免有些过于结果论了,如果在透明、可控和互惠的基础上将这两端之间的细节做好,想必我们的社会能更安全、更有序地利用数据。从局部来说,高效且安全的数字生态需要政府、企业和用户的共同努力。国家层面的法律法规是框架,《个人信息保护法》等法律法规已经制订并正在完善;服务提供者应该明确数据的利用应真正为用户创造价值,而不是单方面为企业谋取利益,也应通过数据脱敏、加密存储等技术手段最大限度地保护用户隐私;而用户们应清楚知道哪些数据被收集、用于何种目的以及可能带来的风险,在明确自身权利之后要谨慎地选择是否交出自己的隐私。
作业1-作者3¶
我认为,“用隐私换取便利”可行,但不能让隐私被强制或隐式征用,即应当给用户选择的权利:例如登录账号时我会使用手机验证码而非账号密码。数据如今是强力的“新能源”,越是隐私,蕴含的“信息熵”就越大。如果企业在用户同意的情况下获得这种资源,并合理运用反哺用户体验,我认为无伤大雅。但是企业也应尊重用户的知情权,尤其是应“显式”告知用户数据的用处和去路,而非在冗长的用户协议里躲躲藏藏,加深用户和企业的信任危机。
作业1-作者4¶
在当今数字化时代,隐私与便利之间的权衡已成为一个普遍存在的现象。在某些特定场景下,我可能会愿意用隐私换取便利。在使用导航的时候,我愿意分享实时位置数据以获取最优路线推荐;在使用电商平台时,我允许其分析我的购物记录,以便获得更精准的商品推荐;在健康管理方面,我喜欢使用可穿戴设备记录我的人体数据,以换取个性化的健康建议和疾病预警服务。这些场景中,数据的共享确实带来了显著的效率提升和生活便利,而我也能够清晰地感知到数据使用带来的直接收益。
然而,这种交换并非没有边界。李彦宏提到的“用户受益”和“用户意愿”是其中的关键原则。我认为,隐私与便利的平衡应建立在透明、可控和互惠的基础上。首先,数据的收集和使用必须透明,用户应清楚地知道哪些数据被收集、用于何种目的以及可能带来的风险。其次,用户应拥有对数据的控制权,能够随时调整或撤销授权。最后,数据的利用应真正为用户创造价值,而不是单方面为企业谋取利益。对企业来说,在利用用户数据优化服务的同时,也应通过数据脱敏、加密存储等技术手段最大限度地保护用户隐私,甚至在可能的情况下,将数据产生的部分价值回馈给用户。
在我看来,隐私与便利并非不可调和的矛盾,而是需要在技术进步、法律规范和社会共识的共同作用下找到平衡点。随着《个人信息保护法》等法律法规的完善,以及联邦学习、差分隐私等技术的发展,我们有望在享受数字化便利的同时,更好地保护个人隐私。这一过程需要企业、用户和监管机构的共同努力,构建一个既高效又安全的数字生态。
作业1-作者5¶
我希望在最大化全人类福祉的前提下,用隐私换取便利。
以前段时间发行ChatGPT的OpenAI为例,它最初创立时一家非盈利公司,目标是"以最有可能惠及全人类的方式推进数字智能”,但自从与微软深度合作以后,在得到十亿美元的投资,并训练出表现前所未有的模型的同时,逐渐由OpenAI转变为"CloseAI"。表现为:
- GPT1源码全公开,到GPT2源码分阶段公开,最后GPT3仅开放API接口;
- ChatGPT, Copilot等正逐步集成进微软的付费服务项目;
这一强大智能体正被少数人独占并牟利,进而加剧贫富差异和社会动荡,最终将酿成灾难性后果。
作业2¶
作业2题目¶
题目:在使用互联网应用时,用户的行为数据被互联网平台记录下来。通过分析数据,平台可以为用户提供更好的服务,比如个性化的商品推荐和新闻推送。同时,平台利用数据增强自身的竞争力和盈利能力。这似乎是一个双赢的模式。
然而,大家并没有对数据的归属权达成一致。用户倾向于认为行为数据属于他们自己,因为这是他们的隐私信息。平台方则认为用户行为数据属于企业,因为这些数据是企业通过投入资金和人力收集的,而用户并没有为此付出什么。
你认为数据应该属于谁?请谈谈看法(200字以内)。
作业2-作者1¶
在我看来,这里的“数据”界定并不明确,严格意义上来说“数据”应该为用户和平台方共同所有。从狭义上来说,用户理应对自己的行为数据拥有绝对的控制权,选择是否共享、如何共享、共享给谁。这里的“数据”属于个人隐私的范畴,不会因为企业投入成本去收集而成为企业的资产。然而从广义上来说,数据是新的生产要素,各个平台在用户知情同意的前提下,为了更有效地利用数据,往往对来自用户的原始数据进行了深度的开发和利用。经由过滤和整合,平台获得了更优化的模型,这是独属于企业的生产资料的。比如淘宝诉讼美景不正当竞争案中,数据内容虽然来源于原始用户信息,但经过淘宝公司的后期开发已不同于普通的网络数据。淘宝公司收集并利用数据的流程是在与用户的协议范围之中的,“生意参谋”及其开发数据当然是为公司所有的,不过驱动其运转的原始用户数据还是属于用户所有权的范畴。
数据归属权的问题是复杂的,往往会因为所有权的不明确引发用户和平台之间的纠纷。构建一套完善的机制既保障用户的隐私和权益,又允许各平台在合法合规的前提下利用数据创造价值,这需要我们的共同努力!
作业2-作者2¶
数据归属权是互联网时代一个极具争议的议题,涉及用户、平台和社会多方的利益平衡。从用户的角度来看,数据源于他们自己,理应拥有对数据的基本控制权。如果数据完全归属于平台,用户失去对自身信息的掌控,加大了数据滥用的风险;而从平台的角度来看,用户数据的价值并非天然存在,而是通过平台的技术投入得以实现的。如果数据完全交给用户,平台缺乏持续投入的动力,服务的质量也难以保证。在我看来,''数据''不能简单地将其归属于某一方,严格意义上来说应该为用户和平台方共同所有。
狭义来讲,用户理应对自己的行为数据拥有绝对的控制权,选择是否共享、如何共享、共享给谁。这里的''数据''属于个人隐私的范畴,不会因为企业投入成本去收集而成为企业的资产。
然而从广义上来说,数据是新的生产要素,各个平台在用户知情同意的前提下,为了更有效地利用数据,往往对来自用户的原始数据进行了深度的开发和利用。经由过滤和整合,平台获得了更优化的模型,这是独属于企业的生产资料的。比如淘宝诉讼美景不正当竞争案中,数据内容虽然来源于原始用户信息,但经过淘宝公司的后期开发已不同于普通的网络数据。淘宝公司收集并利用数据的流程是在与用户的协议范围之中的,''生意参谋''及其开发数据当然是为公司所有的。
数据的使用主体可以是个人,市场和国家,为了解决这样的配置方式在实际中会出现的矛盾,我们可以把这种''共同拥有''的情景量化,明确各方对同一份数据的数据权比例。主流观点认为:"谁把数据整理规格化,使之价值放大,谁的比例就更大"。这种标准的合理性来源于数据作为生产要素的特殊性,即数据本身是"符号+信息",而我们最终利用的是其中的信息。显然,谁在"信息"中加入了更多价值,谁就能获得更多的权利份额。
数据归属权的问题是复杂的,往往会因为所有权的不明确引发用户和平台之间的纠纷。社会应当构建一套完善的机制既保障用户的隐私和权益,又允许各平台在合法合规的前提下利用数据创造价值。
作业2-作者3¶
数据作为新时代的生产要素,实际上具有二重性,即数据权的“所有权”和“使用权”是分离的,想要直接一以概之地解释“数据该属于谁”较为困难。因此,我们可以从数据的使用主体来讨论数据的归属。
使用主体可以划分为个人,市场和国家。首先,个人作为数据的生产方,对个人数据依法享有数据权;其次,公共数据属于新型国有资产,其数据权归国家所有;最后,要素市场主体也有数据权。这样的配置方式事实上会存在重合,因此,为了解决这个问题,我们必须把这种“共同拥有”的情景量化,即各方对同一份数据获得不同比例的数据权。而这种量化的标准,则亟待商榷——一种主流观点是“谁把数据整理规格化,使之价值放大,谁的比例就更大”。这种标准的合理性来源于数据作为生产要素的特殊性,即数据本身是“符号+信息”,而我们最终利用的是其中的信息,自然,谁在“信息”中加入了更多的劳动价值和价值,谁就能获得更多的权利份额。
总而言之,数据“应该属于谁”的问题需要我们首先判定使用主体,再在具体情景中根据应用、影响、价值等层次划分占有份额,从而确认数据的归属。
作业2-作者4¶
数据归属权的问题是互联网时代一个极具争议的议题,涉及用户、平台和社会多方的利益平衡。在我看来,用户行为数据既包含用户的个人隐私信息,也依赖于平台的技术投入和数据处理能力,不能简单地将其归属于某一方,而应该通过合理的制度设计实现多方利益的协调。
从用户的角度来看,行为数据源于用户的个人活动,反映了他们的偏好、习惯。用户作为数据的产生者,理应拥有对数据的基本控制权,包括知情权、访问权、删除权等权利。比如,用户应有权知晓哪些数据被收集、如何使用,并能够决定是否允许平台继续使用这些数据。这种控制权所关乎的,不仅是隐私保护的核心,也是用户自主性的体现。如果数据完全归属于平台,用户失去对自身信息的掌控,可能加大数据滥用甚至隐私泄露的风险。
然而从平台的角度来看,用户行为数据的价值并非天然存在,而是通过平台的技术投入和数据处理能力得以实现的。平台投入了大量资源构建数据采集、存储和分析的基础设施,并通过算法和模型将原始数据转化为有价值的信息。电商平台就通过分析用户行为数据,能够提供个性化推荐,提升用户体验。如果数据完全归属于用户,平台可能缺乏持续投入的动力,这将会影响服务的质量。
数据归属权的问题从来都不应该是一个非此即彼的选择,而应通过制度设计实现用户与平台的利益共享。我们可以建立“数据共同所有权”的模式,在保障用户基本权利的前提下,允许平台在合法合规的范围内使用数据,并将部分数据收益回馈给用户。在这过程中,政府和社会应发挥监管和协调作用,制定明确的数据使用规则,确保数据的利用既促进经济发展,又保护用户权益。只有这样,才能在数字化时代实现真正的共赢。
作业2-作者5¶
- 从数据产生的来源而言,用户通过行为生成个体浏览记录/社交关系等数据,平台方通过收集获得流量/交易等数据,由于统计规律的存在,后者不因为单条用户记录的减少而收到影响,因此应当归属平台方。
- 从数据产生的行为而言,数据由用户和平台交互产生,并通常由平台记录并通过算法提取规律,因此数据相当于用户和平台的共同财产,任何人或组织想要使用时,需要同时得到双方的许可,平台应当在得到用户允许之后使用这些数据。
作业3¶
作业3题目¶
调查发现东岛人(杜撰的民族或地区)的犯罪率较高。有可靠数据表明,本地普通人的犯罪率只有10万分之三,而东岛人的犯罪率接近万分之三(东岛人人口占本地总人口的5%),高出普通人近十倍。某火车站出于安全考虑,实施了行李筛查计划,通过大数据算法筛选可疑乘客,对其行李进行开箱检查。(由于资源有限,无法对所有行李实施开箱检查。)算法将“是否为东岛人”作为一个重要依据。行李筛查计划实施了半年,火车站缴获了大量的刀具和自制武器,治安情况得到了确定的改善。就筛查结果看,缴获的刀具和自制武器中的50%都是东岛人携带的。然而,一个月以前,一位律师向法院提起诉讼,告火车站的行李筛查流程对东岛人构成歧视。
火车站的行李筛查流程合适吗?请阐述你对这件事的看法(200字以内)。
作业3-作者1¶
在我看来,火车站的行李筛查流程是不合适的,这是明显的算法歧视。首先,东岛人犯罪率较高这是一个统计学规律,而不是一个存在可证明的因果关系之事实。既然得到结论的过程就是不科学的,那么以此为依据的实践难道不充满了不合理性?其次,从伦理角度来讲,禁止使用各种属性来区别对待人是我们社会的共识。根据“是否为东岛人”进行的行李筛查工作虽然在实际中高效地达到了缴获违禁品、提升治安水平之目的,但却是不被社会大众所认可的。受制于道德困境的简单化问题处理,潜在之中创造了对立与矛盾,带来了影响社会稳定与和谐的不公平因素,也必然招致越来越多的非议和问题。最后,有的理论家可能会说:“你看,全面随机的筛查效果就远远不如重点筛查东岛人,这不是更说明了东岛人应该被重点筛查吗?”,这个根据结果的判断涉及到了自我强化的悖论。从带有偏见的模型出发,产生了带偏见的选择,然后得到的数据便是有偏差的,这又强化了最初那个有偏见的模型。走出自我强化悖论,需要从最初就没有那个有偏见的模型。
总而言之,提倡公平、反对偏见是社会上的共识,杜绝算法歧视,需要的是我们不能简单地靠直觉进行分类,更不能因为效果的良好而陷入了无限的自我强化陷阱。
作业3-作者2¶
在我看来,火车站的行李筛查流程是不合适的,这是明显的算法歧视。
首先,东岛人犯罪率较高这是一个统计学规律,而不是一个存在可证明的因果关系之事实。统计过程存在着诸多问题,比如说东岛人仅占5%,意味着统计的样本量小,结论的有效性不足。而且相关不等于因果,即便东岛人与高犯罪率在相关上有统计意义,也未必存在因果关系。既然无法通过科学的过程得到结论,那么以此为依据的实践更是充满了不合理性。
其次,从伦理角度来讲,禁止使用各种属性来区别对待人是社会的共识。根据"是否为东岛人"进行的行李筛查工作虽然看似高效地达到了缴获违禁品、提升治安水平之目的,但侵犯了东岛人的平等权利,导致他们在日常生活中可能遭受不公正对待,甚至加剧社会对他们的偏见。这样的对问题简单粗暴处理,潜在之中创造了更多对立与矛盾,成为影响社会稳定的新因素,长期来看并不是一种被社会所接受的方案。
最后,根据结果的判断涉及到了自我强化的悖论。有人可能会说:"你看,全面随机的筛查效果就远远不如重点筛查东岛人,这不是更说明了东岛人应该被重点筛查吗?" 从带有偏见的模型出发,产生了带偏见的选择,然后得到的数据便是有偏差的,这又强化了最初那个有偏见的模型。走出自我强化悖论,需要从一开始就没有带偏见的认知。
总而言之,提倡公平、反对偏见是当代社会的主流理念,我们不能简单地利用所谓统计学规律进行算法歧视,更不能因为看起来的"效果良好"而沾沾自喜、陷入了无限的自我强化陷阱。
作业3-作者3¶
个人认为是不合适的。尽管从整体的社会治安角度来考虑,似乎确实通过数据统计发现东岛人犯罪率高,多检查他们的箱子有助于火车站整体安全,但是从这个现象证明做法的合理性存在漏洞。首先,多次检查东岛人的行李,可能导致他们的样本数据偏高,从而使得统计的数据产生偏差。其次,就算是统计方法正确,这部分安全也暗藏代价——例如,牺牲了东岛人的个人隐私权和集体社会地位。长此以往,社会的风气可能会被导向集体歧视,不利于国家(如果有的话)的社会稳定和民族团结。最后,将心比心,没有任何人希望仅仅因为出身就给他人留下不好的印象,或是被加以防备,因此,从人心的角度上说车站做法也并非上策。
实际上,数据本身确乎是客观的,但是我们不能只从数据的立场去思考问题和构建政策,因为还有太多涉及社会,人心等的因素。所以,在利用数据时,综合其他因素分析也是非常关键的一环。
作业3-作者4¶
从效率角度来看,筛查流程确实取得了显著的成果。数据显示,东岛人的犯罪率远高于本地普通人,而筛查结果也表明,缴获的违禁物品中有50%来自东岛人。这表明算法在资源有限的情况下,通过针对性筛查提高了安全检查的效率,有效降低了安全风险。从功利主义的角度来看,这种做法似乎是为了最大化整体社会的安全利益。
然而,从公平和伦理的角度来看,这种筛查流程存在明显的歧视问题。将“是否为东岛人”作为筛查的重要依据,实质上是对整个群体的标签化处理。即使东岛人的犯罪率较高,这种统计上的相关性并不能证明每个东岛人都有犯罪倾向。这种基于群体特征的筛查方式,侵犯了东岛人作为个体的平等权利,可能导致他们在日常生活中遭受不公正对待,甚至加剧社会对他们的偏见和排斥。这无疑会加剧社会分裂和民族矛盾。
此外,这种筛查流程还违反了相关法律中关于平等保护的原则。即使筛查的目的是为了公共安全,也不能以牺牲特定群体的权利为代价。法律的核心价值在于保护每个人的基本权利,而不是为了多数人的利益而牺牲少数人的权益。
因此在我看来,火车站的行李筛查流程虽然在短期内提高了治安效率,但其基于群体特征的歧视性做法在伦理、法律和社会影响方面存在严重问题。更合适的做法是采用更为中立和个体化的筛查标准,例如基于行为模式、历史记录等客观指标,而不是直接将民族或地区作为判断依据。只有在保障公平的前提下,才能真正实现社会的长治久安。
作业3-作者5¶
我认为不合适。
一方面,东岛人与高犯罪率地因果关系未必成立,还受以下因素影响: * 数据样本量:由于东岛人仅占5%,意味着他们的样本量更小,结论的有效性不够,极少数异常点足以显著改变小样本的统计结论; * 数据可靠性:数据收集过程中是否本身带有某种刻板印象,使得数据本身是有偏的; * 相关不等于因果:即便东岛人与高犯罪率在相关上有统计意义,也未必存在因果关系。
另一方面,这一刻板印象如果泛化到东岛人群体,那么意味着大多数(95%)的东岛人是无辜的。
作业4¶
作业4题目¶
某保险公司请人构建了一套驾驶事故率预测模型,根据个人画像(包括年龄、教育程度、工作职位、收入等)预测一个投保者在未来一年中发生驾驶事故的概率,并据此计算车险的保费。
第三方通过测试发现,这个模型对男性和女性有不同的预测准确率——模型对女性的预测误差高于男性。测试结果公布后,部分女性顾客发起维权,要求保险公司降低女性投保者的保费。但保险公司发现降低保费将对自身业务带来损害,而且自己已经使用了尽可能完善的数据和技术构建模型。
为了摆脱麻烦,保险公司对模型进行了修改,刻意调低了男性的预测准确率(模型的准确率可以调低但无法调高),让男性女性的误差相当。事情曝光后,男性顾客又发起维权,说保险公司不应该人为向数据中添加误差。
面对这个事件,请帮助保险公司构思一套你认为合理的应对策略。(200字以内)
作业4-作者1¶
在我来看,这个保险公司的困境在于维持并追求较大商业利益时陷入的算法不公平性问题争议。保险公司根据用户的个人画像建模而得出的事故预测模型从算法的意义上是没什么问题的,但是需要在生成这套模型之后加以一些改进,确保在性别这样的敏感属性上不存在歧视。在降低女性的保费之后,保险公司的商业利益受到了明显的损害,这并不符合初衷。在刻意调低了男性的预测准确率后,男性和女性的误差率看起来是相似了,但是这样做侵犯了男性顾客的权益,使他们不得不缴纳更多的保费。保险公司应该以公平为原则,在此基础上对模型进行适当的调整。打个比方,保险公司可以将保险服务划分为几个种类,对于选择不同类别服务的客户在相同的事故规模之下支付不同数额的保险金,而选择相同种类服务的客户初始时所缴纳的保费是一样的。相信保险公司能对于服务种类的划分、各种类保费以及事故的定性有一个成功的建模,这样它既保障了公平又维护了自身的利益,两全其美,何乐而不为呢?
作业4-作者2¶
该保险公司在维持并追求较大商业利益时,陷入了算法不公平性争议。保险公司根据个人画像而得出的事故预测模型从算法的意义上可能没什么问题,但是需要在生成这套模型后加以一些改进,确保在性别这样的敏感属性上不存在歧视。在降低女性保费之后保险公司的商业利益受到了损害,这并不符合初衷;在刻意调低男性的预测准确率后,男性和女性的误差率看起来是相似了,但是这样做侵犯了男性顾客的权益,使他们不得不缴纳更多的保费。
总而言之,保险公司构建的预测模型存在问题,应对舆论的做法也并不合理。比如说保险公司通过调高男性预测误差从而达到所谓"公平",这仅仅是把"程序公平"偷换为了"分配公平"的概念。只有模型训练的数据不包含偏见,才能认为男性和女性客户都采用一套模型来预测是"程序公平"的。然而,由于社会大环境就是对男性利好的,因此以个人画像(工作职位、收入等)为数据来源本身就对女性不公平。因为男女绝对平等在当今社会并未达到,所以我们很难去获得一个男女绝对平等的数据集,因此只能从"分配公平"角度来补偿女性——从结果入手,让女性客户对保险金的分配结果感到公平。
兼顾"程序公平"和"分配公平",保险公司有很多可选的做法,只有把客户体验放在第一位才能在长期获得更多商业利益。比如说保险公司可以适当降低女性的保费,并且着重完善模型的可解释性,让女性客户信服这样的分配结果是没有问题的。又比如,保险公司可以将保险服务划分为几个种类,对于选择不同类型服务的客户在相同的事故规模之下支付不同数额的保险金,而选择相同种类服务的客户初始时所缴纳的保费是一样的。对于公司的长期发展,应当健全反馈机制,利用客户的反馈结果持续对模型加以改进,增强模型的可靠性和保费定价的公平性。
作业4-作者3¶
显然,保险公司构建的这一套驾驶事故率预测模型存在问题。首先需要否定的是保险公司最初选择的做法,比如欲图通过调高男性预测误差从而达到所谓“公平”——事实上,这仅仅只是把“程序公平”偷换为了“分配公平”的概念,甚至调高误差率本身对男性而言算不算公平都有待商榷。
我们想要为保险公司提供一个更好的方案,那么就应该注重兼顾“程序公平”和“分配公平”。我们如果要认为男性女性都采用同一个模型预测数据是“程序公平”的,就要求训练模型的数据不含有偏见。然而,由于社会的大环境就是对男性利好的(我们不能为了政治正确否认这一点),因此,以个人画像(工作职位、收入等)为数据来源本身就对女性不公平。加上我们很难去获得一个男女绝对平等的数据(这样的社会当下也并不存在),因此只有从“分配公平”上去补偿女性,也就是从结果入手,让女性客户对保险金的分配结果感到公平。
要实现这个目的有很多可选的做法。例如,保险公司应当衡量与男性或女性客户长期打官司付出的成本和适当降低女性保费的成本,并发现前者的隐性成本更高(声誉、时间等),最终选择后者。或者干脆更换预测模型(这个做法成本或许更多),并着重完善模型的可解释性,让女性客户信服这样的分配结果是没有问题的。总而言之,保险作为服务业,其核心是客户,故将客户的体验放在第一位才能够获得更多利益。
作业4-作者4¶
在我看来,面对这一事件,保险公司的目标应该是构建一个既科学又公平的定价模型,既能准确反映风险,又能避免对任何群体的歧视。通过技术优化、透明沟通和客户参与,保险公司可以在维护业务利益的同时,赢得顾客的理解和支持,从而摆脱当前的困境。
首先为了平息舆论,保险公司应公开承认模型在性别预测上的偏差,并解释这种偏差并非有意为之,而是基于历史数据的统计结果。同时,公司需要对模型进行全面的审查和优化,邀请第三方专家参与,确保模型的公平性和透明度。在优化过程中,保险公司应该将更多与驾驶行为直接相关的、更加客观的变量纳入模型的考虑中,例如驾驶里程、交通违规记录等,而不是过度依赖性别、年龄等人口统计学特征。个人画像这一特征本身就存在着一定的偏差,难免导致模型的偏见。公司应该引入公平性约束的机制,确保模型在预测时不会对某一群体产生系统性偏差。
对于女性顾客的维权诉求,保险公司可以暂时采取过渡性措施,为女性投保者提供一定的保费折扣或优惠,以表明公司对公平性的重视。公司应加强与顾客的沟通,解释保费定价的逻辑,并承诺在模型优化完成后重新评估保费结构。对于男性顾客的不满,保险公司需要明确表示,人为降低模型准确率并非长期解决方案,而是临时措施,目的是在模型优化期间避免对某一群体的不公平对待。对于模型的长期发展,公司还可以设立一个客户反馈的机制,利用顾客的反馈结果持续对模型加以改进,以增强模型的可靠性和保费定价的公平性。
作业4-作者5¶
应对策略
- 无需刻意避免使用敏感字段,使用尽可能完善的数据构建模型,作为base模型
- base模型训练之后,使用对抗式、诱导式的输入进行测试,一旦发现不合适的输出,试图通过人为标注的方式,获得合理无害的标签,甚至可以基于有害性训练一个评分器,通过强化学习使得base模型与人类伦理对齐,获得 distributed 模型
解释
- 上述方法参考了InstructGPT,它被认为与ChatGPT训练方法相同
- 其在尽可能不损害有用性(即各项NLP任务上得分)的同时,使用微调和RLHF的方式尽可能地保证无害性(即尽可能符合人类价值观)
作业5¶
作业5题目¶
假设你目前想要收集不同人群对疫情防控的看法,需要一个朋友一起完成电话调查。假设你有两个朋友愿意参与这个项目,一个朋友比较粗心,在调查中遗漏一些问题,因此他收集的调查结果有很多缺失。另一位朋友表达能力弱,在电话调查中他表述的问题有误,偶尔让受访者产生误解,因此他收集的调查结果存在一定的错误。请问如果一定需要你从中选择一位朋友加入你的电话调查项目,你会选择哪一位朋友?请说明理由。(200字以内)
作业5-作者1¶
基于这样的情况,我会选择第一位朋友加入我的电话调查项目,接下来我会谈一下自己的理由和思考。
依托海量的调查数据,我们才能真正地了解不同人群对于疫情防控的看法,进而达到研究目的。然而从另外一个方面,在一定的数据规模之下我们需要在确保数据质量的前提下才能开展各项工作,因为有效的数据才能产生正确的科学结论。假如选择第二位朋友,虽然他能全方位地获得更大量的数据,但是在数据采集的环节有较明显的错误,这样会直接影响之后的数据整理和分析环节,甚至导出了完全相反的结论,有更大程度的不可靠性。选择第一位朋友,即使他在调查中往往会遗漏一些问题,但是这比存在误解的调查数据要好修正得多,我们可以通过扩大调查人数等方法消除缺失的影响,保证数据质量的基础上增大数据的规模,最终才能更好地挖掘问题的本质。
综上所述,我认为选择第一位朋友对于该项目的帮助更大。也如我的分析所论述,选择他来参与之后也并不是一劳永逸的,我们还需要类似定期审核调查结果以发现缺失项这样的额外工作去修正,数据的质量和数量两手抓两手都要硬。
作业5-作者2¶
基于这样的情况,我会选择第一位朋友(即调查问题有缺失的朋友)加入我的电话调查项目。
假如选择第二位朋友,虽然他能全方位地获得更多数据,但是在数据采集的环节有较为明显的错误,这会直接影响之后的数据整理和分析,甚至导出了完全相反的结论,存在更大不可靠性。从统计学角度来看,收集调查的结果存在错误会导致结果的偏差较大,直接造成了数据污染,而且我们并没有手段去判断哪些数据出现了问题。选择第一位朋友,即使他在调查中往往会遗漏一些问题,也依然比存在误解的数据要好修正得多,因为空缺值的存在不会影响结果的正确性,只是结论可能会有些片面。可以通过扩大调查人数等方法消除缺失值的影响,保证数据质量且增大数据的规模,最终才能更好地挖掘问题的本质。
一方面,依托大量数据,我们才能达到了解不同人群对疫情防控看法的研究目的;另一方面,因为有效的数据才能产生正确的科学结论,所以在一定数据量基础上需要确保数据质量才能开展各项工作。综上所述,我认为选择第一位朋友对于该项目的帮助更大。选择他来参与之后,还需要定期审核调查结果来发现缺失项,做更多的调查以提升数据量。
作业5-作者3¶
我要选择粗心的朋友,也就是调查结果有缺失的朋友。
首先需要认识到收集调查的结果存在一定错误,导致的是结果的偏差较大;而收集调查结果存在缺失,导致的是结果的方差较大。显然,相较于结果出现方差,我们更希望结果不出现太多偏差。因为方差较大我们可以通过一定手段填充空缺值,这种手法不会影响结果的正确性,只是结论可能会有些片面;而偏差较大则会直接造成数据污染,并且我们没有手段去判断哪些数据出现了问题。所以偏差较大的结果是低质的,几乎对调查结论(数据处理后的结果)没有任何帮助,甚至产生误导;而方差较大的结果则仍存在填充的可能性,仍对结论有一定帮助。
作业5-作者4¶
在决定选择哪位朋友加入电话调查项目时,我会倾向于选择第一位朋友,尽管他在调查过程中可能会遗漏一些问题,导致数据存在一定的缺失。
在我看来,数据缺失虽然是一个问题,但它通常可以通过后续的补充调查或数据分析中的技术手段进行弥补。我们可以通过回访受访者来填补缺失的信息,或者利用统计方法对缺失值进行合理估计。相比之下,第二位朋友由于表达能力较弱,导致受访者对问题的理解出现偏差,这种错误往往更加难以纠正。误解可能导致受访者提供不准确甚至完全错误的回答,从而对调查结果的准确性和可靠性造成系统性影响。这种偏差不仅难以通过后续工作修正,还可能误导我们对疫情防控看法的整体判断。此外,缺失数据的问题相对更容易被识别和量化,我们可以通过分析缺失数据的分布和原因,有针对性地采取措施来减少其影响。而表达错误带来的偏差则更加隐蔽,可能直到数据分析阶段才会被发现,甚至可能被忽视,从而对研究结论产生深远的不利影响。因此尽管第一位朋友的工作存在不完美之处,但他的问题更具可控性,不会对调查结果的整体质量造成根本性破坏。选择他可以在一定程度上保证数据的有效性,同时通过后续的补充和完善,我们依然可以进一步提升调查的质量和可信度。
作业5-作者5¶
正文¶
我会选择第一位朋友,从贝叶斯的角度而言,收集问卷数据,从而获取认知的过程可以拆分为两步: 1. 先验地假设收集不同人群对疫情防控的看法; 2. 随着收集到的数据增多,不断更正自己的先验观点。
由于大数定律,如果数据是无偏的,无论自己的先验假设是否正确(实际上先验假设往往不是正确的),只要收集到的数据足够多,最终观点会趋于正确。 除了大数定律以外,还需要非常注意,分析后验概率的方差。

我构造了两种情形: * 蓝色:数据量不够,但是数据是无偏的(lacked data) * 紫色:数据量足够,但是数据是有偏的(biased data)
其中,红色代表实际上的均值。可以看到,不论是蓝色还是红色,它们的估计的均值都是不准确的。然而: 1. 数据量不够的情形,方差较大(即预测结果保留了相当多的不确定性),预测的结果依然是 \([\mu-\sigma, \mu+\sigma]\) 的区间内; 2. 数据有偏的情形,方差较小(由于观测到了大量数据,因此对预测结果非常有把握),但反而预测不准。
附录¶
由于正文篇幅有限,因此相关的公式推导和代码放在附录当中。
假设的说明
1. 为什么要使用贝叶斯推断? * 其他的推断方式,如大数定律,只能分析样本均值的收敛性,而无法分析样本方差的收敛性,后者的重要性在该情境下不可忽略 * 贝叶斯推断提供了对样本方差分析的方法
2. 假设似然函数服从高斯分布,先验概率服从高斯伽马分布,为何要取这样的分布? * 这是由于在计算后验概率时,分母中存在积分,因此通常是不好处理的 * 高斯伽马分布(先验分布)是高斯分布(似然函数)的共轭分布,因此在计算后验概率时,只需要考虑分子中的联合分布,并迭代参数即可 * 甚至不需要计算分子中的联合分布,只需要拿现成的参数的迭代公式即可
迭代步骤
- \(\theta\)为我们通过调查希望得到的内容(即人群对疫情防控的看法),先验分布为 \(\pi(\theta) = p^{(0)}(\theta)\)
- 每一轮迭代可以获得新的数据(如新的问卷结果),记作\(X^{(i)}\),共有\(n^{(i)}\)条
- 当收到新的数据后,我们的认知(通过问卷结果得到的人们对疫情防控的看法)发生更新,\(\theta\)的分布迭代为后验分布: $\(p^{(i+1)}(\theta) = \frac{p^{(i)}(\theta)q(X^{(i)}|\theta)}{\int_{\theta}p^{(i)}(\theta)q(X^{(i)}|\theta)d\theta}\)$
查表可知,参数的更新公式为,相关的参数 \(\mu_0, \lambda_0, a_0, b_0\) 是先验分布高斯伽马分布对应的参数,这里不作过多介绍,只需要看作常数即可,但需要注意,由于它们是先验分布的参数,很可能是有偏的: $\(\mu_{n} = \frac{\lambda_{0}\mu_{0} + n\overline{x}}{\lambda_{0} + n}\)$ $\(\lambda_{n} = \lambda_{0} + n\)$ $\(a_{n} = a_{0} + \frac{n}{2}\)$ $\(b_{n} = b_{0} + \frac{\lambda_{0}n(\overline{x}-\mu_{0})^{2}}{2(\lambda_{0}+n)} + \frac{1}{2}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\)$
由于共轭分布的计算满足结合律,因此可以一次性将所有统计结果记作 \(X = \bigcup_{i=1}^{m}\),一共有 \(n = \sum_{i=1}^{m}n^{(i)}\) 条,其中\(m\)为迭代次数。因此,得到所有\(X\)(问卷结果)以后,我们对调查内容(即人群对疫情防控的看法)的认知发生更新,假设调查的结果足够多 \((n \rightarrow \infty)\),后验分布的均值和方差分别为:
代码¶
# 准备工作
import numpy as np
import matplotlib.pyplot as plt
SEED = 0
np.random.seed(SEED)
plt.style.use('seaborn-v0_8-whitegrid')
palette = plt.get_cmap('Set1')
# 参数设置
# bayes prior distribution
LAM_0, MU_0 = 1, 0
A_0, B_0 = 1, 1
MU, STD = 5, .1
# real data and biased data
N_REAL = 3
N_PSEUDO = 30
MU_BIAS = -1
# synthesis the data
x_real = MU + np.random.randn(N_REAL) * STD
x_pseudo = MU + MU_BIAS + np.random.randn(N_PSEUDO) * STD
# 定义通用函数
def stat_fn(x, n) -> tuple[float, float]:
x = x[:n]
x_bar = x.mean()
x_var = x.var()
EXP_INTERCEPT = (LAM_0 * MU_0) / (LAM_0 + n)
EXP_SLOPE = n / (LAM_0 + n)
exp = EXP_INTERCEPT + EXP_SLOPE * x_bar
VAR_INTERCEPT = \
(2 * B_0) / (2 * A_0 + n) + \
(LAM_0 * n * (x_bar - MU_0) ** 2) / ((LAM_0 + n) * (2 * A_0 + n))
VAR_SLOPE = n / (A_0 + n)
var = VAR_INTERCEPT + VAR_SLOPE * x_var
return exp, var
def stat_all(x, n_s) -> tuple[any, any]:
exp_s = []
var_s = []
for n in n_s:
exp, var = stat_fn(x, n)
exp_s.append(exp)
var_s.append(var)
return np.array(exp_s), np.array(var_s)
def draw_line(n_s, exp_s, var_s, color, label):
plt.plot(n_s, exp_s, color=color)
plt.fill_between(n_s, exp_s+var_s, exp_s-var_s, color=color, alpha=0.2, label=label)
# plt.plot(n_s, var_s)
def bayes(x, color, label):
n_s = np.arange(1, len(x)+1)
exp_s, var_s = stat_all(x, n_s)
draw_line(n_s, exp_s, var_s, color, label)
# 主函数
if __name__ == "__main__":
bayes(x_real, color=palette(1), label='lacked data')
bayes(x_pseudo, color=palette(3), label='biased data')
plt.plot(np.arange(1, 1+len(x_pseudo)), np.full(len(x_pseudo), MU), color=palette(0))
plt.legend()
plt.savefig("result.png")
plt.show()