大多数生成式AI工具为私有技术,其开发者不会公开模型的构建细节。用户因此无法获知训练数据的具体来源、清洗方式及处理流程。这种“黑箱”特性引发了围绕透明度、偏见与可靠性的伦理争议。
透明度缺失
生成式AI依赖数据训练,用户需了解数据收集、清洗及处理的技术方法与来源。然而,OpenAI(ChatGPT)、Google(Bard)等公司通常拒绝公开训练数据或方法细节。此类不透明的数据实践已引发关于版权数据滥用的法律争议(详见“版权问题”页面)。
偏见固化
透明度缺失加剧了工具的偏见问题。由于训练数据及清洗流程不公开,公众无从知晓模型吸收的内容来源(如具体网站)及其编码的立场倾向。许多网络空间由发达国家年轻男性用户主导,可能包含性别歧视、种族主义或民族主义观点。
偏见不仅源于数据内容,也来自处理方法。统计方法天然倾向于放大高频或主流信息,而忽略少数群体声音(如语言学家Emily Bender团队所述)。这导致工具常生成对女性、有色人种等群体的冒犯性内容,进一步强化主流叙事。
可靠性风险
尽管AI擅长整合多源信息,但其输出常包含不准确内容(称为“幻觉”)。此类风险在医疗、法律或金融等场景中尤为严重——错误信息可能导致诊断失误、法律纠纷或财务损失。
本文来自 Princeton University Library