谷歌外包审核抱怨:很多话题我都不懂,如何短时间判断 Bard 说的对不对

2023-04-05 11:35网易科技 - 小小

4 月 5 日消息,谷歌近日推出了聊天机器人 Bard,并呼吁公司员工进行内部测试,同时也委托了许多外部承包商进行评估。然而,一些承包商爆料称,他们根本没有足够的时间来验证 Bard 的答案是否正确,最终只能凭借猜测。

在 OpenAI 聊天机器人 ChatGPT 爆火后,谷歌也迅速跟进,在 3 月份推出了聊天机器人 Bard 的有限测试版。与 ChatGPT 类似,用户可以向 Bard 提问或下达任务指令,Bard 会给出类似人类的答复。

目前,跨国 AI 训练数据服务公司 Appen 的承包商正在帮助改进谷歌的聊天机器人。虽然这些人没有被明确告知他们被分配的任务与 Bard 有关,但是关于新任务的内部讨论可以追溯到 2 月 7 日,也就是在谷歌首次发布 Bard 的时候。Appen 内部文件显示承包商需要审查 AI 聊天机器人所提供的回应质量。

这些承包商通常会帮助评估谷歌搜索算法和搜索结果中广告的相关性,还会标记有害网站,使得这些网站不会出现在搜索结果中。

四名接受采访的承包商表示,自 1 月份以来,他们的大部分工作已经转向审查 AI 聊天机器人的提示。在评估过程中,承包商们对聊天机器人的表现感到失望,并称他们没有足够时间准确评估聊天机器人对提示的响应是否正确,有时只能凭借猜测。不过他们仍然可以拿到报酬。

Bard 在一次演示活动中因为给出错误答案而受到批评。谷歌对此表示,聊天机器人会随着时间的推移而变得越来越好,它不应该被视为搜索的替代品。

在正式发布前,谷歌曾在 2 月份要求其员工每天用两到四个小时帮助测试这款聊天机器人,包括向它提问,并标记出不符合公司准确性标准和其他衡量标准的答案。员工可以重写任何问题的回答,以供 Bard 从中学习。谷歌和 Appen 没有回应置评请求。

没有足够时间

根据承包商指导文件,他们将收到用户向 AI 聊天机器人发出的提示(例如提问、指令或陈述),以及两个机器生成的回应。承包商需要帮助确认哪种回应更好。他们还可以在文本框中详细说明选择的原因,以帮助聊天机器人学习在可接受的响应中寻找特定属性。聊天机器人给出的回答应该连贯而准确,并引入最新信息。

承包商表示,他们被设定固定的时间来完成每项任务。审查提示的任务时间从 60 秒到几分钟不等,差异很大。这些人承认,如果他们不熟悉聊天机器人谈论的话题,比如区块链等技术,就很难给 AI 的回应评分。

由于每项任务都有固定报酬,一些承包商表示,即使他们意识到自己无法准确评估聊天机器人的反应,他们也会尽力完成任务。

一位评估人员说:“在短短 60 秒内,我没有足够的时间去了解我不懂的领域,所以我只能给出最好的猜测,这样我就可以继续工作和领取报酬。”

另一位承包商表达了类似的观点,称他们也想获得正确答案,提供尽可能优质的聊天机器人体验,但在进行评估之前,他们没有足够的时间来研究某些话题。他补充说:“老实说,我们中的很多人都快要崩溃了!”

第三位承包商表示:“用三个小时的研究来完成短短 60 秒的任务,这非常明显地凸显了我们现在面临的问题。”

要求改善工作条件

目前,通过外包公司为谷歌工作的承包商,越来越多地要求改善工作条件。

今年 2 月,许多承包商访问了谷歌总部 Googleplex,向搜索业务负责人普拉巴卡尔・拉加万(Prabhakar Raghavan)递交了一份请愿书,希望提高报酬。他们为 Appen 工作,每小时的薪资在 14 美元到 14.5 美元之间。而他们所支持的业务(搜索和广告)是谷歌的主要收入来源。

Alphabet 工人工会已经表示支持这些承包商,并帮助他们采取行动,但该组织不能正式代表承包商与谷歌进行谈判。

在得克萨斯州奥斯汀,YouTube 的承包商去年年底宣布了与 AWU 成立工会的计划。该组织估计,谷歌雇用了 20 多万名承包商,但这些人未被计入公司的官方员工总数中。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享