AI 生成新闻摘要-各公司 API 对比

日常看大量业界新闻,每篇至少几千字,如果有自动生成摘要工具,可以在时间不够时,只读摘要获取精华信息,或通过摘要判断新闻是否继续阅读全文。

类似的工具在国外有挺多,诸如 TLDR This、Upword 等 Chrome 插件和 oneai.com 等 Web 应用。Chrome 插件是一个比较能落地应用方案。在使用桌面浏览器严肃阅读新闻时,面对长篇累牍,动辄几万字的报道、评论或报告,打开浏览器插件,点击“生成摘要”即可看到新闻的精华内容。相比编辑人工撰写的一两句吸睛导语,希望摘要工具能整理出更有信息量的内容,最理想情况是自动概括文章所有要点和洞察。毕竟如无新增信息量,或无法帮助读者判断是否需要读全文,摘要也是无意义的。

中文世界似乎没有自动摘要工具。

自动生成文本摘要属于自然语言处理(NLP),学界和业界,都有专攻此领域团队。它回答的问题是如何让机器理解人类语言,它最古老的应用场景是网页搜索引擎,它在算力进步、模型演化的今天,应用场景扩展到了客服智能机器人、文本情感分析、创意文案自动协作。其本身技法精深,难以短时间掌握,如果有相应的开放 API 服务,可以基于 API 来做工具。

百度、华为、腾讯有此类 API 服务开放。拿三段文本测试,看他们每个 API 生成摘要的结果。

TL;DR

如何抽取一篇文章的摘要这个任务完成好坏,可能难以有标准,因为人从文章中理解什么、获取什么、总结什么,依赖个体知识背景和阅读目标。当前试过的几个抽取摘要 API,似乎都没法很好完成这个任务。很多时候你会觉得 AI 只是随机提取了几个文章中的句子然后拼接起来。

除了摘要长度、文章标题等参数可以用来输入,调节输出摘要的结果,并无更多参数让 API 使用者去按需训练和调节输出的摘要结果。百度文心大模型提供了另外一组 API — 模型精调,让使用者做数据训练,让 API 输出内容更符合自己的信息需求和审美。

以下是详细的使用 API 抽取摘要的例子。

例子一:互联网/经济学的图书段落

来自在线图书《产品经理的无限游戏》

桌面软件时代开始,规模经济可以把成本摊薄到趋近于 0,垄断就开始变得常见了起来。比如微软开发第一代 Windows 操作系统投入了 2 亿美元,每张光盘成本 50 美分,如果销售 2000 万套,每一套的成本只有 10.5 美元,售价却可以定到 210 美元。想和微软竞争,首先需要投入相近的开发成本,但由于品牌、软件生态、使用习惯等因素,后来者很难一下子转化大规模的用户。假设新操作系统的销量达到 100 万套,此时每一套的成本是 200.5 美元,如果定价和 Windows 接近,就没有什么利润。2020 年 2 月 1 日,微软宣布全球 Windows 10 装机数量已经突破 10 亿,且越来越多的用户是直接下载安装,不需要光盘,每一套的成本是不是更低了? 另外,互联网的出现把分散的小市场融合成了单一的大市场。没有了国家和地域的界限,垄断的土壤就更肥沃了。2001 年我刚毕业到深圳的时候就有外卖,但形态和现在不同,需要从餐厅拿一张外卖菜单回家,想吃外卖就打电话点餐,货到付款,每个餐厅都是分散的小市场,自己接单自己跑腿送餐。进入移动互联网时代后,美团和饿了么双寡头垄断市场,点外卖变成了打开应用选择附近的任意餐厅,餐厅自己的外卖菜单和订餐电话消失殆尽,只剩下肯德基、麦当劳这样的大型连锁企业还在坚持自营外卖服务。 相比桌面软件时代或实体经济,互联网这个单一大市场从两个方面增强了垄断。一方面,产品脱离了物理限制,全球每个接入互联网的角落,获取互联网产品几乎没有物理成本(广告成本和平台“税”不算物理成本),从点击获取到使用产品的耗时只取决于网速,获客和变现实现了前所未有的规模和速度;另一方面,互联网产品通常带有网络效应——一个网络的价值与其用户数的平方成正比,每位用户所获得的效益随着总用户数的增长而增长,留存杠杆空前强大。在电话网络时代,网络效应并不会被一家公司独享,不同电话公司的服务都是互联互通的。在互联网时代,电子邮件可能是最后的互联互通了,网络效应通常被网络的所有者独享。

百度文心大模型:

桌面软件时代开始,规模经济可以把成本摊薄到趋近于0,垄断就变得常见了。相比之下,互联网的出现将分散的小市场融合为单一大市场,没有国家和地域界限,这使垄断更加容易。

腾讯云:

但由于品牌、软件生态、使用习惯等因素,且越来越多的用户是直接下载安装,互联网的出现把分散的小市场融合成了单一的大市场。点外卖变成了打开应用选择附近的任意餐厅,只剩下肯德基、麦当劳这样的大型连锁企业还在坚持自营外卖服务。相比桌面软件时代或实体经济,互联网这个单一大市场从两个方面增强了垄断。获取互联网产品几乎没有物理成本(广告成本和平台“从点击获取到使用产品的耗时只取决于网速。

华为云:

桌面软件时代开始,规模经济可以把成本摊薄到趋近于 0,垄断就开始变得常见了起来。比如微软开发第一代 Windows 操作系统投入了 2 亿美元,每张光盘成本 50 美分,如果销售 2000 万套,每一套的成本只有 10.5 美元,售价却可以定到 210 美元。2001 年我刚毕业到深圳的时候就有外卖,但形态和现在不同,需要从餐厅拿一张外卖菜单回家,想吃外卖就打电话点餐,货到付款,每个餐厅都是分散的小市场,自己接单自己跑腿送餐。在电话网络时代,网络效应并不会被一家公司独享,不同电话公司的服务都是互联互通的。

百度智能云:

比如微软开发第一代 Windows 操作系统投入了 2 亿美元,每张光盘成本 50 美分,如果销售 2000 万套,每一套的成本只有 10.5 美元,售价却可以定到 210 美元。想和微软竞争,首先需要投入相近的开发成本,但由于品牌、软件生态、使用习惯等因素,后来者很难一下子转化大规模的用户。假设新操作系统的销量达到 100 万套,此时每一套的成本是 200.5 美元,如果定价和 Windows 接近,就没有什么利润。2020 年 2 月 1 日,微软宣布全球 Windows 10 装机数量已经突破 10 亿,且越来越多的用户是直接下载安装,不需要光盘,每一套的成本是不是更低了?另外,互联网的出现把分散的小市场融合成了单一的大市场。在电话网络时代,网络效应并不会被一家公司独享,不同电话公司的服务都是互联互通的。

例子二:电动车新闻

来自来自 LatePost《2022 年最后一个车展:理想要向四线城市扩张,集度要开 100 家店》

2022 年最后一个车展:理想要向四线城市扩张,集度要开 100 家店。今天是 2022 年的最后一天,也是国家补贴新能源汽车的最后一天。推迟了 41 天的广汽车展开幕了。这是 2022 年唯一正常进行的 A 类车展,也是今年的最后一个车展。新势力蔚来、理想、小鹏、问界都带来了今年发布的新车型。蔚来带来了整个家族,刚刚在 NIO Day 上发布的溜背式 SUV EC7 、新一代 ES8,今年交付的 NT 2.0 平台车型 ET7、ES7 和 ET5,以及 ES6、EC6,豪华超跑 EP9 也被带到现场撑场面。小鹏只有 4 款量产车,但也带来了 9 款车。不同颜色、不同配置的 G9、P7、P5 和 G3i 。负责撑场面的是汇天的垂直起降飞行器 X2。理想带来了 6 款不同颜色的 L9 和 L8。五座 SUV L7 宣布将在明年 2 月上市并开启试驾,但还看不到展车,理想留给自己的发布会首发。理想销售副总裁刘杰称,明年理想的门店数量会扩张到 400 家 ,全面覆盖三线城市和部分四线城市。问界有三款车,增程式 SUV M5、M7,以及今年 9 月发布的 M5 纯电版。虽然每个车型都有两台,但展台仍然空荡。今年 9 月,在面向华为终端主要零售商合作伙伴的 KA 峰会上,余承东表示,华为造车会继续深入,未来店里能售卖的车加一起要达到 12-13 台。集度带来了两款车,除了第一款车 ROBO-01 的量产版本,纯电动轿跑 ROBO-02 也首次展示了外观设计。集度 CEO 夏一平说,明年将通过直营和与第三方经销商合作开 100 家店。特斯拉一如既往地没有任何宣传,展台面积同馆最小,摆放着旗下 4 款车:声势越来越弱的 Model S 和 Model X 的三电机版本,以及又一次下调售价的 Model 3 和 Model Y。比亚迪带来了 16 款新能源车,产品数量和销量都是碾压式的存在。今年新能源车销量排名前十,比亚迪有六款,宋、秦、汉、元 Plus、海豚和唐前 11 个月的销量均超过 10 万台。比亚迪带来了这些爆款车的纯电动和混动 dmi 版本,以及很大概率成为明年爆款车的海豹和驱逐舰。长城有四个展台,12 月宣布合并的沙龙和欧拉,也合并在一个展台。欧拉带来了 8 台瞄准女性市场的 “闪电猫”、“芭蕾猫” 和 “好猫”,沙龙只有 “机甲龙” 一款车,48 万元的限量版和还未发布价格的量产版,安静的呆在展台一角。合并进坦克的 WEY,和坦克在同一个馆的两个展台遥遥相望。WEY 带来了长城 DHT 混动平台的摩卡和拿铁,两款车 2021 年的销量不足 2 万台。大六座 SUV 蓝山首次亮相,还未公布定价。明年的长城也将加入了六座混合动力 SUV 的市场竞争。坦克 500 的 DHT 混动版在广州车展上首发,预计明年上半年上市。广汽埃安旗下高端品牌昊铂的第二款 Hyper GT 在车展上第一次亮相。广汽合创也发布了一款新款 MPV V09。也有一些车企有新车发布计划,但是选择不在广州车展首秀。受到疫情影响,不出意外的,今年的广州车展冷冷清清。但新能源厂商对于明年的市场信心是比较确定的。今年新能源车的市场渗透率超过了 30% ,中国汽车协会的预测明年的渗透率会达到 32.6%。理想、集度、埃安、哪吒都公布了明年的目标。

腾讯云:

也是今年的最后一个车展。新势力蔚来、理想、小鹏、问界都带来了今年发布的新车型。明年理想的门店数量会扩张到 400 家,未来店里能售卖的车加一起要达到 12-13 台。今年新能源车销量排名前十,比亚迪带来了这些爆款车的纯电动和混动 dmi 版本,以及很大概率成为明年爆款车的海豹和驱逐舰。48 万元的限量版和还未发布价格的量产版。

百度智能云:

也是今年的最后一个车展。新势力蔚来、理想、小鹏、问界都带来了今年发布的新车型。明年理想的门店数量会扩张到 400 家,未来店里能售卖的车加一起要达到 12-13 台。今年新能源车销量排名前十,比亚迪带来了这些爆款车的纯电动和混动 dmi 版本,以及很大概率成为明年爆款车的海豹和驱逐舰。48 万元的限量版和还未发布价格的量产版。

华为云:

2022 年最后一个车展:理想要向四线城市扩张,集度要开 100 家店。理想带来了 6 款不同颜色的 L9 和 L8。五座 SUV L7 宣布将在明年 2 月上市并开启试驾,但还看不到展车,理想留给自己的发布会首发。问界有三款车,增程式 SUV M5、M7,以及今年 9 月发布的 M5 纯电版。集度带来了两款车,除了第一款车 ROBO-01 的量产版本,纯电动轿跑 ROBO-02 也首次展示了外观设计。WEY 带来了长城 DHT 混动平台的摩卡和拿铁,两款车 2021 年的销量不足 2 万台。坦克 500 的 DHT 混动版在广州车展上首发,预计明年上半年上市。今年新能源车的市场渗透率超过了 30% ,中国汽车协会的预测明年的渗透率会达到 32.6%。

百度文心大模型:

2022年最后一个车展:理想要向四线城市扩张,集度要开100家店。今天是2022年的最后一天,也是国家补贴新能源汽车的最后一天。推迟了41天的广汽车展开幕了。这是2022年唯一正常进行的A类车展,也是今年的最后一个车展。新势力蔚来、理想、小鹏、问界都带来了今年发布的新车型

例子三:互联网公司评论

来自 36氪:《复盘字节:为什么教育、游戏等长周期业务先后失利》

过去十年,字节跳动无疑是最成功的互联网公司之一,今日头条、抖音、TikTok,三款App成就了字节跳动的万亿估值。但是,在TikTok之后,字节却再也没能拿出一款可以突破业务天花板的产品。这个期望,曾经被寄托在教育和游戏上。一年前,在字节的架构中,大力教育、朝夕光年(游戏业务)重要到和抖音并列,均属于核心业务板块。字节也在游戏和教育上也投入了巨大的资源——不仅仅是人力、预算、流量,还有罕见的耐心。在字节游戏,员工们头两年不看ROI、双月会不要求明确的进展,这种待遇在字节极少能看见。但是,教育、游戏这样的“慢”业务,在字节却并不算成功——游戏业务至今都没能拿出一款有影响力的产品,教育更是花了三年多,也并没有做出声响,直到双减到来。早在字节刚开始做教育和游戏的时候,我就问了一些字节之外的从业者。他们的观点出奇的一致:“字节是做不好教育和游戏的!”同样的问题,我后来也问了不少字节内部的同学。大部分人的反馈也是:“字节就做不成长周期业务(教育、游戏、硬件等)!”那么,让人好奇的是,让字节不能做成长周期业务的原因到底是什么?这里我先直接给出答案,后面再详细阐述。真正的原因在于字节整个系统过于“急躁”,急躁阻碍了字节做成每一个长周期业务。**基于这个结论,本文将会核心讨论以下几个问题——为什么“急躁”是导致字节教育失败的核心问题?为什么“急躁”会成为“字节范儿”?字节如何改变“急躁”?为什么没成功?为什么说急躁的基因决定了字节只能做好内容业务?也提前说明一下,我访谈了很多字节的同学,急躁的现象在字节的很多业务线发生,包括教育、游戏、硬件等。篇幅所限,本文仅主要展开字节教育的内容。一、为什么急躁是字节教育失败的核心问题?一款好的教育产品,得帮学生实现够好的学习效果,才能赢得家长和学校老师们持续的支持。公立学校的老师们,从一开始就不喜欢字节。当字节教育的推广人员找到学校,想要入校推广自己的产品时,老师们会问:“字节是不是就是做了抖音的那个公司?”**在老师们眼中,抖音是个让孩子们沉迷、影响了学习的产品。做出这么个影响学习的产品的公司,能做好教育吗?于是,字节的入校推广,从一开始就比其他的教育产品更加艰难。而字节教育,果然也走向了老师们并不喜欢的“寓教于乐”方向。字节教育是怎么“寓教于乐”起来的呢?在字节,两月一次的OKR,使它实现了远比其他公司更快的迭代速度。指引迭代的,就是数据。字节关于教育的每个指标,都比竞争对手更快实现了提升。其中,孩子的“注意力”,是影响教学效果的核心要素。当评估一堂课的好坏时,孩子的注意力有多长时间集中在屏幕上、会不会把整堂课坚持听完,是必须要被度量的指标。而要提高孩子注意力,最快见效的方式就是“寓教于乐”——用游戏化的方式让孩子们玩起来,在玩中学习。

华为云:

但是,在TikTok之后,字节却再也没能拿出一款可以突破业务天花板的产品。一年前,在字节的架构中,大力教育、朝夕光年(游戏业务)重要到和抖音并列,均属于核心业务板块。但是,教育、游戏这样的“慢”业务,在字节却并不算成功——游戏业务至今都没能拿出一款有影响力的产品,教育更是花了三年多,也并没有做出声响,直到双减到来。早在字节刚开始做教育和游戏的时候,我就问了一些字节之外的从业者。大部分人的反馈也是:“字节就做不成长周期业务(教育、游戏、硬件等)!也提前说明一下,我访谈了很多字节的同学,急躁的现象在字节的很多业务线发生,包括教育、游戏、硬件等。一、为什么急躁是字节教育失败的核心问题?当字节教育的推广人员找到学校,想要入校推广自己的产品时,老师们会问:“字节是不是就是做了抖音的那个公司?做出这么个影响学习的产品的公司,能做好教育吗?而字节教育,果然也走向了老师们并不喜欢的“寓教于乐”方向。

百度智能云:

过去十年,字节跳动无疑是最成功的互联网公司之一,今日头条、抖音、TikTok,三款App成就了字节跳动的万亿估值。真正的原因在于字节整个系统过于“急躁”,急躁阻碍了字节做成每一个长周期业务。**基于这个结论,本文将会核心讨论以下几个问题——为什么“急躁”是导致字节教育失败的核心问题?也提前说明一下,我访谈了很多字节的同学,急躁的现象在字节的很多业务线发生,包括教育、游戏、硬件等。其中,孩子的“注意力”,是影响教学效果的核心要素。当评估一堂课的好坏时,孩子的注意力有多长时间集中在屏幕上、会不会把整堂课坚持听完,是必须要被度量的指标。

腾讯云:

字节跳动无疑是最成功的互联网公司之一,三款App成就了字节跳动的万亿估值。字节却再也没能拿出一款可以突破业务天花板的产品。字节也在游戏和教育上也投入了巨大的资源——不仅仅是人力、预算、流量,员工们头两年不看ROI、双月会不要求明确的进展,在字节却并不算成功——游戏业务至今都没能拿出一款有影响力的产品,早在字节刚开始做教育和游戏的时候,字节是做不好教育和游戏的

百度文心大模型:

教育和游戏这样的“慢”业务,在字节并不算成功。游戏业务至今都没能拿出一款有影响力的产品,教育更是花了三年多,也并没有做出声响,直到双减到来。

我的微信公众号:Product Thinking

原创文章,作者:afeng135,如若转载,请注明出处:https://www.521dj.com/225087.html