谷歌 Gemini 在手机上能做什么?
来源:城市文旅    发布时间:2024-04-16 16:42:05

  上个月,彭博社消息称苹果正在与 Google 进行谈判,希望将 Gemini 集成的iPhone当中,为 iPhone 的软件提供 AI 相关的新功能。把新系统的核心功能“外包”给第三方,这样的做法非常不苹果。

  其实苹果自己也在 AI 上做了不少投入,比如在消息传出的同期,苹果发布了自研 MM1 大模型论文,这是一个最高拥有 30B 规模的多模态 LLM,但苹果迟迟没有公布公测时间,也没有对外宣布任何上线计划。据知情人士接触到苹果内部团队后了解,团队认为自家的大模型与主流的 GPT4、Gemini 相比“不具备竞争力”,才开始寻找第三方合作商。

  或许在 6 月即将举行的WWDC 2024上,苹果会公开自研模型的进展与第三方厂商的合作计划,毕竟届时需要对全用户和开发者展示 iOS 18 的核心卖点。而 iOS 18 被苹果内部誉为史上升级最大的一个操作系统版本的原因,就是苹果宣称 iOS 18 上的 Siri 将会真正的成为用户的“私人助理”。

  如果该合作确认落地,那由于合规问题,苹果需要在国内找一个企业进行合作,而不是直接用 Gemini。

  据了解,苹果此前曾三家公司洽谈合作 AI 大模型,其分别有百度的文心一言、阿里的通义千问、月之暗面的 Kimi,但目前概率最大的还是百度,毕竟在三星最新一代的 S24 系列产品上,大陆以外发售地区的 AI 合作方也是 Gemini,而大陆则是以百度、美图为首的一众中国大模型公司。

  为了了解目前 Google 在手机上可以在一定程度上完成哪些 AI 功能,我们找到了一台 Google Pixel 8 Pro,这是 Google 目前唯一能够运行 Gemini Nano 端侧大模型的机器,可是在体验之后,我们得知目前 Gemini 目前的大多数功能都十分依赖网络,端侧模型 Gemini Nano 能够做的事儿十分有限。

  刨除因为中文系统语言设定暂不开放的功能,目前 Google Pixel 8 Pro 上面的 Gemini 可以为用户更好的提供八大核心功能:

  在 Google 相册中点选“编辑”按钮,你就可以在左下角发现一个彩色的“魔法修图”图标,选择后用户就可以对照片中想要编辑的内容做框选,框选后你不但可以进行消除,还能够直接进行缩放处理。但必须要格外注意的是,每张图片在处理之前一定要上传到云端的 Google 相册进行“备份”,并且在图片处理的过程中需要保持联网。

  选择擦除后,大模型会对擦除的主体后面的画布进行“想象”并生成补充内容,并给出 4 张反馈供用户选择。在该步骤下,AI 需要识别图片中的物体,并学习该物体的大概轮廓,对应的在数据库中进行比对并给出补充。

  可以看到,将图中女人删除后,Gemini 对香港的红色出租车的细节补充是比较到位的。

  你也可以将画面中的主体进行缩放,这个功能很适合在景点合影时,修正人物不够突出的构图效果。

  在没有主体的风光照中,你也可以依靠 Gemini 对照片进行不同“时空”的转换,比如这张维多利亚港的风光照,我们点击魔法修图按钮后,能够正常的看到 AI 判断我们大家可以针对天空、日落、风格化、和水进行四个大方向的调整。

  这个功能非常类似小米手机上很出名的“魔法换天”,必须得说日落时分这张做的还蛮有感觉的。

  风格化的本意,是 Google 根据照片生成一张场景相同但不一样的风格照片,但 Gemini 直接把维多利亚港变成了田野……

  这应该算是本次 Google Pixel 手机“ AI 化”之后,我自己觉得唯二能体现 AI 效果的功能。在该功能下,Gemini 能够将一段视频中的的声音进行分层,并且选择性保留。

  如果你是一个 Vlog 拍摄者,在拍摄例如展会等视频素材时,就可以将展览周围的人声和噪音隔绝,只保留拍摄者自己的声音,然后配上一段合适的音乐,会给你的剪辑工作省下不少的时间。

  这个功能简单来说,就是在拍摄合影时可以将多张照片中大家各自最完美的“脑袋”,凑成一张完美的照片,再也用不着担心拍照时有人低头、有人闭眼的情况。

  Google 在手机端其实也提供了“生成图片”功能,但把它隐藏在了壁纸程序中,在这里,你可以再一次进行选择不同主题开始创作一个专属于你的壁纸。

  你可以通过不同的组合词来进行调配(暂不支持自行输入),生成不同的图片风格,这其实是一个挺有趣的功能,但问题是,除了作为壁纸之外,这些生成的 AI 图片并不能直接保存到相册分享给别人。

  之所以把这个功能放到最后,是因为从实用方面出发,它是 Google Pixel 8 Pro 升级 AI 之后,提升最翻天覆地的一功能。

  视频增强功能能让用户拍出夜景更加明亮、画面抖动更小、取消远端光学虚化、增加 HDR + 效果的,最高 4K 30 帧的视频画面,Gemini 在视频拍摄完成会进行短暂的机内计算,最终合成一个 AI 认为最完美的画面效果。

  在相册中长按底部状态栏横条,用户就可以调出 Google 的即圈即搜功能,当用户圈选图片中的某些内容后,系统就会通过 Google 搜索引擎匹配对象,给到一个答案。

  顾名思义,Gemini 可以将文本内容同步生成文字稿,目前该功能支持印地语、德语、意大利语、日语、法语、繁体中文、英语、西班牙语共 8 个语种。

  然后就没了…… 这几乎是你在中文系统环境下能够体验到的全部 AI 功能,其中实际应用 Gemini Nano 的端侧 AI 功能就只有语音转文字这一个,剩下就连 AI 壁纸生成都需要依靠联网完成。

  可以说 Google Pixel 8 Pro 所有的核心 AI 功能点,都集中在了 Google 相册这个 App 上,且主要是依靠“端云协同”,无网络环境下的 Pixel 8 Pro 可谓是一点都不智能。

  在下载了 Gemini 独立 App 之后,用户都能够让它替代 Google 语音助手,在自然语言解决能力上更出色,不过并不能够和其他手机下载 Gemini App 后拉开明显的使用体验。

  除去花哨且没用的“文案优化”、“文生图”这些 AI 功能之外,中国自主研发的手机厂商其实已经逐渐在手机的 AI 体验上做出了不错的落地功能。

  在同样没法将 Gemini 落地的国行三星 S24 系列来说,三星 AI 主要的功能点体现在“通话实时翻译”、“即圈即搜”、“魔法修图”这三个核心功能。

  除去通话实时翻译之外,“即圈即搜”和“图片重构”我们在上文的 Google Pixel 8 Pro 上均已体验到,只不过 Pixel 用的大模型是 Gemini,而国行三星则是由百度、京东和美图提供的定制功能。

  Gemini 的资料库是所有可以在 Google 上搜索到的网页,比如这张著名视角的坚尼地城,Google 给出的了如携程、zFrontier 装备前线、X、微博、instagram 等网站上相近视角的信息。

  而百度的资料库只有,我们用同一张照片在三星上进行搜索,由于的坚尼地城并没有同样视角的图片,所以三星只给出了一个答案 —— 城市街道……

  最值得吐槽的,就是在搜索之后京东一定要“配套”给用户推荐一个商品链接,这个功能几乎就没有准的时候。因为这个搜索的大前提,是搜索的物品要在京东售卖,否则京东就会强行为用户匹配一个相近的商品,导致大多数时间都是“驴唇不对马嘴”。

  不过,当搜索的内容在有相近角度的图片素材时,百度的搜索功能相对于 Google 就会更加准确一些,比如中央电视塔百度就可以很精准的识别出来,而 Google 智能识别出大致的位置在玉渊潭公园附近。

  当然,虽然地标性建筑的搜索百度做的不错,但在京东链接上三星依旧没让我失望,这次它给的推荐是格力前置净水器…… 干得漂亮京东。

  在“魔法修图”功能上,美图的能力和 Gemini 还是略有差距,我们用同样的一张照片分别在 Google Pixel 8 Pro 和三星 S24 Ultra 上进行图片重构,得出的效果确实是 Gemini 更加自然。

  并且让我非常不理解的就是,在人物消除之后三星 S24 Ultra 一定要在图片左下角显示一个“内容由 AI 生成”,让人瞬间没有任何分享欲望。可以确定的是,目前其他的手机生产厂商的 AIGC 消除都不会强制打上这行水印,所以绝不是因为法律合规问题导致的,完全是三星的“自作聪明”。

  虽说在照片编辑能力和搜索能力上国内的技术提供方已经已经给出勉强追赶上 Gemini 的解决方案,但苹果做产品的思维和其他厂商是完全不同的,搭载 iOS 18 的新 iPhone 要做到的,绝不只是 Google Pixel Gemini AI 功能的“拙劣复制”。

  从 Siri 刚刚发布开始,乔布斯对 Siri 语音助手的定义就不是单纯的搜索工具,而是个人智能助理。

  从苹果自研基于 Ajax 的聊天机器人服务就能看出,目前苹果最看重的,其实是 Google Gemini 基于自然语义的对话能力,而不是我们上文提到在 Google Pixel 8 Pro 上实现的那些“工具类”功能。

  理想状态下,如果 Siri 接入 Gemini,那用户真的就可以把 Siri 当成一个聊天机器人,系统会学习用户的生活轨迹、使用电子设备的习惯、家和公司的位置等多重信息,智能作出判断。

  举个例子:当 Siri 通过时间、地理位置、语气、声纹等信息判断用户可能在酒吧喝醉了,就会在和你对话的过程中帮你调取如 Uber、滴滴这类线上打车软件,叫一辆从当前位置到家的车,并且通过 AI 助理打电话告诉司机可能乘客处于醉酒状态。

  这些例如从当前位置打车回家、AI 助理与司机通话等功能拆分开来,目前的 AI 大模型助手都已能实现,但如何将一整套流程完整的、顺畅的“串联”起来,是新版 Siri 需要着手解决的问题。

  相较于更加工具项的百度文心大模型,其实字节系的豆包 AI 智能助手在自然语义的沟通能力上“更胜一筹”,因为只有让 Siri 听起来更像一个真人,用户才有跟它沟通的欲望。

  想想看,你向往的 AI 助理,是电影《Her》里面的体贴温柔、声音略带沙哑的斯嘉丽约翰逊呢?还是一行行冰冷的文字呢?

  本文来自微信公众号:不客观实验室 (ID:gh_719281df296b),作者:陆

  广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更加多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

  一加、OPPO 手机将引入谷歌 Gemini 模型,提供新闻摘要、AI 工具箱等功能

  谷歌官宣“魔法橡皮擦”等 AI 修图功能下月下放至全用户:每月限免 10 次

  谷歌 Chrome 浏览器新特性:精细化管控网页滚动、缩放、键鼠交互等权限

  代码暗示谷歌“魔法橡皮擦”等将告别 Google One 会员独占,改为一般用户限量体验



上一篇:谷歌翻译将升级:实时听译并转文字 下一篇:【48812】2024年海豚杯翻译大赛英译汉文章(译家翻译国学经典诠释教导版)节选译文一览
推荐查看