Gemini 是一个由 Google DeepMind 推出的多模态大模型,可以理解并处理文本、图像、音频、视频等多种信息形式,具备强大的思考与推理能力,可以完成代码生成、论文编撰等复杂任务。
它的设计架构融合了大规模语言模型与强化学习,不仅具备优秀的语言组织能力,也能通过不断学习持续优化生成表现,它同时支持多种输入形式,像是语音、图片、视频等,能跨模态协同完成复杂任务,例如,用户可以上传图像并提出问题,Gemini 能自动识图并分析图中包含的信息,并给出相应的答案。
Gemini 现支持两种高级功能,分别是【Deep Research】和【Canvas】,Deep Research 既推理功能,可进行深度推理和网页搜索,而 Canvas 则是一种可视化排版的文档创作功能,可自动排版并配图。
此外,Gemini 还有一个其他 AI 无法比拟的巨大优势,即与谷歌应用的联动,它可以调用 YouTube、Gmail、Google 文档、Google 地图、Google 机票和 Google 酒店等谷歌系应用中的信息,帮助用户更加高效地安排行程规划,以及创作内容,真正成为用户生活与工作的得力帮手。
基于用户不同的上外网需求,选择的加速器也会有所不同。因此,我们列出以下几款工具,供大家根据自身需求进行选择。
可以的!
Gemini 的最新模型支持免费生成图片,并且是免费的。PS. 它也支持生成视频,不过目前视频生成需要付费。
有两种方式生成图片。
直接输入提示词即可生成,目前生成速度比 ChatGPT 快非常多,生成次数没有明确的限制。
首先打开 Google AI Studio,在右侧将模型切换为【Gemini 2.0 Flash Preview Image Generation】。
然后输入提示词即可生成。
一个有效的提示词通常包含以下几个关键元素:
[主体/内容] + [风格/艺术形式] + [环境/背景] + [光线/色彩] + [构图/视角] + [情绪/氛围] + [额外细节/修饰词]
让我们来详细分解一下:
比如我刚刚在图里使用的提示词可以这样修改:生成一幅史诗风格的油画作品,描绘《塞尔达传说:旷野之息》中雄伟壮丽的海拉鲁城堡。画面采用广阔的视角,展现城堡俯瞰着浩瀚无垠的海拉鲁大地。整体光线富有戏剧性,色彩呈现出电影般的质感,营造出令人叹为观止的磅礴气势。画面细节丰富。
Gemini 也能完成简单的 P 图。
比如可以替换颜色:
还可以添加元素:
改变风格也不在话下:
当然了,它还能去除水印:
首先点击对话框旁边的 + 号,点击“上传文件”,将需要编辑的图片上传。
然后在输入框中输入提示词,点击右边的发送键即可。