logo科技微讯

AI 项目汇总收集

作者:科技微讯
日期:2023-06-11
📜 文章

这篇文章会一直更新,我会把我看到的、认为值得关注的、和 AI 有关的项目收集整理在这里,每一个项目都是我亲自了解过的,部分产品我还亲自使用或正在使用。但限于我个人的兴趣、视野、精力,我无法关注各行各业的 AI 产品,所以这里只是 AI 汪洋大海中的一小部分。有一个叫 There's an AI for that 的网站,该网站收集了五千多个 AI 应用或项目,并以每天 1 ~ 5 个的速度增加中,如果你想第一时间了解人们都开发了什么有趣的 AI 应用,不妨看看这个网站。

最近更新于:2023-08-23

面向开发者

1、面向开发者的开发平台或工具;2、一些需要专业知识才能使用的项目,这些项目可能处于早期探索阶段,可能只有一个简单的 demo。

开发平台和工具

  • Hugging Face:可能是目前最受欢迎的 AI 平台或社区,它的模型库有超过 20 万个各种模型,它的数据集有超过四万个各种数据集,它的 Spaces 还有将近八万个各种 ML apps,除此之外还有更多其他开发资源;
  • ModelScope:魔塔社区,国内一个类似 Hugging Face 的网站,阿里巴巴达摩院联合发起,它的自我介绍:汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。截止到 2023-06-29 它的模型库有 928 个模型,数据集不到 500 个;
  • Replicate:开发者如果想使用某个 AI 模型,无需自行搭建服务器然后自行部署 AI 模型,只需要使用 Replicate 的 API,并告诉该 API 一个代表某个模型的字符串即可,这个模型你可以从 Replicate 的模型库中选择,也可以相传自己的模型,文档有例子
  • Gradio:一个用来开发 Machine Learning 网页应用的框架,网站发布后会部署在 Hugging Face Spaces 中,可大大提升开发效率,如果你要为你的 AI 模型写一个网页 demo,用它应该是最快最方便的;
  • Dify:国人开发的 AI 应用开发平台,可以快速创建 AI 应用并通过 API 向外部提供调用,可以集成或创建插件,还提供了数据集功能;
  • PyTorch:一个用来构建深度模型的框架,是 Torch 的 Python 重构版,由 Facebook 发布维护,PyTorch Hub 是一个可以让开发者用一行代码拉取他所需要的模型;
  • LlamaIndex:一个帮助开发者开发大语言模型的数据框架,提供了一套开发工具,和 LangChain 是类似的产品;
  • LangChain:一个帮助开发者开发大语言模型的框架,可以让开发者把不同模型 chain 起来,类似 LlamaIndex;
  • semantic-kernel:微软出品,和 LangChain 是同类产品
  • 向量数据库:
    • Pinecone:这是一个 Vector 数据库(向量数据库),自称 Long-term Memory for AI;
    • chroma:一个开源的 Vector 数据库(向量数据库),支持部署在自己的电脑,预计 2023 年 Q3 上线一个付费的托管版,类似 Weaviate;
    • Weaviate:一个开源 Vector 数据库(向量数据库),类似 chroma;
  • Vercel AI SDK:Vercel 出品的 AI 开发工具;
  • TypeChat:微软出品,使用 Typescript 的 type 语法来定义自然语言的 interface,博客文章
  • Llama 2:Meta 出品的、开源的、可免费商用的通用大模型,不懂技术的大众用户可以通过 Poe 使用基于这个模型搭建的聊天机器人,下文有讲;
  • cohere:一个提供大模型服务的商业公司,它的产品没有像 ChatGPT 的这种聊天机器人,所以网上关于这家公司的讨论的不多,它目标用户是企业或开发者,产品其实就是 API;

图片

  • Stable Diffusion:技术上可能稍逊色于 Midjourney,但 Stable Diffusion 胜在开源,你可以用 Stable Diffusion Web UI 在自己的电脑上部署一个 Stable Diffusion,也得益于它开源,网上有很多围绕 SD 的产品,有人收集了几百款之多;
  • StyleDrop:Goolge 出品,文字转图片,支持提供一张参考图,生成风格高度一致的图片,很不错;
  • InstructPix2Pix:University of California 出品,用自然语言吩咐 AI 去修改图片的工具,类似 ControlNet
  • ControlNet:选择一张图片,然后用文字告诉 AI 怎么修改这张图片,一个简单的例子是告诉 AI 把图片上的花改成草,类似 InstructPix2Pix
  • ImageBind:Facebook 出品,这是一种支持 embed 6 种模态的模型,这六种模态分别是 images、text、audio、depth、thermal、IMU data,提供了一个 online demo,可以很好地帮助你理解它能做什么,上海人工智能实验室通用视觉团队成员开源了一个 ImageBind 的实现 Anything2Image,可以让你在本地部署;
  • DragGAN:多机构共同出品,一种通过拖动图片上某几个点去修改图片的模型,其官网有视频演示,该视频在网络上产生了很大反响,drag 代表拖动,GAN 是 generative adversarial network 的简称,代码预计 2023/06 发布,但上海人工智能实验室通用视觉团队 提前复现了 DragGAN 的代码,可以让你在本地部署2023-06-29 补充:官方代码已正式开源,并提供了在本地部署的方法;
  • AnimeGANv3:顾名思义,这是 AnimeGAN 的 v3 版本,可以把照片转换成漫画风格的图片,有一段时间经常看到这种头像,支持转换视频,例子,用 Gradio 写的部署在 Hugging Face 的 Demo
  • BLIP:主要用来识别、解释一张图片,给它一张图片,你就可以通过对话的方式和它聊这张图片;
  • CLIPSeg:Seg 是 Segmentation,通过文字或图片 Prompt,来对图片中的物体进行分离;
  • FaceChain:似乎是妙鸭的开源版,阿里出品;

音频

  • Riffusion:基于 Stable Diffusion 的文字生成音乐的开源模型,它的官网有其技术原理分享,简单点说,就是利用 Stable Diffusion 把文字转换成图片,但这里的图片不是我们常见的那种图片,而是声谱图(spectrogram),最后再把声谱图转换为声音,你可以在它的官网体验,官网也开源
  • Whisper:OpenAI 出品的语音识别模型,开源,对英文的支持最好,对中文的支持在它支持的语言中大概在中等水平,有多种体积的模型可供选择,有开发者基于 Whisper 开发了桌面端应用,例如 Buzz,更多围绕 Whisper 开发的项目可查阅 awesome-whisper
  • MMS:Meta 出品的多语言识别模型,支持超过 1000 种语言,作为对比,Whisper 只支持 100 种;
  • SeamlessM4T:Meta 出品的可以实现语音和文本、语音和语音互转的大模型,支持跨语言转换,有 demo 可以体验,我简单试了一下中文语音转英文语音,不过效果一般;
  • AudioCraft:Meta 出品的用文字生成音乐或声音的模型,包括两个子模型,分别是 MusicGen、AudioGen,顾名思义,前者用来生成音乐,后者用来生成各种声音,例如警车声、狗叫、口哨等,AudioCraft 官网给出了例子,但没有可以让用户试用的 Demo,但有人在 HuggingFace 部署了一个 MusicGen Demo,AudioCraft 还有一个叫 EnCodec 的关键组成部分,这是一个基于大模型的音频编解码器;

视频

  • Animated Drawings:Meta 的开源项目,看起来很好玩,可以把用户画的画变成动画视频;
  • CoDeF:Content Deformation Fields 的缩写,有点像 ControlNet,但处理的是视频不是图片,用文字告诉大模型怎么修改一个视频,大模型就会按照要求修改这个视频,官网有示例

AutoGPT

  • AutoGPT:尝试让 GPT-4 全自动执行,非常热,Github 有十几万 star;
  • BabyAGI:类似 AutoGPT;
  • CAMEL:类似 AutoGPT;
  • Generative Agents:类似 AutoGPT;
  • 网上有不少围绕 AutoGPT 开发的面向大众用户的项目,例如:
    • GodMode:名称起得不错,上帝模式,这是一个网页服务,是 autoGPT、babyAGI 的一个实现,用户需要提供自己的 OpenAI API 去使用;
    • Cognosys:这类 AutoGPT 的实现都会自动拆分步骤,然后逐一执行,直到获得结果;
    • AgentGPT
    • aomni

其他

  • InternGPT:上海人工智能实验室通用视觉团队出品,internGPT 有点像 ChatGPT,名称代表了 interaction(交互)、nonverbal(非语言)和 ChatGPT,ChatGPT 是基于文字交互,InternGPT 则通过整合了市面上一些知名开源模型(例如 DragGAN、ImageBind 等),让用户可以通过文字、和非文字的方式进行交互;
  • TaskMatrix:把 ChatGPT 和多个视觉模型结合起来,实现聊天时发送、接收图片,图片的处理上它用到了 Stable Diffusion、ControlNetInstructPix2PixCLIPSegBLIP
  • h2o.ai:一个开源的 AI 平台,目前主要有 h2oGPT、H2O LLM Studio 两款产品;
  • acheong08/Bard:Google Bard 网页 API 的 reverse engineering,可以在命令端调用,还可以作为一个库整合进自己的应用;
  • acheong08/EdgeGPT:微软 Bing Chat 的 API 的 reverse engineering;

面向用户

面向大众用户的产品,能够开箱即用的产品,或虽然有一点门槛但能提供完整服务的产品。

聊天机器人

包括通用性聊天机器人、经过定义的拥有人物个性的聊天机器人,以及通过聊天这种形式实现的各种专用性机器人。

  • ChatGPT:OpenAI 官方出品,国内 IP 无法使用,基于 GPT-3.5 的聊天机器人免费,基于 GPT-4 的聊天机器人收费,如果你想学习如何更好地向 ChatGPT 提问,可以看看 ShareGPT,这个网站收集了超过 32 万个 ChatGPT 对话记录;
  • Claude:ChatGPT 平替,我经常觉得它比 ChatGPT 更好用,网上有一些大模型排名榜单,就通用大模型这个领域,Claude 应该是仅次于 ChatGPT,而且它对国内用户来说更容易打开;
  • Perplexity:它会联网获取实时数据,回复中还会给出相关信息源,有理有据,这和 Google Bard、Bing Chat 类似,但 Bing Chat 的回答有时候太简洁,可能是担心冲击 Bing 搜索引擎?Perplexity 没有这种顾虑,所以答案往往比较详细,不需要再打开消息源查看更多,据我观察它还比 Bard、Bing Chat 快;
  • Poe:Quora 出品,一个集成了多种大语言模型的客户端,其中基于 GPT-3.5、Claude Instant、Google PaLM、Llama-2-70b 等模型的聊天机器人免费,不限制国内 IP,如果你想第一时间使用市面上的热门大模型,可以关注 Poe,比如 Meta 发布 Llama-2 没过多久,Poe 就集成了,而且免费使用;
  • Pi:一个免费的聊天机器人,可以选择让它用语音回复,语音很接近真人,类似 Character.AI 和 MyShell,会像一个真人和你展开互动,界面很简洁,不支持中文,其背后的公司 Inflection AI 由前谷歌 DeepMind 员工创办,2023 年 6 月获得 13 亿美金融资
  • HuggingChat:Hugging Face 出品,速度不错,但准确性比不上 GPT、Claude,中文支持还很差,有时候会提示太多人用了,暂时无法回复;
  • Bing Chat:必应搜索的聊天机器人,和 ChatGPT、Claude 的不同之处是,它每一次回复都会从网络查找实时的信息,所以更不容易犯错,但速度也慢得多;
  • Google Bard:谷歌搜索的聊天机器人,截止到 2023/06/11 我觉得它比 Bing Chat 好用,因为 Bing 越来越不会把答案直接写在回复中,而是进行高度概括性的回复,然后提示用户点击链接查看更多,这就失去了使用聊天机器人的意义,很多时候我们只想直接看到答案;
  • Character.AI:用户可以定义各种各样的 Character,即角色或人物,例如 Elon Musk,还可以公开这些 Character,接着用户就可以和它们聊天了,像和一个真人聊天,但对方永远不会把你不理你,免费,但有收费功能;
  • MyShell:国人开发,类似 Character.AI,但支持语音和文字回复,语音也可以模拟某个人物,MyShell 自称是 Web3 平台,可以用虚拟货币例如以太坊购买更多的聊天额度;
  • Hello History:用 AI 训练了很多历史人物,让用户可以和历史人物对话,有 20 条免费消息额度,试了一下,对话速度很快,每年 35 美金可以解锁每月最多 1000 条聊天消息;
  • TextGPT:和 ChatGPT 和 Poe 差不多,不过它是通过 iMessage 进行对话,收费,嗯,iMessage 原来也可以做机器人啊;

写代码

  • phind:这不是一个会给你生成代码的服务,而是一个面向开发者的搜索引擎,代码相关的问题你在 phind 搜可能比在 google 搜更有效,我喜欢这款产品,它还出了一个 VScode 插件
  • GitHub Copilot:GitHub 官方出品,可能是最早发布的基于 AI 的代码助手,它会根据当前代码的上下文,以及用户通过 comment 提供的 prompt 给出代码建议,个人用户 10 刀每月;
  • GitHub Copilot Labs:GitHub Copilot 的试验版,用来探索新功能,GitHub Copilot 用户需要申请;
  • CodeWhisperer:Amazon 出品,截止到 2023/06/11 免费,根据评论和现有代码实时生成从代码片段到全函数的代码建议,还可以扫描代码以检测难以发现的漏洞,并获取代码建议以立即修复这些漏洞;
  • Codeium:类似 Github Copilot 和 Amazon CodeWhisperer 的代码自动补全、建议的工具,以插件的方式工作,而不是自己搞一个编辑器,个人开发者永久免费,面向企业用户收费;
  • StarCoder:Hugging Face 和 ServiceNow 共同出品的写代码模型,提供了 VSCode 插件,免费;
  • Cursor:一款基于 GPT-3.5 和 GPT-4 的代码编辑器,可以通过聊天的方式帮助开发者写代码,基于 GPT-3.5 免费,基于 GPT-4 收费,获得 OpenAI 投资;
  • bloop:也是一款利用 GPT-4 帮助开发者写代码的软件,但它的定位不是代码编辑器,更多的是一款代码阅读器,看源码的好帮手,它支持使用自然语言搜索代码,个人用户免费;
  • Warp:一款基于 AI 的终端应用,用 Rust 写,2023 年 6 月宣布获得 5000 美金的 B 轮融资;
  • Cody:读取你的整个项目的代码,然后你可以问 Cody 任何该项目的有关代码的问题,免费额度够用;

生成图片

  • Midjourney:目前效果最好的文字生成图片的服务,截止到 2023/06/11 还没有网页应用,也没有独立的 APP,用户想用的话只能用它的 Discord 机器人,收费;
  • DreamStudio:Stable Diffusion 官方网页应用,Stable Diffusion 是开源的,但如果你不想自己部署,可以用 DreamStudio,收费,DreamStudio 后来也开源了,开源版叫 StableStudio
  • DALL·E:OpenAI 的文字生成图片的服务,没有 ChatGPT 那么成功,2023/04/06 之前注册的用户每个月可以获得少量免费额度;
  • Stable Diffusion Web UI:一个截止到 2020/06/11 有超过 8 万 Star 的开源项目,作者是 AUTOMATIC1111,网友经常叫它 A1111,该项目可以让用户在自己的电脑上部署 Stable Diffusion,从而可以免费地生成图片,支持通过插件的方式扩展功能,例如 ControlNet,有一定的使用门槛,但有详细的使用说明;

音频

  • Buzz:基于 Whisper 的桌面端应用,开源免费,可离线把语音转换为文字,更多围绕 Whisper 开发的项目可查阅 awesome-whisper
  • Aiko:支持 iOS、iPadOS、macOS,知名开发者 Sindre Sorhus 的作品,免费,使用 Whisper large-v2 模型,所以应用体积有点大,比如 iOS 版是 2GB,更多围绕 Whisper 开发的项目可查阅 awesome-whisper
  • 飞书妙记:语音转文字,需要上传音频或视频,不支持离线使用,免费额度通常够用,根据用户的评测,它对中文的支持比 Whisper 好;
  • Ecoute:一个 Python 开源项目,利用 Whisper 进行实时语音转文字,同时利用 GPT-3.5 基于文字给出回答,设想你在参加一场面试,Ecoute 实时地回答面试官的问题,然后你照着读;
  • ElevenLabs:文字转音频、声音克隆,有免费额度,包含每个月 10000 个 character;
  • RASK:上传一个视频,它会把视频中 A 语言的音频转换为 B 语言的音频,例如你用中文录了一个教学视频,但你的视频面向全球用户,可以用 RASK 把你这个中文视频转换为英文视频,RASK 会克隆你的声音并改为英文,收费,月付 39 刀只能转换 25 分钟的视频,超出部分 1 刀 1 分钟;

其他

  • Rewind:多次看到用户说这款产品很惊艳,这是一款安装在 Mac、iPhone 的软件,安装后它会自动对屏幕进行截屏,通过截屏记录下你看到过的所有信息,之后,你就可以通过 AI 随时搜索这些信息了,可以看看 v 站网友的强烈推荐,一篇分析 Rewind 技术原理的文章
  • Wiseone:一个浏览器插件,浏览网页时,Wiseone 会自动标注页面中的专有名词,把鼠标放上去就能看到这些名词的解释,Wiseone 还能帮你总结网页的内容,你也可以向 Wiseone 就网页内容进行提问等,免费,我测试发现它不支持中文;
  • ChatALL:一个整合了 ChatGPT、Bing Chat、Bard、Claude 等多个 AI 服务的应用,问一次问题,以上所有服务同时给出答案,避免你在多个服务之间来回切换,想法很好,不过应用有点卡,反应有点慢;
  • News Minimalist:加拿大开发者写的一个服务,每天用 GPT API 读取网上的热门新闻,并给它们打分,且总结出每篇新闻的概要,用户可以阅读指定分数区间的新闻,免费用户只能看 6 分及以上的新闻的概要,付费用户 10 刀/月,可看所有新闻的概要;
  • Photo2Math:类似国内的搜题应用,拍下你不懂的数学题,把图片上传给它,它会用 AI 尝试给出答案;

其他

  • doc-chatbot:上传文档,然后通过提问题的方式了解文档的内容,基于 GPT-4、Pinecone、LangChain、MongoDB 创建,可以部署在 Vercel;
  • Chat2DB:用户用自然语言描述他需要从数据库获取什么数据,AI 把自然语言转换为数据库查询语言;
  • privateGPT:这个项目手把手教你怎么在你自己的电脑部署一个 GPT 应用,这里的 private 是指你把你的个人文档去喂模型,然后你和这个 privateGPT 聊天的时候,就可以基于你的个人文档给出回答,不需要联网,个人数据永远不会泄漏到你的电脑之外,不过回答速度很慢,20 ~ 30s,privateGPT 是基于 GPT4All 创建的;
  • GPT4All:是一个可以让所有人在自己的电脑上部署一个类似 ChatGPT 的基于大语言模型的聊天机器人的开源项目,当然智能程度肯定比不上 OpenAI 的 ChatGPT,GPT4All 有超过 10 个大语言模型供用户选择,因为是本地部署本地使用,所以要把语言模型下载下来,每个模型的体积大概是 3 ~ 8GB;
  • anse 一个开源的基于网页的 AI 聊天工具,填入自己的 OpenAI 的 key 就可以使用;
  • chatGPT-shell-cli:一个在命令行中使用 chatGPT 的工具,需要提供自己的 OpenAI key;
  • Albus:把团队散布于各平台(目前主要是 Notion、Goolge Drive)的内容通过 Albus 的 AI 能力整合在一起,让团队成员更有效地利用这些信息;
donation赞赏
thumbsup0
thumbsdown0
暂无评论