AI 项目汇总收集

有一个叫 There's an AI for that 的网站，该网站收集了五千多个 AI 应用或项目，并以每天 1 ~ 5 个的速度增加中，如果你想第一时间了解人们都开发了什么有趣的 AI 应用，不妨看看这个网站。

最近更新于：2023-08-23

面向开发者

1、面向开发者的开发平台或工具；2、一些需要专业知识才能使用的项目，这些项目可能处于早期探索阶段，可能只有一个简单的 demo。

开发平台和工具

Hugging Face：可能是目前最受欢迎的 AI 平台或社区，它的模型库有超过 20 万个各种模型，它的数据集有超过四万个各种数据集，它的 Spaces 还有将近八万个各种 ML apps，除此之外还有更多其他开发资源；
ModelScope：魔塔社区，国内一个类似 Hugging Face 的网站，阿里巴巴达摩院联合发起，它的自我介绍：汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。截止到 2023-06-29 它的模型库有 928 个模型，数据集不到 500 个；
Replicate：开发者如果想使用某个 AI 模型，无需自行搭建服务器然后自行部署 AI 模型，只需要使用 Replicate 的 API，并告诉该 API 一个代表某个模型的字符串即可，这个模型你可以从 Replicate 的模型库中选择，也可以相传自己的模型，文档有例子；
Gradio：一个用来开发 Machine Learning 网页应用的框架，网站发布后会部署在 Hugging Face Spaces 中，可大大提升开发效率，如果你要为你的 AI 模型写一个网页 demo，用它应该是最快最方便的；
Dify：国人开发的 AI 应用开发平台，可以快速创建 AI 应用并通过 API 向外部提供调用，可以集成或创建插件，还提供了数据集功能；
PyTorch：一个用来构建深度模型的框架，是 Torch 的 Python 重构版，由 Facebook 发布维护，PyTorch Hub 是一个可以让开发者用一行代码拉取他所需要的模型；
LlamaIndex：一个帮助开发者开发大语言模型的数据框架，提供了一套开发工具，和 LangChain 是类似的产品；
LangChain：一个帮助开发者开发大语言模型的框架，可以让开发者把不同模型 chain 起来，类似 LlamaIndex；
semantic-kernel：微软出品，和 LangChain 是同类产品；
向量数据库：
- Pinecone：这是一个 Vector 数据库（向量数据库），自称 Long-term Memory for AI；
- chroma：一个开源的 Vector 数据库（向量数据库），支持部署在自己的电脑，预计 2023 年 Q3 上线一个付费的托管版，类似 Weaviate；
- Weaviate：一个开源 Vector 数据库（向量数据库），类似 chroma；
Vercel AI SDK：Vercel 出品的 AI 开发工具；
TypeChat：微软出品，使用 Typescript 的 type 语法来定义自然语言的 interface，博客文章；
Llama 2：Meta 出品的、开源的、可免费商用的通用大模型，不懂技术的大众用户可以通过 Poe 使用基于这个模型搭建的聊天机器人，下文有讲；
cohere：一个提供大模型服务的商业公司，它的产品没有像 ChatGPT 的这种聊天机器人，所以网上关于这家公司的讨论的不多，它目标用户是企业或开发者，产品其实就是 API；

图片

Stable Diffusion：技术上可能稍逊色于 Midjourney，但 Stable Diffusion 胜在开源，你可以用 Stable Diffusion Web UI 在自己的电脑上部署一个 Stable Diffusion，也得益于它开源，网上有很多围绕 SD 的产品，有人收集了几百款之多；
StyleDrop：Goolge 出品，文字转图片，支持提供一张参考图，生成风格高度一致的图片，很不错；
InstructPix2Pix：University of California 出品，用自然语言吩咐 AI 去修改图片的工具，类似 ControlNet；
ControlNet：选择一张图片，然后用文字告诉 AI 怎么修改这张图片，一个简单的例子是告诉 AI 把图片上的花改成草，类似 InstructPix2Pix；
ImageBind：Facebook 出品，这是一种支持 embed 6 种模态的模型，这六种模态分别是 images、text、audio、depth、thermal、IMU data，提供了一个 online demo，可以很好地帮助你理解它能做什么，上海人工智能实验室通用视觉团队成员开源了一个 ImageBind 的实现 Anything2Image，可以让你在本地部署；
DragGAN：多机构共同出品，一种通过拖动图片上某几个点去修改图片的模型，其官网有视频演示，该视频在网络上产生了很大反响，drag 代表拖动，GAN 是 generative adversarial network 的简称，代码预计 2023/06 发布，但上海人工智能实验室通用视觉团队提前复现了 DragGAN 的代码，可以让你在本地部署，2023-06-29 补充：官方代码已正式开源，并提供了在本地部署的方法；
AnimeGANv3：顾名思义，这是 AnimeGAN 的 v3 版本，可以把照片转换成漫画风格的图片，有一段时间经常看到这种头像，支持转换视频，例子，用 Gradio 写的部署在 Hugging Face 的 Demo；
BLIP：主要用来识别、解释一张图片，给它一张图片，你就可以通过对话的方式和它聊这张图片；
CLIPSeg：Seg 是 Segmentation，通过文字或图片 Prompt，来对图片中的物体进行分离；
FaceChain：似乎是妙鸭的开源版，阿里出品；

音频

Riffusion：基于 Stable Diffusion 的文字生成音乐的开源模型，它的官网有其技术原理分享，简单点说，就是利用 Stable Diffusion 把文字转换成图片，但这里的图片不是我们常见的那种图片，而是声谱图（spectrogram），最后再把声谱图转换为声音，你可以在它的官网体验，官网也开源；
Whisper：OpenAI 出品的语音识别模型，开源，对英文的支持最好，对中文的支持在它支持的语言中大概在中等水平，有多种体积的模型可供选择，有开发者基于 Whisper 开发了桌面端应用，例如 Buzz，更多围绕 Whisper 开发的项目可查阅 awesome-whisper；
MMS：Meta 出品的多语言识别模型，支持超过 1000 种语言，作为对比，Whisper 只支持 100 种；
SeamlessM4T：Meta 出品的可以实现语音和文本、语音和语音互转的大模型，支持跨语言转换，有 demo 可以体验，我简单试了一下中文语音转英文语音，不过效果一般；
AudioCraft：Meta 出品的用文字生成音乐或声音的模型，包括两个子模型，分别是 MusicGen、AudioGen，顾名思义，前者用来生成音乐，后者用来生成各种声音，例如警车声、狗叫、口哨等，AudioCraft 官网给出了例子，但没有可以让用户试用的 Demo，但有人在 HuggingFace 部署了一个 MusicGen Demo，AudioCraft 还有一个叫 EnCodec 的关键组成部分，这是一个基于大模型的音频编解码器；

视频

Animated Drawings：Meta 的开源项目，看起来很好玩，可以把用户画的画变成动画视频；
CoDeF：Content Deformation Fields 的缩写，有点像 ControlNet，但处理的是视频不是图片，用文字告诉大模型怎么修改一个视频，大模型就会按照要求修改这个视频，官网有示例；

AutoGPT

AutoGPT：尝试让 GPT-4 全自动执行，非常热，Github 有十几万 star；
BabyAGI：类似 AutoGPT；
CAMEL：类似 AutoGPT；
Generative Agents：类似 AutoGPT；
网上有不少围绕 AutoGPT 开发的面向大众用户的项目，例如：
- GodMode：名称起得不错，上帝模式，这是一个网页服务，是 autoGPT、babyAGI 的一个实现，用户需要提供自己的 OpenAI API 去使用；
- Cognosys：这类 AutoGPT 的实现都会自动拆分步骤，然后逐一执行，直到获得结果；
- AgentGPT
- aomni

其他

InternGPT：上海人工智能实验室通用视觉团队出品，internGPT 有点像 ChatGPT，名称代表了 interaction（交互）、nonverbal（非语言）和 ChatGPT，ChatGPT 是基于文字交互，InternGPT 则通过整合了市面上一些知名开源模型（例如 DragGAN、ImageBind 等），让用户可以通过文字、和非文字的方式进行交互；
TaskMatrix：把 ChatGPT 和多个视觉模型结合起来，实现聊天时发送、接收图片，图片的处理上它用到了 Stable Diffusion、ControlNet、InstructPix2Pix、CLIPSeg、BLIP；
h2o.ai：一个开源的 AI 平台，目前主要有 h2oGPT、H2O LLM Studio 两款产品；
acheong08/Bard：Google Bard 网页 API 的 reverse engineering，可以在命令端调用，还可以作为一个库整合进自己的应用；
acheong08/EdgeGPT：微软 Bing Chat 的 API 的 reverse engineering；

面向用户

面向大众用户的产品，能够开箱即用的产品，或虽然有一点门槛但能提供完整服务的产品。

聊天机器人

包括通用性聊天机器人、经过定义的拥有人物个性的聊天机器人，以及通过聊天这种形式实现的各种专用性机器人。

ChatGPT：OpenAI 官方出品，国内 IP 无法使用，基于 GPT-3.5 的聊天机器人免费，基于 GPT-4 的聊天机器人收费，如果你想学习如何更好地向 ChatGPT 提问，可以看看 ShareGPT，这个网站收集了超过 32 万个 ChatGPT 对话记录；
Claude：ChatGPT 平替，我经常觉得它比 ChatGPT 更好用，网上有一些大模型排名榜单，就通用大模型这个领域，Claude 应该是仅次于 ChatGPT，而且它对国内用户来说更容易打开；
Perplexity：它会联网获取实时数据，回复中还会给出相关信息源，有理有据，这和 Google Bard、Bing Chat 类似，但 Bing Chat 的回答有时候太简洁，可能是担心冲击 Bing 搜索引擎？Perplexity 没有这种顾虑，所以答案往往比较详细，不需要再打开消息源查看更多，据我观察它还比 Bard、Bing Chat 快；
Poe：Quora 出品，一个集成了多种大语言模型的客户端，其中基于 GPT-3.5、Claude Instant、Google PaLM、Llama-2-70b 等模型的聊天机器人免费，不限制国内 IP，如果你想第一时间使用市面上的热门大模型，可以关注 Poe，比如 Meta 发布 Llama-2 没过多久，Poe 就集成了，而且免费使用；
Pi：一个免费的聊天机器人，可以选择让它用语音回复，语音很接近真人，类似 Character.AI 和 MyShell，会像一个真人和你展开互动，界面很简洁，不支持中文，其背后的公司 Inflection AI 由前谷歌 DeepMind 员工创办，2023 年 6 月获得 13 亿美金融资；
HuggingChat：Hugging Face 出品，速度不错，但准确性比不上 GPT、Claude，中文支持还很差，有时候会提示太多人用了，暂时无法回复；
Bing Chat：必应搜索的聊天机器人，和 ChatGPT、Claude 的不同之处是，它每一次回复都会从网络查找实时的信息，所以更不容易犯错，但速度也慢得多；
Google Bard：谷歌搜索的聊天机器人，截止到 2023/06/11 我觉得它比 Bing Chat 好用，因为 Bing 越来越不会把答案直接写在回复中，而是进行高度概括性的回复，然后提示用户点击链接查看更多，这就失去了使用聊天机器人的意义，很多时候我们只想直接看到答案；
Character.AI：用户可以定义各种各样的 Character，即角色或人物，例如 Elon Musk，还可以公开这些 Character，接着用户就可以和它们聊天了，像和一个真人聊天，但对方永远不会把你不理你，免费，但有收费功能；
MyShell：国人开发，类似 Character.AI，但支持语音和文字回复，语音也可以模拟某个人物，MyShell 自称是 Web3 平台，可以用虚拟货币例如以太坊购买更多的聊天额度；
Hello History：用 AI 训练了很多历史人物，让用户可以和历史人物对话，有 20 条免费消息额度，试了一下，对话速度很快，每年 35 美金可以解锁每月最多 1000 条聊天消息；
TextGPT：和 ChatGPT 和 Poe 差不多，不过它是通过 iMessage 进行对话，收费，嗯，iMessage 原来也可以做机器人啊；

写代码

phind：这不是一个会给你生成代码的服务，而是一个面向开发者的搜索引擎，代码相关的问题你在 phind 搜可能比在 google 搜更有效，我喜欢这款产品，它还出了一个 VScode 插件；
GitHub Copilot：GitHub 官方出品，可能是最早发布的基于 AI 的代码助手，它会根据当前代码的上下文，以及用户通过 comment 提供的 prompt 给出代码建议，个人用户 10 刀每月；
GitHub Copilot Labs：GitHub Copilot 的试验版，用来探索新功能，GitHub Copilot 用户需要申请；
CodeWhisperer：Amazon 出品，截止到 2023/06/11 免费，根据评论和现有代码实时生成从代码片段到全函数的代码建议，还可以扫描代码以检测难以发现的漏洞，并获取代码建议以立即修复这些漏洞；
Codeium：类似 Github Copilot 和 Amazon CodeWhisperer 的代码自动补全、建议的工具，以插件的方式工作，而不是自己搞一个编辑器，个人开发者永久免费，面向企业用户收费；
StarCoder：Hugging Face 和 ServiceNow 共同出品的写代码模型，提供了 VSCode 插件，免费；
Cursor：一款基于 GPT-3.5 和 GPT-4 的代码编辑器，可以通过聊天的方式帮助开发者写代码，基于 GPT-3.5 免费，基于 GPT-4 收费，获得 OpenAI 投资；
bloop：也是一款利用 GPT-4 帮助开发者写代码的软件，但它的定位不是代码编辑器，更多的是一款代码阅读器，看源码的好帮手，它支持使用自然语言搜索代码，个人用户免费；
Warp：一款基于 AI 的终端应用，用 Rust 写，2023 年 6 月宣布获得 5000 美金的 B 轮融资；
Cody：读取你的整个项目的代码，然后你可以问 Cody 任何该项目的有关代码的问题，免费额度够用；

生成图片

Midjourney：目前效果最好的文字生成图片的服务，截止到 2023/06/11 还没有网页应用，也没有独立的 APP，用户想用的话只能用它的 Discord 机器人，收费；
DreamStudio：Stable Diffusion 官方网页应用，Stable Diffusion 是开源的，但如果你不想自己部署，可以用 DreamStudio，收费，DreamStudio 后来也开源了，开源版叫 StableStudio；
DALL·E：OpenAI 的文字生成图片的服务，没有 ChatGPT 那么成功，2023/04/06 之前注册的用户每个月可以获得少量免费额度；
Stable Diffusion Web UI：一个截止到 2020/06/11 有超过 8 万 Star 的开源项目，作者是 AUTOMATIC1111，网友经常叫它 A1111，该项目可以让用户在自己的电脑上部署 Stable Diffusion，从而可以免费地生成图片，支持通过插件的方式扩展功能，例如 ControlNet，有一定的使用门槛，但有详细的使用说明；

音频

Buzz：基于 Whisper 的桌面端应用，开源免费，可离线把语音转换为文字，更多围绕 Whisper 开发的项目可查阅 awesome-whisper；
Aiko：支持 iOS、iPadOS、macOS，知名开发者 Sindre Sorhus 的作品，免费，使用 Whisper large-v2 模型，所以应用体积有点大，比如 iOS 版是 2GB，更多围绕 Whisper 开发的项目可查阅 awesome-whisper；
飞书妙记：语音转文字，需要上传音频或视频，不支持离线使用，免费额度通常够用，根据用户的评测，它对中文的支持比 Whisper 好；
Ecoute：一个 Python 开源项目，利用 Whisper 进行实时语音转文字，同时利用 GPT-3.5 基于文字给出回答，设想你在参加一场面试，Ecoute 实时地回答面试官的问题，然后你照着读；
ElevenLabs：文字转音频、声音克隆，有免费额度，包含每个月 10000 个 character；
RASK：上传一个视频，它会把视频中 A 语言的音频转换为 B 语言的音频，例如你用中文录了一个教学视频，但你的视频面向全球用户，可以用 RASK 把你这个中文视频转换为英文视频，RASK 会克隆你的声音并改为英文，收费，月付 39 刀只能转换 25 分钟的视频，超出部分 1 刀 1 分钟；

其他

Rewind：多次看到用户说这款产品很惊艳，这是一款安装在 Mac、iPhone 的软件，安装后它会自动对屏幕进行截屏，通过截屏记录下你看到过的所有信息，之后，你就可以通过 AI 随时搜索这些信息了，可以看看 v 站网友的强烈推荐，一篇分析 Rewind 技术原理的文章；
Wiseone：一个浏览器插件，浏览网页时，Wiseone 会自动标注页面中的专有名词，把鼠标放上去就能看到这些名词的解释，Wiseone 还能帮你总结网页的内容，你也可以向 Wiseone 就网页内容进行提问等，免费，我测试发现它不支持中文；
ChatALL：一个整合了 ChatGPT、Bing Chat、Bard、Claude 等多个 AI 服务的应用，问一次问题，以上所有服务同时给出答案，避免你在多个服务之间来回切换，想法很好，不过应用有点卡，反应有点慢；
News Minimalist：加拿大开发者写的一个服务，每天用 GPT API 读取网上的热门新闻，并给它们打分，且总结出每篇新闻的概要，用户可以阅读指定分数区间的新闻，免费用户只能看 6 分及以上的新闻的概要，付费用户 10 刀/月，可看所有新闻的概要；
Photo2Math：类似国内的搜题应用，拍下你不懂的数学题，把图片上传给它，它会用 AI 尝试给出答案；

其他

doc-chatbot：上传文档，然后通过提问题的方式了解文档的内容，基于 GPT-4、Pinecone、LangChain、MongoDB 创建，可以部署在 Vercel；
Chat2DB：用户用自然语言描述他需要从数据库获取什么数据，AI 把自然语言转换为数据库查询语言；
privateGPT：这个项目手把手教你怎么在你自己的电脑部署一个 GPT 应用，这里的 private 是指你把你的个人文档去喂模型，然后你和这个 privateGPT 聊天的时候，就可以基于你的个人文档给出回答，不需要联网，个人数据永远不会泄漏到你的电脑之外，不过回答速度很慢，20 ~ 30s，privateGPT 是基于 GPT4All 创建的；
GPT4All：是一个可以让所有人在自己的电脑上部署一个类似 ChatGPT 的基于大语言模型的聊天机器人的开源项目，当然智能程度肯定比不上 OpenAI 的 ChatGPT，GPT4All 有超过 10 个大语言模型供用户选择，因为是本地部署本地使用，所以要把语言模型下载下来，每个模型的体积大概是 3 ~ 8GB；
anse 一个开源的基于网页的 AI 聊天工具，填入自己的 OpenAI 的 key 就可以使用；
chatGPT-shell-cli：一个在命令行中使用 chatGPT 的工具，需要提供自己的 OpenAI key；
Albus：把团队散布于各平台（目前主要是 Notion、Goolge Drive）的内容通过 Albus 的 AI 能力整合在一起，让团队成员更有效地利用这些信息；