full_logo_low.MP4
Using OpenAI Transcriptions(Whisper), Style-Bert-VITS2, Anthropic Claude 3 Opus.
Multiple speakers & Real-Time Voice Conversation.
WARNING: This repository does not contain character images, LLM and Audio Model Data.
Work In Progress
Uchinoko Studio is a web application designed to facilitate real-time voice conversations with AI. This is achieved by integrating various Large Language Models (LLMs), including Speech-To-Text LLMs like Whisper, Chat-based LLMs such as GPT-4, and Text-To-Speech LLMs like Bert-Vits2.
Uchinoko
is a Japanese word that means Waifu / My Daughter
.
See Article(Japanese Only): https://blog.potproject.net/2023/12/24/ai-web-uchinoko-studio/
- Real-time Voice Conversation
- Multiple speakers (Experimental)
- Fast Response(Maybe 1 second or less)
- Tailscale Support
- Run on Browser(Google Chrome Supported)
- Mobile Browser Support(iOS Safari, Android Chrome)
- Japanese Support(for now...)
- Chat-based LLM Support: OpenAI GPT(Cloud)、Anthropic Claude(Cloud)、Cohere Command(Cloud)、Gemini(Cloud)、Local LLM(OpenAI
/v1/chat/completions
Compatible) - STT Support: Whisper(Cloud), SpeechRecognition(Web API)
- TTS Support: Bert-Vits2(local), Style-Bert-VITS2(local), VOICEVOX(local)
- More bugs...
TODO: 環境不要で動作できるパッケージを配布することを予定しています。現在は以下の環境での動作が必要です。
- Go (Tested on 1.22.2/win-amd64)
- Node.js (Tested on 20.11.1/win-amd64)
- pnpm
.env.exampleを参考にserver/.env
を作成し
てください。
- Whisper(Cloud):
OPENAI_API_KEY
- SpeechRecognition(Web API): none
- OpenAI:
OPENAI_API_KEY
- Anthropic:
ANTHROPIC_API_KEY
- cohere:
COHERE_API_KEY
- Gemini:
GEMINI_API_KEY
LM StudioやOllamaのような、OpenAI互換のローカルLLMを使用することが出来ます。
OPENAI_LOCAL_API_KEY
andOPENAI_LOCAL_API_ENDPOINT
# Example (Using LM Studio)
OPENAI_LOCAL_API_KEY=
OPENAI_LOCAL_API_ENDPOINT=http://localhost:1234/
# Example (Using Ollama)
OPENAI_LOCAL_API_KEY=
OPENAI_LOCAL_API_ENDPOINT=http://localhost:11434/
このアプリケーションを使用する場合、以下のソフトウェアをローカルまたはネットワーク上で動作させておくことが前提です。
- VOICEVOXの場合:
VOICEVOX_ENDPOINT
にVOICEVOX Engine APIのエンドポイントを設定してください。 - BERTVITS2の場合:
BERTVITS2_ENDPOINT
にBert-VITS2 FastAPIのエンドポイントを設定してください。また、先にモデルのロードを行っていないと動作しません。 - STYLEBERTVIT2の場合:
STYLEBERTVIT2_ENDPOINT
にStyle-Bert-VITS2 API Serverのエンドポイントを設定してください。モデルのロードは自動で行ってくれるため不要です。Bert-VITS2のAPIとの互換性はありません。
- Tailscaleを使用する場合、起動時にコンソールより認証URLが表示されるので、そこから認証を行ってください。Tailscaleのアカウントが必要です。
TAILSCALE_ENABLED
をtrue
に設定すると、Tailscaleを使用してVPN上からアクセスできるようになります。- これにより、自宅で起動して外からhttps通信で無いと動作しないSafariやiOSからもアクセスできるようになります。
TAILSCALE_FUNNEL_ENABLED
をtrue
に設定すると、 Tailscale Funnel機能を使用してパブリックアクセスできるようになります。何のことかわからなければ変更しないでください。
## Easy Start (Windows)
run-win.bat
## Easy Start (Linux/mac)
run.sh
# Install Dependencies
cd front
pnpm install
pnpm build
# Running
cd ../server
go run main.go
# 自動でブラウザが立ち上がります。
# 立ち上がらない場合は、http://localhost:15000/ にアクセスしてください。
# 話者(チャットプロンプト/使用するモデルの設定)などは、ブラウザより設定が可能です
- Docs
- Frontend Design issue
- Add Multilingual Support(EN and CH)
- Fix Bugs...