Die kalifornische KI-Firma MyShell hat vor Kurzem mit OpenVoice eine neue Open-Source-Software zur Stimmklonung vorgestellt. Diese bahnbrechende KI-Technologie ermöglicht es, Stimmen mit einer bislang unerreichten Geschwindigkeit und Präzision zu klonen. Entwickelt wurde OpenVoice von einem Forscherteam des Massachusetts Institute of Technology (MIT), der Tsinghua-Universität und MyShell selbst.
Der Prozess des Stimmklonens, bei dem eine künstliche Intelligenz eine existierende menschliche Stimme nachahmt, war bisher ein komplexes und zeitintensives Unterfangen. OpenVoice hingegen benötigt nur wenige Sekunden eines Audioausschnitts, um eine Stimme zu klonen und bietet gleichzeitig eine detaillierte Kontrolle über Tonfall, Emotion, Akzent, Rhythmus und mehr.
Im Rahmen einer Veröffentlichung auf der eigenen Plattform und auf HuggingFace, einer Open-Source-Community für maschinelles Lernen, hat MyShell demonstriert, wie OpenVoice arbeitet. Interessierte können dort die Technologie direkt ausprobieren und sich von der Qualität des KI-generierten Klangs überzeugen. MyShell folgt mit der Bereitstellung des OpenVoice-Algorithmen ihrer Philosophie, KI-Technologien für alle zugänglich zu machen.
Das OpenVoice-System besteht aus zwei AI-Modellen, die Hand in Hand arbeiten. Das erste Modell kümmert sich um Sprachstil, Akzente, Emotionen und andere Sprachmuster. Hierfür wurde es mit 30.000 Audioaufnahmen in verschiedenen Sprachen und mit verschiedenen Emotionen trainiert. Das zweite Modell, der sogenannte "Tonkonverter", hat aus über 300.000 Samples von 20.000 verschiedenen Stimmen gelernt. Durch die Kombination dieser beiden Modelle kann OpenVoice mit einem minimalen Datensatz sehr schnell eine Stimme klonen, was es von alternativen Technologien wie Metas Voicebox abhebt.
MyShell, das erst im Jahr 2023 gegründet wurde, hat bereits eine beträchtliche Benutzerbasis von über 400.000 Nutzern und Anfangsfinanzierungen in Höhe von 5,6 Millionen Dollar gesammelt. Das Unternehmen bietet eine dezentrale Plattform für die Erstellung und Entdeckung von KI-Apps. Neben der Stimmklonung bietet MyShell auch originale textbasierte Chatbot-Persönlichkeiten, Meme-Generatoren und von Nutzern erstellte Text-RPGs an. Einige Inhalte sind dabei hinter einer Abonnementgebühr versteckt.
Durch die Open-Source-Bereitstellung von OpenVoice über HuggingFace und gleichzeitige Monetarisierung seines breiteren App-Ökosystems hat MyShell eine Strategie entwickelt, die Nutzerzahlen auf beiden Plattformen zu steigern und gleichzeitig ein offenes Modell der KI-Entwicklung voranzutreiben.
Die Veröffentlichung von OpenVoice stellt einen signifikanten Fortschritt im Bereich der Sprachsynthese dar. Die Fähigkeit, Stimmen mit solch einer Präzision und in so kurzer Zeit zu klonen, könnte weitreichende Anwendungen in verschiedenen Bereichen haben, von der Unterhaltungsindustrie über die persönliche Assistenz bis hin zum Sprachlernen und zur verbessernden Kommunikation für Menschen mit Sprachbehinderungen.
Mit der Entscheidung, OpenVoice als Open-Source-Software zu veröffentlichen, trägt MyShell zur Demokratisierung von KI-Technologien bei und ermöglicht es Entwicklern weltweit, die Software zu nutzen und weiterzuentwickeln. Dies könnte nicht nur die Entwicklung von Anwendungen beschleunigen, sondern auch die Forschung im Bereich der künstlichen Intelligenz vorantreiben.
Die Ankündigung von OpenVoice ist auch ein Zeugnis für die wachsende Bedeutung von Open-Source-Projekten in der KI-Industrie, die Transparenz, Zusammenarbeit und Innovation fördern. Es bleibt spannend zu beobachten, wie sich OpenVoice in der Zukunft entwickeln wird und welche neuen Anwendungen und Dienste aus dieser Technologie entstehen werden.