Gemini 2.5 को जमीन से बहुमुखी होने के लिए बनाया गया है, मूल रूप से पाठ, चित्र, ऑडियो, वीडियो और कोड में सामग्री को समझना और उत्पन्न करना है। I/O में, हमने दिखाया कि कैसे मिथुन 2.5 नए AI- संचालित ऑडियो संवाद और पीढ़ी क्षमताओं के साथ एक महत्वपूर्ण कदम आगे बढ़ाता है।
हम पहले से ही इन मॉडलों का उपयोग कर रहे हैं ताकि कई उत्पादों, प्रोटोटाइप और भाषाओं में वैश्विक स्तर पर उपयोगकर्ताओं को ऑडियो लाया जा सके। नोटबुकलम के ऑडियो ओवरव्यू और प्रोजेक्ट एस्ट्रा केवल दो उदाहरण हैं। यहां आप मिथुन 2.5 की मूल ऑडियो क्षमताओं के साथ क्या कर सकते हैं, इस पर एक करीब से देखें |
वास्तविक समय ऑडियो संवाद
मानवीय बातचीत समृद्ध और सूक्ष्म होती है, जिसका अर्थ सिर्फ़ कही गई बातों से ही नहीं बल्कि बोलने के तरीके से भी व्यक्त होता है – स्वर, उच्चारण और यहां तक कि गैर-भाषण स्वरों जैसे कि हंसी के ज़रिए। हमारा मानना है कि बातचीत एआई के साथ बातचीत करने का एक मुख्य तरीका होगा। यही कारण है कि जेमिनी ऑडियो में मूल रूप से तर्क और भाषण उत्पन्न करता है, जिससे प्रभावी, वास्तविक समय संचार संभव होता है।
जेमिनी 2.5 फ्लैश पूर्वावलोकन सुविधाओं के साथ मूल ऑडियो संवाद:
प्राकृतिक वार्तालाप: उल्लेखनीय गुणवत्ता, अधिक उपयुक्त अभिव्यक्ति और लय (लय के पैटर्न) की आवाज़ की बातचीत, बहुत कम विलंबता के साथ वितरित की जाती है ताकि आप तरलता से बातचीत कर सकें।
शैली नियंत्रण: प्राकृतिक भाषा संकेतों का उपयोग करके, आप बातचीत के भीतर डिलीवरी को अनुकूलित कर सकते हैं, इसे विशिष्ट लहजे को अपनाने, स्वर और भावों की एक श्रृंखला बनाने और यहां तक कि फुसफुसाने के लिए निर्देशित कर सकते हैं।
टूल एकीकरण: जेमिनी 2.5 संवाद के दौरान टूल और फ़ंक्शन कॉलिंग का उपयोग कर सकता है। यह इसे Google खोज जैसे स्रोतों से वास्तविक समय की जानकारी को शामिल करने या कस्टम डेवलपर-निर्मित टूल का उपयोग करने की अनुमति देता है, जिससे बातचीत अधिक व्यावहारिक हो जाती है।
बातचीत संदर्भ जागरूकता (सक्रिय ऑडियो): हमारा सिस्टम पृष्ठभूमि भाषण, परिवेशीय वार्तालाप और अन्य अप्रासंगिक ऑडियो को समझने और अनदेखा करने के लिए प्रशिक्षित है, जब उचित हो तो प्रतिक्रिया देता है। मूल रूप से, यह समझता है कि कब नहीं बोलना है।
ऑडियो-वीडियो समझ: स्ट्रीमिंग ऑडियो और वीडियो से मूल समर्थन के साथ, जेमिनी 2.5 वीडियो फ़ीड में या स्क्रीन शेयरिंग के माध्यम से जो कुछ भी देखता है, उसके बारे में आपसे बातचीत कर सकता है।
बहुभाषी: हमारी 24+ समर्थित भाषाओं में से किसी में भी बातचीत करें, या एक ही वाक्यांश के भीतर आसानी से भाषाओं को मिलाएँ।
भावपूर्ण संवाद: जेमिनी 2.5 उपयोगकर्ता की आवाज़ के लहज़े पर प्रतिक्रिया करता है, यह पहचानते हुए कि अलग-अलग तरीके से बोले गए एक ही शब्द बहुत अलग बातचीत को जन्म दे सकते हैं।
उन्नत सोच संवाद: जेमिनी की तर्क क्षमताएँ इसकी बातचीत को बेहतर बना सकती हैं, जिससे सभी सुविधाओं में समग्र रूप से बेहतर प्रदर्शन होता है। इससे ज़्यादा सुसंगत और बुद्धिमान बातचीत होती है, खास तौर पर जटिल तर्क कार्यों के लिए।
नियंत्रण योग्य टेक्स्ट-टू-स्पीच (TTS)
टेक्स्ट-टू-स्पीच तकनीक का विकास तेज़ी से हो रहा है, और हमारे नवीनतम मॉडलों के साथ, हम स्वाभाविकता से आगे बढ़कर उत्पन्न ऑडियो पर अभूतपूर्व नियंत्रण देने जा रहे हैं। अब आप छोटे स्निपेट से लेकर लंबे-फ़ॉर्म के आख्यानों तक कुछ भी उत्पन्न कर सकते हैं, शैली, स्वर, भावनात्मक अभिव्यक्ति और प्रदर्शन को सटीक रूप से निर्धारित कर सकते हैं – सभी को प्राकृतिक भाषा संकेतों के माध्यम से नियंत्रित किया जा सकता है।
अतिरिक्त नियंत्रण और क्षमताओं में शामिल हैं:
गतिशील प्रदर्शन: ये मॉडल कविता से लेकर समाचार प्रसारण तक और आकर्षक कहानी सुनाने तक किसी भी चीज़ के लिए अभिव्यंजक रीडिंग के लिए पाठ को जीवंत कर सकते हैं। वे विशिष्ट भावनाओं के साथ प्रदर्शन भी कर सकते हैं और अनुरोध किए जाने पर उच्चारण भी कर सकते हैं।
बढ़ी हुई गति और उच्चारण नियंत्रण: डिलीवरी की गति को नियंत्रित करें और विशिष्ट शब्दों सहित उच्चारण में अधिक सटीकता सुनिश्चित करें।
मल्टी-स्पीकर संवाद निर्माण: यह मॉडल टेक्स्ट इनपुट से दो-व्यक्ति “नोटबुकएलएम-शैली” ऑडियो अवलोकन उत्पन्न कर सकता है, जिससे बातचीत के माध्यम से सामग्री अधिक आकर्षक बन जाती है।
बहुभाषी: 24 से अधिक भाषाओं के लिए समान समर्थन प्रदान करते हुए, Gemini 2.5 के साथ आसानी से बहुभाषी ऑडियो सामग्री बनाएँ।
नियंत्रणीय भाषण निर्माण (TTS) के लिए, जटिल संकेतों पर अत्याधुनिक गुणवत्ता के लिए Gemini 2.5 Pro पूर्वावलोकन चुनें, या किफ़ायती रोज़मर्रा के अनुप्रयोगों के लिए Gemini 2.5 फ़्लैश पूर्वावलोकन चुनें। यह डेवलपर्स को घोषणाओं, कहानियों, पॉडकास्ट, वीडियो गेम और बहुत कुछ के लिए गतिशील रूप से ऑडियो बनाने की अनुमति देता है।
सुरक्षा और जिम्मेदारी
हमने इन मूल ऑडियो सुविधाओं के लिए विकास प्रक्रिया के हर चरण में संभावित जोखिमों का सक्रिय रूप से आकलन किया है, जो हमने सीखा है उसका उपयोग करके अपनी शमन रणनीतियों को सूचित किया है। हम इन उपायों को कठोर आंतरिक और बाहरी सुरक्षा मूल्यांकन के माध्यम से मान्य करते हैं, जिसमें जिम्मेदार तैनाती के लिए व्यापक रेड टीमिंग शामिल है। इसके अतिरिक्त, हमारे मॉडल के सभी ऑडियो आउटपुट सिंथआईडी, हमारी वॉटरमार्किंग तकनीक के साथ एम्बेडेड हैं, ताकि AI-जनरेटेड ऑडियो को पहचानने योग्य बनाकर पारदर्शिता सुनिश्चित की जा सके।
डेवलपर्स के लिए नेटिव ऑडियो क्षमताएँ
हम Gemini 2.5 मॉडल में नेटिव ऑडियो आउटपुट ला रहे हैं, जिससे डेवलपर्स को Google AI Studio या Vertex AI में Gemini API के ज़रिए ज़्यादा समृद्ध, ज़्यादा इंटरैक्टिव एप्लिकेशन बनाने की नई क्षमताएँ मिलेंगी।
एक्सप्लोर करना शुरू करने के लिए, डेवलपर्स Google AI Studio के स्ट्रीम टैब में Gemini 2.5 Flash पूर्वावलोकन के साथ नेटिव ऑडियो डायलॉग आज़मा सकते हैं। Google AI Studio के भीतर Generate Media टैब में स्पीच जनरेशन का चयन करके Gemini 2.5 Pro और Flash दोनों के लिए प्रीव्यू में कंट्रोलेबल स्पीच जनरेशन (TTS) उपलब्ध है।
Read More : https://blog.google/technology/google-deepmind/gemini-2-5-native-audio/
Internal Link : https://tazabulletin.com/