اہم بدعت کریں گوگل کا نیا ٹیکسٹ ٹو اسپیچ AI بہت اچھا ہے ہمارا شرط ہے کہ آپ اسے حقیقی انسان سے نہیں کہہ سکتے

گوگل کا نیا ٹیکسٹ ٹو اسپیچ AI بہت اچھا ہے ہمارا شرط ہے کہ آپ اسے حقیقی انسان سے نہیں کہہ سکتے

کل کے لئے آپ کی زائچہ

کیا آپ AI پیدا کردہ کمپیوٹر تقریر اور ایک حقیقی ، زندہ انسان کے درمیان فرق بتا سکتے ہیں؟ ہوسکتا ہے کہ آپ نے ہمیشہ سوچا ہو کہ آپ کر سکتے ہیں۔ ہوسکتا ہے کہ آپ کو الیکسا اور سری کا شوق ہو لیکن یقین ہے کہ آپ ان دونوں میں سے کسی کو بھی کبھی بھی کسی حقیقی عورت سے الجھ نہیں سکتے ہیں۔

چیزیں بہت زیادہ دلچسپ ہونے والی ہیں۔ گوگل انجینئرز کو متن سے تقریر کے نظام کو تشکیل دینے میں سخت محنت کی جارہی ہے ٹیکوٹرون 2 . کے مطابق a کاغذ اس مہینے میں انھوں نے شائع کیا ، سسٹم سب سے پہلے متن کا ایک سپیکٹروگرام تیار کرتا ہے ، اس کی ایک بصری نمائندگی جس میں تقریر کی آواز آنی چاہئے۔ اس تصویر کو گوگل کے موجودہ WaveNet الگورتھم کے ذریعہ رکھا گیا ہے ، جو اس تصویر کو انتہائی قدرتی آواز دینے والی انسانی تقریر پیدا کرنے کے لئے استعمال کرتا ہے۔

اس طریقہ کار کو استعمال کرتے ہوئے ، محققین رپورٹ کرتے ہیں ، 'ہمارا ماڈل پیشہ ورانہ طور پر ریکارڈ شدہ تقریر کے لئے 4.58 کے ایم او ایس سے موازنہ کرنے والا 4.53 کا اوسط رائے اسکور (MOS) حاصل کرتا ہے۔' (ایک رائے عامہ کا اسکور ایک ٹیلی مواصلات کی اصطلاح ہے جو اس بات کی پیمائش کرتی ہے کہ زندگی سے سچائی کس طرح سنائی دیتی ہے۔)

جیسا کہ گوگل کے آڈیو نمونے ظاہر کرتے ہیں ، ٹیکوٹرون 2 سیاق و سباق سے اسم 'صحرا' اور فعل 'صحرا' کے ساتھ ساتھ اسم 'موجود' اور فعل 'موجود' کے مابین فرق کا پتہ لگاسکتا ہے اور اسی کے مطابق اس کے تلفظ کو تبدیل کرسکتا ہے۔ یہ سرمایے دار الفاظ پر زور دے سکتا ہے اور جب کوئی سوال کرنے کے بجائے کوئی بیان کرنے کے بجائے کوئی سوال پوچھتا ہے تو مناسب موڑ کا استعمال کرسکتا ہے۔

اور یہ ایسی عبارت تیار کرسکتا ہے جو انسانی تقریر سے اتنا مماثل لگتا ہے کہ فرق جاننا مشکل یا ناممکن ہے۔ اگر آپ یہ دیکھنا چاہتے ہیں کہ کتنا مشکل ہے تو ، گوگل کے پاس جائیں آڈیو نمونے صفحہ ، اور نمونوں کے آخری سیٹ پر سکرول کریں ، جس کا عنوان ہے 'ٹیکوٹرون 2 یا ہیومن؟' وہاں آپ کو ٹایکٹرون 2 اور ایک حقیقی شخص ملے گا جس میں ہر ایک کے جملے جیسے کہ: 'اس لڑکی نے اسٹار وار لپ اسٹک کے بارے میں ویڈیو بنایا تھا۔'

اسپیکر الرٹ: خود کو جانچنے کے لئے ، نمونے سنیں اور اندازہ لگائیں کہ یہ کون سا باقی کالم پڑھنے سے پہلے ہے۔

تو کون سے نمونے ٹیکسٹ ٹو اسپیچ ہیں اور کون سا حقیقی آواز ہے؟ گوگل کے انجینئر یہ نہیں کہہ رہے ہیں لیکن انہوں نے بہت بڑا اشارہ چھوڑ دیا ہے۔ .wav فائل کے نمونے میں سے ہر ایک میں ایک فائل نام ہوتا ہے جس میں اصطلاح 'Gen' یا 'gt' ہوتی ہے۔ کاغذ کی بنیاد پر ، یہ بہت ممکن ہے کہ 'جنن' ٹیکوٹرون 2 کے ذریعہ تیار کردہ تقریر کی نشاندہی کرتا ہے ، اور 'جی ٹی' حقیقی انسانی تقریر ہے۔ ('جی ٹی' ممکنہ طور پر 'زمینی سچائی ،' مشین لرننگ اصطلاح ہے جس کا بنیادی مطلب 'اصلی معاہدہ' ہے۔)

فرض کریں یہ درست ہے ، ٹیسٹ کے جوابات یہ ہیں۔

'اس لڑکی نے اسٹار وار لپ اسٹک کے بارے میں ایک ویڈیو بنائی۔'

نمونہ 1: اصلی انسان

نمونہ 2: ٹیکوٹرون 2

'اس نے کولمبیا یونیورسٹی سے سوشیالوجی میں ڈاکٹریٹ کی سند حاصل کی۔'

نمونہ 1: ٹیکوٹرون 2

نمونہ 2: اصلی انسان

'جارج واشنگٹن ریاستہائے متحدہ امریکہ کے پہلے صدر تھے۔'

نمونہ 1: ٹیکوٹرون 2

نمونہ 2: اصلی انسان

'میں رومانس کے لئے بہت مصروف ہوں۔'

نمونہ 1: اصلی انسان

نمونہ 2: ٹیکوٹرون 2

آپ کتنے ٹھیک ہیں؟ اور کیا آپ واقعی فرق بتاسکتے ہیں ، یا آپ کو صرف اندازہ کرنا تھا؟