ממילים לצלילים: הכירו את פוגאטו המודל החדש של NVIDIA

חוקרי בינה מלאכותית יוצרת (GenAI) מאנבידיה יצרו מודל AI עשיר, עוצמתי ומגוון ביותר להפקת צלילים מפקודות טקסט. פוגאטו (Fugatto) יכול להפוך הוראות טקסט פשוטות למוזיקה, קטעי קול, קולות וצלילים – וכל השילובים האפשריים ביניהם – במהירות ובקלות. המודל, שעדיין מצוי בשלב המחקרי, פותח עבור יוצרים, מוזיקאים, מלחינים, פרסומאים, מפתחי משחקים ותוכנות ואנשי תוכן.
 
פוגאטו יכול בין היתר ליצור מלודיה קצרה על פי הנחיות טקסטואליות, להוסיף או להסיר כלי נגינה משיר, לשלב אפקטים, להטמיע קולות ולשלב ביניהם בגמישות חסרת תקדים כך שלעיתים התוצאה היא צלילים או שילובים שאיש לא שמע מעולם – למשל, סקסופון שנובח כמו כלב או מיילל כמו חתול. המודל מאפשר גם ליצור קריינות באמצעות פקודה טקסטואלית ולשנות את המבטא או את האינטונציה של הדוברים (למשל מטון שמח לעצוב).

צפו בסרטון הדגמה


 
יכולת יוצאת דופן של פוגאטו היא ביצירת סאונדים עם מאפיינים שמשתנים ומתפתחים לאורך הזמן, למשל סאונד של סופת גשם עם רעש של רעמים שמתגברים בהדרגה ונמוגים לאיטם. בנוסף, בניגוד לרוב המודלים שיכולים רק ליצור מחדש על בסיס נתוני האימון שנחשפו אליהם, פוגאטו מאפשרת ליצור סאונד שמעולם לא נחשף אליו קודם.
 
מפיקים מוזיקליים יכולים להשתמש בפוגאטו כדי ליצור סקיצות או רעיונות ליצירות ולנסות סגנונות, קולות וכלי נגינה שונים. הם גם יכולים להוסיף אפקטים להקלטה קיימת, או לשפר את האיכות שלה. בפיתוח המודל היו מעורבים צוותים בינלאומיים על מנת להתאים אותו לשפות ומבטאים שונים. צוות הפיתוח אסף מיליוני דגימות אודיו לאימון המודל ואף פיתח אסטרטגיה המאפשרת לפוגאטו להתרחב וללמוד בעתיד ללא צורך בנתונים נוספים.
 
"זהו מודל מהפכני", אמר עידו זמישלני, מפיק וכותב שירים ומייסד-שותף של חברת הסטארטאפ One Take Audio המשתתפת ב-NVIDIA Inception, תוכנית הסטארטאפים של NVIDIA. "סאונד הוא ההשראה שלי, והיכולת לייצר צלילים חדשים בזמן אמת באולפן היא דבר מדהים בעיניי. ההיסטוריה של המוזיקה היא גם היסטוריה של טכנולוגיה. הגיטרה החשמלית הביאה לעולם את הרוקנרול. כשהסמפלר הופיע, ההיפ הופ נולד. כעת, עם בינה מלאכותית, אנחנו כותבים את הפרק הבא בתחום המוזיקה. יש לנו כלי מוזיקלי חדש וזה סופר מרגש".
 
פוגאטו פותח על בסיס עבודות קודמות של החוקרים במידול שפה, קידוד שמע, והבנת שמע. הגרסה המלאה שלו כוללת כ-2.5 מיליארד פרמטרים והוא אומן על גבי מערכות NVIDIA DGX, הכוללות 32 NVIDIA H100 Tensor Core GPUs, תוך שימוש בטכניקה ייחודית בשם ComposableART.
 

Recent Posts

המהפכה השקטה: הנתונים שמוכיחים שהעובד הישראלי התאהב בבינה המלאכותית

אם נדמה לכם שכולם מסביבכם נעזרים ב-ChatGPT , Gemini או כלי בינה מלאכותית אחר בזמן…

יוני 2, 2026

שריקת פתיחה להאקרים: פאלו אלטו מזהירה ממתקפות סייבר במונדיאל 2026

צוותי המחקר Unit 42 של חברת הסייבר פאלו אלטו נטוורקס מזהירים במחקר חדש, כי מונדיאל…

מאי 29, 2026

אינטל משיקה מעבדים חדשים לקונסולות גיימינג ניידות Intel Arc G-Series

אינטל הכריזה על Intel Arc G-Series, משפחת מעבדים חדשה שמיועדת למחשבי גיימינג ניידים. הסדרה תכלול בשלב…

מאי 29, 2026

מדד האינטרנט 2026: ChatGPT עוקף את אינסטגרם, וכמה מהישראלים יעזרו ב AI בבחירות?

אם חשבתם שאתם יודעים בדיוק איפה הישראלים מבלים את הזמן שלהם ברשת, שנת 2026 מביאה…

מאי 28, 2026

אנבידיה מתרחבת: קמפוס ענק בטייוואן והצצה לעידן ה-AI הפיזי

ג'נסן הואנג, מייסד ומנכ"ל ענקית השבבים אנבידיה (Nvidia), לא עוצר לרגע. בפגישת עובדים שנערכה היום…

מאי 27, 2026