חברת מטא (Meta), הודיעה על שחרור מספר כלי בינה מלאכותית AI בקוד פתוח, לטובת שימוש הקהילה המחקרית. מודלי בינה מלאכותית שפרסמה החברה, כוללים מודל טקסט-לתמונה, טקסט-למוזיקה, מודל לחיזוי טקסט, וטכניקה לסימון אודיו שנוצר ע"י בינה מלאכותית.

מודל JASCO ליצירת מוזיקה 

    בעוד שדגמים קיימים ליצירת אודיו, כמו MusicGen, מסתמכים כמעט לחלוטין על פקודות טקסט, המודל החדש JASCO מסוגל לקבל כקלט קטעי אודיו קיימים, בתוספת סוגים שונים של התניות והנחיות (כמו אקורדים, כלי נגינה, סגנונות או ביטים מסוימים) – וזאת כדי לשפר את השליטה על המוזיקה שנוצרה. חברת Meta משחררת היום את מסמך המחקר, לצד עמוד הדגמה של המודל, ותשחרר בהמשך את המודל וקוד המקור. 

    כך למשל, בין הדוגמאות ניתן למצוא עיבוד R&B עם תופים וחצוצרה לאגם הברבורים, או גרסת ג'אז לפתיחת האופרה כרמן. פרויקט מחקר זה הובל ע"י קבוצת חוקרים מ-Meta והאוניברסיטה העברית, ובהם: יוסי עדי, אור טל, אלון זיו ופליקס קרויק. 

    Meta Chameleon 

    Chameleon היא משפחה של מודלים שיכולה לשלב כל קומבינציה של טקסט ותמונה כפלט או כקלט (טקסט-לטקסט, טקסט-לתמונה, תמונה-לטקסט, טקסט-לתמונה-לטקסט, וכן הלאה). בשונה ממודלים אחרים, Chameleon משתמש בטוקניזציה מאוחדת עבור טקסט ותמונות יחד. אפשרויות השימוש הן כמעט אינסופיות – ניתן לדמיין למשל יצירת כיתובים יצירתיים לתמונות, או שילוב של פרומפטים של טקסט ותמונות כדי ליצור סצנה חדשה לגמרי. 

    היום, Meta משחררת רכיבים מרכזיים של דגמי Chameleon 7B ו-34B ברישיון מחקרי. הדגמים הללו מכווני-בטיחות ותומכים בקלט מעורב, ובפלט טקסטואלי בלבד – שישמש למטרות מחקריות. Meta נקטה צעדים לפיתוח מודלים אלה בצורה אחראית, אך החברה מכירה בכך שעדיין נותרו סיכונים, ובשלב זה אינה משחררת את דגם יצירת התמונות של Chameleon. 

    חיזוי מרובה-אסימונים

    לרוב מודלי השפה המודרניים יש מטרה ברורה לשמה אומנו: חיזוי המילה הבאה. למרות שגישה זו פשוטה וניתנת להרחבה, היא איננה יעילה במיוחד. משימה זו דורשת למידה בהיקף גדול פי כמה מונים, בהשוואה לילדים שלומדים לדבר לראשונה, על מנת להגיע לאותה רמה של בקיאות בשפה. 

    Meta מציעה גישה חדשה לפיתוח מודלי שפה טובים ומהירים יותר, תוך שימוש בחיזוי המבוסס על ריבוי אסימונים. באמצעות גישה זו, ניתן לאמן מודלי שפה לחזות מילים עתידיות מרובות בו-זמנית – במקום הגישה המסורתית שחוזה מילה אחת בכל פעם. גישה זו משפרת את יכולות הדגם, את יעילות האימון שלו, ואת מהירות החיזוי. ברוח המדע הפתוח, החברה משחררת את המודלים שהוכשרו מראש להשלמת קוד ברישיון לא-מסחרי ולמחקר בלבד לשימוש הקהילה המחקרית.

    AudioSeal – כלי לסימון אודיו שנוצר בידי AI

    כלי AI גנרטיבי מעודדים אנשים לשתף את היצירות שלהם עם החברים, המשפחה והעוקבים שלהם במדיה החברתית. Meta משחררת היום את AudioSeal, שהיא טכניקת "סימן המים" (watermark) הראשונה שנוצרה עבור אודיו, ותוכננה במיוחד במטרה לזהות דיבור שנוצר על ידי בינה מלאכותית. יכולת זו מאפשרת גם לאתר קטעים שנוצרו על ידי בינה מלאכותית בתוך קטע אודיו ארוך יותר. 

    בניגוד לשיטות מסורתיות הנשענות על אלגוריתמי פענוח מורכבים, גישת הזיהוי המקומי של AudioSeal מאפשרת תהליך מהיר ויעיל יותר – בשיעור של עד פי 485 בהשוואה לטכניקות קודמות. AudioSeal משוחררת תחת רישיון מסחרי – והיא מהווה כלי מחקרי אחד מני רבים ש-Meta חלקה לאחרונה כדי לסייע במניעת שימוש לרעה בכלי בינה מלאכותית.

    חדשות טכנולוגיה, בינה מלאכותית, סייבר ועוד - מור בסן

    תפריט נגישות