Google Gemini Nedir?
Gemini çoklu modalite için sıfırdan inşa edilmiştir – metin, görüntü, video, ses arasında sorunsuz bir şekilde akıl yürütme. En iyi yapay zeka modeli hangi bilinmez ancak Google Gemini ile rekabette iddialı olduğunu dile getiriyor.
Google Yapay Zeka Gemini
Google CEO’su Sundar Pichai ‘nin sunumuyla tanıtılan Gemini Google kültüründen doğmuş insanlara bilgi vermek ve organize olmasını sağlamak için üretilen bir yapay zeka modeli. Gemini ile ilgili detayları Pichai ve Google Ai ekibi şöyle açıklıyor:
En yetenekli yapay zeka modeli Gemini’nin ilk versiyonu
Gemini TEXT
Capability | Benchmark | Description | Gemini Ultra | GPT-4VAPI numbers calculated where reported numbers were missing |
---|---|---|---|---|
Genel | MMLU | Soruların 57 konuda temsili (STEM, beşeri bilimler ve diğerleri dahil) | 90.0%CoT@32* | 86.4%5-shot* (reported) |
Akıl yürütme | Big-Bench Hard | Çok adımlı muhakeme gerektiren çeşitli zorlu görevler | 83.6%3-shot | 83.1%3-shot (API) |
DROP | Okuduğunu anlama (F1 Puanı) | 82.4Variable shots | 80.93-shot (reported) | |
HellaSwag | Günlük görevler için sağduyulu muhakeme | 87.8%10-shot* | 95.3%10-shot* (reported) | |
Matematik | GSM8K | Temel aritmetik manipülasyonlar (İlkokul matematik problemleri dahil) | 94.4%maj1@32 | 92.0%5-shot CoT (reported) |
MATH | Zorlu matematik problemleri (cebir, geometri, pre-kalkülüs ve diğerleri dahil) | 53.2%4-shot | 52.9%4-shot (API) | |
Kod | HumanEval | Python code üretimi | 74.4%0-shot (IT)* | 67.0%0-shot* (reported) |
Natural2Code | Python kod üretimi. HumanEval benzeri, web’e sızdırılmamış yeni veri seti | 74.9%0-shot | 73.9%0-shot (API) |
*Diğer metodolojilerle performansa ilişkin ayrıntılar için teknik rapora bakın
Gemini, tüm multimodal görevlerde SOTA performansını geride bırakıyor.
MULTIMODAL
Yetenekler | Benchmark | Açıklama Aksi belirtilmedikçe daha yüksek daha iyidir | Gemini | GPT-4V Yetenek GPT-4V’de desteklenmediğinde listelenen önceki SOTA modeli |
---|---|---|---|---|
Image | MMMU | Çok disiplinli üniversite düzeyinde muhakeme problemleri | 59.4%0-shot pass@1 Gemini Ultra (pixel only*) | 56.8%0-shot pass@1 GPT-4V |
VQAv2 | Doğal görüntü anlayışı | 77.8%0-shot Gemini Ultra (pixel only*) | 77.2%0-shot GPT-4V | |
TextVQA | Doğal görüntüler üzerinde OCR | 82.3%0-shot Gemini Ultra (pixel only*) | 78.0%0-shot GPT-4V | |
DocVQA | Belge anlayışı | 90.9%0-shot Gemini Ultra (pixel only*) | 88.4%0-shot GPT-4V (pixel only) | |
Infographic VQA | İnfografik anlayışı | 80.3%0-shot Gemini Ultra (pixel only*) | 75.1%0-shot GPT-4V (pixel only) | |
MathVista | Görsel bağlamlarda matematiksel akıl yürütme | 53.0%0-shot Gemini Ultra (pixel only*) | 49.9%0-shot GPT-4V | |
Video | VATEX | İngilizce video altyazısı(CIDEr) | 62.74-shot Gemini Ultra | 56.04-shot DeepMind Flamingo |
Perception Test MCQA | Video soru cevaplama | 54.7%0-shot Gemini Ultra | 46.3%0-shot SeViLA | |
Audio | CoVoST 2 (21 languages) | Otomatik konuşma çevirisi(BLUE puanı) | 40.1Gemini Pro | 29.1Whisper v2 |
FLEURS (62 languages) | Otomatik konuşma tanıma(kelime hata oranına göre, daha düşük daha iyidir) | 7.6%Gemini Pro | 17.6%Whisper v3 |
*Gemini görüntü kıyaslamaları yalnızca pikseldir – OCR sistemlerinden yardım alınmaz
Gemini comes in three sizes
Ultra
Son derece karmaşık görevler için en yetenekli ve en büyük modelimiz.
Pro
Geniş bir görev yelpazesinde ölçeklendirme için en iyi modelimiz.
Nano
Cihaz üzerindeki görevler için en verimli modelimiz.
Gemini doğal olarak çok modludur, bu da size her türlü girdiyi her türlü çıktıya dönüştürme potansiyeli verir.
Gemini’nin çok multi mod özelliklerini keşfedebilir muhakeme yeteneklerini aşağıdaki testlerden izleyebilirsiniz.
Prompt tekniklerini öğrenmek ve kendinizi geliştirmek için Google Developer Blog’da Gemini bölümüne bakabilirsiniz.
Gemini’yi doğal olarak çok modlu olacak şekilde tasarladık ve en başından itibaren farklı modaliteler üzerinde önceden eğittik. Ardından, etkinliğini daha da iyileştirmek için ek multimodal verilerle ince ayar yaptık.
Gemini 1.0’ın gelişmiş çok modlu akıl yürütme yetenekleri, karmaşık yazılı ve görsel bilgilerin anlamlandırılmasına yardımcı olabilir. Bu da onu, büyük miktarda veri arasında ayırt edilmesi zor olabilecek bilgiyi ortaya çıkarma konusunda benzersiz bir beceriye sahip kılıyor.
Bilgiyi okuma, filtreleme ve anlama yoluyla yüz binlerce belgeden içgörü çıkarma konusundaki olağanüstü yeteneği, bilimden finansa kadar birçok alanda dijital hızlarda yeni atılımlar yapılmasına yardımcı olacaktır.
Metin, görüntü, ses ve daha fazlasını anlama
Gemini 1.0 metin, görüntü, ses ve daha fazlasını aynı anda tanımak ve anlamak üzere eğitilmiştir, böylece nüanslı bilgileri daha iyi anlar ve karmaşık konularla ilgili soruları yanıtlayabilir. Bu da onu özellikle matematik ve fizik gibi karmaşık konulardaki akıl yürütmeleri açıklamakta başarılı kılıyor.
Gelişmiş kodlama
Gemini’nin ilk sürümü Python, Java, C++ ve Go gibi dünyanın en popüler programlama dillerini anlayabilir, açıklayabilir ve bu dillerde yüksek kaliteli kod üretebilir. Diller arasında çalışabilme ve karmaşık bilgiler hakkında mantık yürütebilme yeteneği, onu dünyada kodlama için önde gelen temel modellerden biri haline getirmektedir.
Gemini Ultra, aralarında HumanEval‘ın da bulunduğu çeşitli kodlama karşılaştırmalarında üstünlük sağlıyor, kodlama görevlerindeki performansı değerlendirmek için önemli bir endüstri standardı ve Natural2Code, Web tabanlı bilgiler yerine yazar tarafından oluşturulmuş kaynakları kullanan iç veri setimiz.
Gemini, daha gelişmiş kodlama sistemleri için motor olarak da kullanılabilir. İki yıl önce sunmuş olduğumuz AlphaCode programlama yarışmalarında rekabetçi bir performans düzeyine ulaşan ilk yapay zeka kod üretim sistemidir.
Gemini’nin özel bir versiyonunu kullanarak daha gelişmiş bir kod üretme sistemi oluşturduk.
AlphaCode 2, kodlamanın ötesine geçerek karmaşık matematik ve teorik bilgisayar bilimlerini içeren rekabetçi programlama problemlerini çözmede başarılıdır.
Google yapay zeka ve ai uygulaması, Gemini ‘nin kodlama ve rekabetçi programlamada başarılı olduğunu iddia ediyor. Orijinal AlphaCode ile aynı platformda değerlendirildiğinde;
AlphaCode 2 büyük gelişmeler gösteriyor, neredeyse iki kat daha fazla problem çözme ve rekabet katılımcılarının %85’inden AlphaCode için yaklaşık %50’den daha iyi performans gösterdiğini tahmin ediliyor.
Programcılar, takip edilecek kod örnekleri için belirli özellikleri tanımlayarak AlphaCode 2 ile işbirliği yaptığında, daha da iyi performans gösterir.
Kod tasarımları önerin ve uygulamaya yardımcı olun – böylece uygulamaları yayınlayabilir ve daha iyi hizmetleri daha hızlı tasarlayabilirler. AlphaCode 2 Teknik Raporu
Daha güvenilir, ölçeklenebilir ve verimli
Gemini 1.0’ı, Google’ın şirket içinde tasarlanmış Tensör İşleme Birimleri (TPU’lar) v4 ve v5e’yi kullanarak yapay zeka için optimize edilmiş altyapımızda geniş ölçekte eğitilmiş.
Ve bunu, eğitmek için en güvenilir ve ölçeklenebilir modelimiz ve hizmet vermek için en verimli modelimiz olacak şekilde tasarladık.
TPU’larda Gemini, daha önceki, daha küçük ve daha az yetenekli modellerden önemli ölçüde daha hızlı çalışır.
Bu özel tasarım yapay zeka hızlandırıcıları, Google’ın Arama, YouTube, Gmail, Google Haritalar, Google Play ve Android gibi milyarlarca kullanıcıya hizmet veren yapay zeka destekli ürünlerinin merkezinde yer alıyor.
Ayrıca, dünyanın dört bir yanındaki şirketlerin büyük ölçekli yapay zeka modellerini uygun maliyetli bir şekilde eğitmelerini sağladılar.
Bugün, bugüne kadarki en güçlü, verimli ve ölçeklenebilir TPU sistemini duyuruyoruz, Cloud TPU v5p, son teknoloji yapay zeka modellerini eğitmek için tasarlanmıştır.
Bu yeni nesil TPU, Gemini’nin gelişimini hızlandıracak ve geliştiricilere ve kurumsal müşteriler, büyük ölçekli üretken yapay zeka modellerini daha hızlı eğiterek yeni ürün ve yeteneklerin müşterilere daha erken ulaşmasını sağlıyor.
Google veri merkezinde bir sıra Cloud TPU v5p yapay zeka hızlandırıcı süper bilgisayar.
Gemini Sorumluluk ve güvenlik ön planda tutularak inşa edilmiştir
Google, yapay zeka Gemini’yi sorumlu güvenlik öncelikli olarak geliştiridiğini söylüyor. Google’ın YZ İlkelerini ve ürünlerimizdeki sağlam güvenlik politikalarını temel alarak, Gemini’nin çok modlu yeteneklerini hesaba katmak için yeni korumalar ekliyor. Geliştirmenin her aşamasında potansiyel riskleri göz önünde bulunduruyor ve bunları test ederek azaltmaya çalışıyor.
Gemini’nin önyargı ve toksisite de dahil olmak üzere bugüne kadarki tüm Google AI modellerinin en kapsamlı güvenlik değerlendirmelerine sahip olduğu söyleniyor. Siber suç, ikna ve özerklik gibi potansiyel risk alanlarında novel araştırmalara ve Google Research’e göre sınıfının en iyisi adversarial test teknikleri Gemini’nin konuşlandırılmasından önce kritik güvenlik sorunlarının belirlenmesine yardımcı olmak için uygulanmış.
İç değerlendirme yaklaşımımızdaki kör noktaları tespit etmek amacıyla, modellerimizi bir dizi konuda stres testine tabi tutmak için çeşitli dış uzmanlar ve ortaklardan oluşan bir grupla birlikte çalışıyoruz.
Gemini’nin eğitim aşamaları sırasında içerik güvenliği sorunlarını teşhis etmek ve çıktısının politikalarımıza uygun olduğundan emin olmak için, Allen Institute for AI’daki uzmanlar tarafından geliştirilen ve web’den alınan çeşitli toksisite derecelerine sahip 100.000 istemden oluşan bir dizi olan Real Toxicity Prompts gibi karşılaştırma ölçütlerini kullanıyoruz. Bu çalışmayla ilgili daha fazla ayrıntı yakında gelecek.
Zararı sınırlamak için, örneğin şiddet veya olumsuz stereotipler içeren içeriği tanımlamak, etiketlemek ve ayırmak için özel güvenlik sınıflandırıcıları oluşturduk. Sağlam filtrelerle birleştirilen bu katmanlı yaklaşım, Gemini’yi herkes için daha güvenli ve daha kapsayıcı hale getirmek üzere tasarlandı. Buna ek olarak, modeller için gerçeklik, topraklama, atıf ve doğrulama gibi bilinen zorlukları ele almaya devam ediyoruz.
Sorumluluk ve güvenlik, modellerimizin geliştirilmesi ve uygulanmasında her zaman merkezi bir öneme sahip olacaktır.
Bu, işbirliği içinde çalışmayı gerektiren uzun vadeli bir taahhüttür, bu nedenle en iyi uygulamaları tanımlamak ve MLCommons gibi kuruluşlar aracılığıyla emniyet ve güvenlik ölçütlerini belirlemek için sektör ve daha geniş ekosistemle ortaklık yapıyoruz,
Frontier Model Forum ve onun YZ Güvenlik Fonu ve Kamu ve özel sektördeki YZ sistemlerine özgü güvenlik risklerini azaltmaya yardımcı olmak için tasarlanan Güvenli YZ Çerçevesi (SAIF).
Gemini’yi geliştirirken dünyanın dört bir yanındaki araştırmacılar, hükümetler ve sivil toplum gruplarıyla ortaklık kurmaya devam edeceğiz.
Gemini’yi dünyanın kullanımına sunmak
Gemini 1.0 şimdi bir dizi ürün ve platformda kullanıma sunuluyor: Google ürünlerinde Gemini Pro Gemini’yi Google ürünleri aracılığıyla milyarlarca insana ulaştıracak.
Bugünden itibaren, Bard daha gelişmiş muhakeme, planlama, anlama ve daha fazlası için Gemini Pro nun ince ayarlanmış bir versiyonunu kullanacak.
Bu, kullanıma sunulduğundan bu yana Bard’a yapılan en büyük güncelleme gelmiş. İngilizce olarak 170’ten fazla ülke ve bölgede kullanılabilecek, Yakın gelecekte farklı modalitelere geçmeyi ve yeni dilleri ve lokasyonları desteklemeyi planlıyorlar.
Ayrıca Google Gemini’yi Pixel’e getirmeyi planlıyor.
Pixel 8 Pro, kaydedici uygulamasında özetleme ve Gboard’da Akıllı Yanıtlama gibi yeni özelliklere güç veren Gemini Nano’yu çalıştırmak üzere tasarlanan ilk akıllı telefon, WhatsApp ile başlayarak gelecek yıl daha fazla mesajlaşma uygulamasına gelebilir.
Önümüzdeki aylarda Gemini; Arama, Reklamlar, Chrome ve Duet AI gibi daha fazla ürün ve hizmetimizde kullanılabilecek.
Google, Gemini’yi Arama’da test etmeye başladığını, Search Generative Experience (SGE)’yi kullanıcılar için daha hızlı hale getirdiğini, gecikmeyi % 40 oranında azalttığını ve ABD’de İngilizce kalitesini artırdığını söylüyor.
Gemini ile Yapay Zeka İnşa Etmek
Geliştiriciler ve kurumsal müşteriler 13 Aralık’tan itibaren Google AI Studio’daki Gemini API’si veya Google Cloud Vertex AI aracılığıyla Gemini Pro’ya erişebilecekler.
Google AI Studio, bir API anahtarı ile uygulamaları hızlı bir şekilde prototiplemek ve başlatmak için ücretsiz, web tabanlı bir geliştirici aracı.
Tam olarak yönetilen bir yapay zeka platformunun zamanı geldiğinde, Vertex AI, Gemini’nin tam veri kontrolü ile özelleştirilmesine olanak tanır ve kurumsal güvenlik, emniyet, gizlilik ve veri yönetimi ve uyumluluğu için ek Google Cloud özelliklerinden yararlanıyor.
Android geliştiricileri de Gemini Nano ile geliştirme yapabilecekler, Pixel 8 Pro cihazlarından başlayarak Android 14’te sunulan yeni bir sistem özelliği olan AICore aracılığıyla cihaz üzerindeki görevler için en verimli modeli. AICore‘un erken önizlemesi için buradan kaydolabilirsiniz.
Gemini Ultra çok yakında
Google Gemini Ultra için şu anda güvenilir harici taraflarca yeniden izleme de dahil olmak üzere kapsamlı güven ve güvenlik kontrollerini tamamlıyor, ve modeli genel kullanıma sunmadan önce ince ayar ve insan geri bildiriminden takviye öğrenme (RLHF) kullanarak daha da iyileştiriyor.
Bu sürecin bir parçası olarak Gemini Ultra’yı belirli müşterilerin, geliştiricilerin ve iş ortaklarının kullanımına sunuyor, önümüzdeki yılın başlarında geliştiricilere ve kurumsal müşterilere sunmadan erken deneme ve geri bildirim için güvenlik ve sorumluluk uzmanlarına sunulacak.
Google Gelecek yılın başlarında, Gemini Ultra’dan başlayarak en iyi modellere ve yeteneklere erişmenizi sağlayan yeni, son teknoloji bir AI deneyimi olan Bard Advanced‘i de piyasaya sürecek.
Gemini çağı: geleceğin inovasyonunu mümkün kılmak
Bu, Google yapay zekanın geliştirilmesinde önemli bir kilometre taşı.
Gemini’de şu ana kadar büyük ilerleme kaydettiğini söylüyor ve gelecek sürümler için yeteneklerini daha da genişletmek için çok çalışıyor, planlama ve hafızadaki ilerlemeler ve daha iyi yanıtlar vermek üzere daha fazla bilgiyi işlemek için bağlam penceresinin artırılması dahil.
Google Yapay Zeka ile ilgili şunları söylüyor
Yapay zeka tarafından sorumlu bir şekilde güçlendirilmiş bir dünyanın inanılmaz olasılıkları bizi heyecanlandırıyor – inovasyonun geleceği yaratıcılığı artıracak, bilgiyi genişletecek, bilimi ilerletecek ve dünya çapında milyarlarca insanın yaşama ve çalışma şeklini dönüştürecek.
Google
Gemini ile ilgili daha fazla bilgiye buradan ulaşabilirsiniz.