Public Datasetler: Pratik İçin Açık Veri Kümeleri

Ömür Yalçın Mutlu · Güncellendi: 2 Temmuz 2026

Kısa cevap

Public dataset, herkesin açık bir lisansla erişip kullanabildiği veri kümesidir. Pratik yaparken en büyük ikilem “hangi veriyle çalışayım?” olur. En güvenli başlangıç, izinli ve temiz örnek kümelerdir: SQL için BigQuery genel veri kümeleri, hazır konu başlıkları için Kaggle, klasik makine öğrenmesi için UCI, kamu verisi için data.gov, konu bazlı arama için Google Dataset Search. Küme seçerken dört şeye bak: lisans, kişisel veri riski, güncellik ve analize uygunluk.

Public dataset nedir, neden önemli?

Public (açık) dataset, bir kurum veya topluluğun açık bir lisansla yayınladığı, indirip üzerinde çalışabileceğin veri kümesidir. Öğrenirken değeri şudur: gerçek bir veriyle çalışmadan analiz becerisi olgunlaşmaz. Kurs örnekleri denetimli ve steril olur; açık veri ise eksik değerleri, tuhaf dağılımları ve yorum gerektiren belirsizlikleriyle seni gerçek işe hazırlar.

Bir benzetme: açık veri kümeleri, müziği yeni öğrenen biri için “çalışma parçaları” gibidir. Kolaydan zora, temizden karmaşığa seçilmiş parçalarla çalışırsın; hazır olmadan doğaçlamaya (kendi ham verini toplamaya) girişmezsin.

Güvenilir kaynaklar: hangisi ne zaman?

Her kaynak farklı bir ihtiyaca oturur. Kalıp şudur: SQL ve büyük veri için BigQuery, hazır konu ve topluluk için Kaggle, klasik ve belgeli kümeler için UCI, kamu verisi için data.gov, “bir yerde bir veri olmalı” dediğinde ise Google Dataset Search.

BigQuery Public Datasets

Büyük veriyi indirmeden, tarayıcıdan SQL ile sorgulamak istediğinde. SQL pratiği ve 'gerçek ölçekte' çalışma için ilk durak.

Kaggle Datasets

Hazır, konu başlıklı ve çoğu zaman açıklamalı CSV kümeleri aradığında; makine öğrenmesi alıştırmaları ve topluluk not defterleriyle birlikte öğrenmek için.

UCI ML Repository

Klasik, iyi belgelenmiş ve akademik olarak yerleşmiş makine öğrenmesi kümeleri istediğinde; kavramı temiz bir veriyle çalışmak için.

data.gov

Kamu / açık yönetim verisiyle (resmi istatistikler, kamu kayıtları) çalışmak istediğinde; gerçek dünyaya bağlı, güvenilir kaynaklı analiz için.

Google Dataset Search

Belirli bir konuda 'bir yerde bir veri kümesi olmalı' dediğinde; farklı kaynaklardaki kümeleri tek yerden aramak için bir arama motoru gibi kullan.

Dataset seçim kriterleri

Bir kümeye “evet” demeden önce dört kontrol noktasından geçir. Bu dört soru, hem etik hem pratik olarak seni doğru veriye yönlendirir.

Lisans ve kullanım izni

Her kümenin bir kullanım koşulu vardır. İndirmeden önce 'öğrenme ve paylaşım için serbest mi, ticari kullanım kısıtlı mı, atıf gerekiyor mu' sorularını yanıtla. Lisansı belirsiz veriyi portföyünde kullanma.

Kişisel veri riski

İsim, e-posta, konum gibi kişiyi tanımlayan alanlar varsa dikkatli ol. Öğrenme için anonimleştirilmiş veya kişi içermeyen kümeleri tercih et; kişisel veriyle çalışman gerekiyorsa yalnız toplam/eğilim düzeyinde yorumla.

Güncellik ve kaynak güvenilirliği

Verinin ne zaman ve kim tarafından derlendiğini bil. Resmî/kurumsal kaynaklar (kamu portalları, tanınmış arşivler) analizinin güvenilirliğini artırır; kaynağı belirsiz veri, bulgularını da belirsiz yapar.

Analize uygunluk

Küme, öğrenmek istediğin beceriyle örtüşmeli: SQL pratiği için tablo hâlinde, temiz ve anlaşılır; EDA pratiği için birkaç ilginç sütun içeren orta boy bir küme ideal. Çok küçük veri sıkıcı, çok büyük veri (ve maliyet) yorucu olabilir.

Yeni başlayan için önerilen kümeler

Aşağıdaki kümeler BigQuery genel veri kümelerinden seçilmiştir: indirmeden, tarayıcıdan SQL ile çalışabilirsin. En temiz başlangıç Shakespeare kümesidir; diğerleri “büyük veride dikkatli sorgu” refleksini kurar. Not: Shakespeare dışındaki kümelerde ilk görevden önce sütunları BigQuery konsolundaki tablo şemasından doğrula — sütun adını ezberden varsayma.

Yeni başlayanBigQuery Public Datasets

Shakespeare Kelime Sıklığı

bigquery-public-data.samples.shakespeare

Öğrettiği: GROUP BY + SUM + ORDER BY: özetleme ve sıralama kalıbı

Shakespeare oyunlarındaki kelimelerin geçiş sayıları. Her satır bir kelimeyi, o kelimenin bir eserdeki geçiş sayısını ve hangi eserde geçtiğini tutar. Küçük, temiz ve tek başına anlaşılır olduğu için ilk SQL pratiği için ideal.

İlk görev

En sık geçen 10 kelimeyi bul: kelimeyi ve toplam geçiş sayısını seç, kelimeye göre grupla, toplam sayıya göre azalan sırala ve ilk 10 satırı al. Bu, 'başına/toplam/en çok' sorularının SQL kalıbını (GROUP BY + SUM + ORDER BY + LIMIT) tek örnekte kurar.

Mini proje

Tek bir eseri (ör. hamlet) filtreleyip en sık 10 kelimesini çıkar, sonra ikinci bir eserle karşılaştır: 'iki eserin en sık kelimeleri ne kadar örtüşüyor?' sorusunu kısa bir bulgu notuyla yanıtla.

Araç: BigQuery Console (tarayıcı) veya bq CLI

Lisans / risk: Genel (public) örnek veri; kişisel veri içermez, öğrenme amacıyla serbestçe sorgulanır. Yine de her sorgunun taradığı veri miktarına dikkat et.

Kaynağı aç ↗
OrtaBigQuery Public Datasets

Natality (Doğum İstatistikleri)

bigquery-public-data.samples.natality

Öğrettiği: Büyük tabloda filtreleme, tarih/yıl kırılımı ve dikkatli tarama

Yıllara yayılan, ABD kaynaklı doğum kayıtlarından oluşan büyük bir istatistik kümesi (anonimleştirilmiş, kişi kimliği içermez). Zaman içinde eğilim analizi ve gruplara göre karşılaştırma pratiği için elverişlidir. Milyonlarca satır içerdiği için 'ne kadar veri taradığına dikkat et' refleksini öğretir.

İlk görev

Önce sütunları BigQuery konsolunda tablo şemasından doğrula (bu kümenin sütun adlarını ezberden yazma). Ardından yıl bazında satır sayısını veya basit bir ortalamayı çıkararak zaman eğilimini gör. Sorgu maliyetini düşürmek için mümkünse yalnız gerekli sütunları ve bir yıl aralığını seç.

Mini proje

Seçtiğin birkaç yıl için bir ölçünün (şemadan seçtiğin, doğrulanmış bir sayısal sütun) yıllara göre nasıl değiştiğini özetle ve tek grafikle anlatılabilir bir eğilim bulgusu yaz.

Araç: BigQuery Console + Looker Studio (görselleştirme)

Lisans / risk: Anonim istatistik verisidir; yine de hassas bir alan olduğu için bulguları dikkatli ve genelleyici dille yorumla. Büyük tablo — taranan veri miktarını sınırla.

Kaynağı aç ↗
OrtaBigQuery Public Datasets

GSOD (Küresel Günlük Hava Özetleri)

bigquery-public-data.samples.gsod

Öğrettiği: Zaman serisi düşüncesi, istasyon/tarih kırılımı, birim dikkati

Dünya genelindeki istasyonlardan derlenen günlük hava durumu özetleri (sıcaklık, yağış gibi ölçüler zamana ve konuma bağlı). Zaman serisi analizi, mevsimsellik ve konum bazlı karşılaştırma pratiği için güçlü bir kümedir.

İlk görev

Sütun adlarını konsol şemasından doğrula, sonra tek bir istasyon veya kısa bir tarih aralığı seçerek bir ölçünün günlük değişimini çıkar. Sıcaklık gibi ölçülerde birim (ör. Fahrenheit/Celsius) varsayımını şemadan teyit et.

Mini proje

Bir bölge/istasyon için seçtiğin bir dönemin ölçüsünü aylık ortalamaya indir, mevsimsel deseni bir zaman grafiğiyle göster ve tek paragraflık bir yorum yaz.

Araç: BigQuery Console + Looker Studio

Lisans / risk: Çevresel ölçüm verisi; kişisel veri içermez. Konum ve birim varsayımlarını doğrulamadan yorumlama. Büyük tablo — tarama miktarına dikkat et.

Kaynağı aç ↗
İleriBigQuery Public Datasets

GitHub Timeline (Genel Etkinlik Akışı)

bigquery-public-data.samples.github_timeline

Öğrettiği: Yarı-yapılı olay verisinde ayrıştırma ve sayım düşüncesi

GitHub üzerindeki genel (public) etkinliklerden oluşan bir olay akışı örneği: depo olayları, olay tipleri ve zaman bilgisi gibi alanlar içerir. Olay verisiyle çalışma, tip bazında sayım ve zaman kırılımı pratiği için uygundur.

İlk görev

Şemayı konsolda incele ve alan adlarını doğrula (bu kümede sütun adlarını varsayma). Ardından olay tipine göre bir sayım (COUNT) çıkararak 'hangi tip olay ne kadar sık?' sorusunu yanıtla.

Mini proje

Olay tiplerinin dağılımını çıkar ve en yaygın birkaç tipi bir çubuk grafikle özetle; 'bu akışta en çok ne oluyor?' sorusuna kısa bir bulgu notu yaz.

Araç: BigQuery Console

Lisans / risk: Genel (public) etkinlik verisidir; yine de kullanıcı adı gibi tanımlayıcı alanlar bulunabilir — kişilere dönük çıkarım yapmadan, toplam/eğilim düzeyinde yorumla.

Kaynağı aç ↗
İleriBigQuery Public Datasets

Wikipedia (Sayfa Metaverisi Örneği)

bigquery-public-data.samples.wikipedia

Öğrettiği: Çok büyük tabloda maliyet bilinci ve seçici sorgulama

Wikipedia sayfa ve düzenleme (revizyon) metaverisinden oluşan çok büyük bir örnek küme: başlık, düzenleme zamanı ve katkı büyüklüğü gibi alanlar içerir. 'Büyük veride nasıl ekonomik sorgu yazılır?' dersinin en iyi sahnesidir.

İlk görev

Önce şemayı ve alanları konsolda doğrula. Sonra maliyeti sınırlamak için yalnız ihtiyacın olan sütunları seç ve bir filtreyle küçük bir alt küme üzerinde çalış (ör. tek bir başlık deseni). Taranan veri miktarını sorgu öncesi tahmin etmeye alış.

Mini proje

Dar bir filtreyle küçük bir alt küme seç ve zaman içinde düzenleme yoğunluğunu özetle; 'bu konu ne zaman daha çok düzenlenmiş?' sorusuna sınırlı ama net bir bulguyla cevap ver.

Araç: BigQuery Console

Lisans / risk: Genel metaveridir; ana risk maliyettir — çok büyük tablo olduğu için filtresiz sorgudan kaçın, sütun ve satırı daralt. Kesin tarama/maliyet için resmi dokümanı esas al.

Kaynağı aç ↗

Bu kümelerle çalıştırılabilir ilk SQL sorgularını ve adım adım kurulumu BigQuery kurulum rehberinde bulacaksın.

Hangi küme hangi eğitim yoluna uygun?

  • SQL / Veri Analisti yolu: Shakespeare ile başla (GROUP BY + ORDER BY kalıbı), sonra natality veya gsod ile büyük tabloda seçici sorgulamaya geç.
  • Python ile Veri Analizi yolu: orta boy bir kümeyi (ör. Kaggle'dan konu başlıklı bir CSV) pandas ile oku ve sistematik EDA rutinini uygula.
  • İstatistik / Data Scientist yolu: UCI'nin klasik, belgeli kümeleriyle kavramı temiz veride çalış; sonra kendi hipotezini bir açık veriyle sına.
  • BI / Dashboard pratiği: gsod veya natality gibi zamana yayılan bir kümeyi Looker Studio'ya bağlayıp okunur bir pano kur.

Sonraki adım

Veri kaynağını seçtin. Şimdi onu sorgulayacak aracı kur: