Първо, такъв домейн и такава услуга не същестуват, името е избрано съвсем произволно.
Това е една задачка за губене на свободно време, дърлене, малко математика и такива разни работи.
Значи идеята е следната:
somepopularfilehostingservice.com е популярна услуга за качване на файлове, нещо като data.bg, само че платено, бързо и сигурно. Да речем че услугата има 1 милион потребителя като всеки потребител е качил средно по 100 файла, така общият брой на качените файлове е 100 милиона. Файловете са с различна големина и различно съдържание разбира се.
Всеки ден на тези 100 милиона файла се прави бекъп. Сега разбира се, копирането на 100 милиона файла е ужасно бавна и пипкава процедура, ужасно ресурсоемка (представете си как терабайти данни се компресират, пращат по мрежата и се записват на отдалечения storage). Това твърде вероятно ще отнеме повече от ден и съответно идеята с всекидневните бекъпи става невъзможна.
По този повод, софтуера за бекъпване е малко по-интелигентен - той си има една хубава база с MD5 суми на качените файлове - после просто проверява MD5 сумата на всеки файл и ако има разлика си ъпдейтва базата и праща по мрежата въпросния файл на отдалечената машина. Въпреки че md5sum на всичките 100 милиона файлове е бавна операция, то компресирането на всички файлове и копирането им по мрежата е доста по-бавна и затормозяваща, така че дневния бекъп евентуално по този начин става възможен. С цел базата да не става гигантска, в нея се пазят само хешове, без имена на файлове. Тоза защото един MD5 хеш е 16 байта, следователно 100 милиона хеша са гигабайт и половина. Ако добавим към хеша и път и име на файла, базата ще стане в пъти по-голяма, ще стане проблем цялата да се зареди в паметта и да се обхожда, а постоянното й четене от диска е доста бавно, значи по-добре само хешове да се пазят. Възможното множество хешове е 2^128 - т.е 4 милиарда по 4 милиарда по 4 милиарда по 4 милиарда - безумно голяма стойност на фона на която 100-те милиона файла са супер малка бройка и дефакто се очаква колизии на практика да не се случват.
Ако все пак се случи колизия ще бъде леко гадно - реално погледнато ще се бекъпва само първият срещнат файл с такава хеш сума, вторият евентуално - не. Следвайки законите на Мърфи, това ще се окаже супер-хипер-мега важния файл на някой кисел костюмиран пърдялник.
Та задачата е следната - каква е вероятността при 100 милиона файла, да се намери каквато и да било двойка файлове с еднаква хеш сума?
П.П. нито гномския, нито на КДЕ калкулатора могат да смятат с нужната прецизност, за да ви изкарат правилния отговор. Ако наистина искате да ви бъде сметнато, препоръчвам SpeedCrunch - доста добър калкулатор е и го има в хранилищата на по-разпространените дистрибуции (поне със сигурност го има в тези на дебиан и в тези на федора.
Всъщност правилният отговор не е толкова важен, той и без това е едно дъъъълго число, по-интересна е самата сметка