juan_gandhi | nonbinary search part 2

You're viewing

juan_gandhi's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

Stats I got.

I count the average number of comparisons now. There's a challenge, implementing linear interpolation for strings, for instance. Doable, I guess. Thanks a lot for the idea of the integral of Cantor Set. It helped a lot to improve the algorithm.

dataset	size	boosted search	standard binary
Sine	10000	9.00	15.36
Cantor Set	1025	16.00	17.86
Convex/concave	218983	4.52	6.45
Concave	109990	4.96	5.00
Linear	50000	3.00	15.36
Convex	108993	3.60	5.00
Concave	10002	3.71	4.10

Flat | Top-Level Comments Only

From:

spamsink.livejournal.com

There's a challenge, implementing linear interpolation for strings, for instance.

Why? They are base-256 numbers, all of the same alleged very large length, with implied 0s at the end.

From:

juan-gandhi.livejournal.com

Yes, that's my plan. :)

From:

spamsink.livejournal.com

Тут еще такое дело, что игра, по-видимому, стоит свеч только тогда, когда деление как минимум такое же быстрое, как сравнение. Для чисел, например, вряд ли.

From:

nivanych.livejournal.com

Зависит от исходной задачи, от количества данных, по которым надо искать.

From:

juan-gandhi.livejournal.com

Да ну ладно, длинные поделить, много ли там. Правда, и сравнение бесплатно.
А вещественные поделить тоже фигня. Вот трансформировать строку в вещественное, это надо как-то насобачиться.

From:

spamsink.livejournal.com

Трансформировать строки нужно в целые, начиная с первого отличающегося байта.

Рассмотрим набор aaa...aaa, aaa...aaб, ааа...аая, я, где букв а достаточно много, чтобы сделать численные представления строк одинаковыми.
Допустим, мы ищем ааа...ааю. Тогда у нас честный пропорциональный поиск превратится в линейный. Чтобы этого избежать, проверяемая позиция должна отстоять от края интервала не менее чем на какую-нибудь долю.

Ну и более или менее очевидное, но еще вопрос, насколько существенное на современных архитектурах: если мы помним, по какому количеству символов совпадают границы, то сравнивать будет нужно меньше.

Edited Date: 2016-10-21 03:48 pm (UTC)

From:

juan-gandhi.livejournal.com

Откуда ж целые, если одна строка аааччччч, а другая аааш?

From:

spamsink.livejournal.com

У нас есть три строки: две границы и искомая. Ликвидируем все начальные байты, совпадающие во всех трех строках, и берем следующие 4 или 8 в качестве целых чисел. Если число, соответствующее искомой строке, равно одному из граничных, в качестве тестовой позиции берем отстоящую на N% от этой границы, иначе пропорционально.

From:

juan-gandhi.livejournal.com

Ага; первая часть очевидна. нужно брать отрезок. А дальше - идея обрезать несколько первых цифр эквивалентна превращению в вещественные и последующему округлению. Ну типа имеем числа с фиксированной точкой. Имеет смысл, конечно, т.к. все числа между нулем и единицей (в вещественном представлении), а у длинных на мантиссу больше места остается. И преобразование элементарно.

From:

zyxman.livejournal.com

Что-то запахло переизобретением Soundex :)

https://ru.wikipedia.org/wiki/Soundex

Flat | Top-Level Comments Only

Profile

Juan-Carlos Gandhi

patryshev.com

June 2025

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

Active Entries

1: про языки

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Jul. 10th, 2025 03:57 pm

	
		OSZAR »

Observations

Views from Souths

nonbinary search part 2

nonbinary search part 2

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

June 2025

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags